检测到Python Selenium Scraper

问题描述

我通读了所有的scraper检测线程,并提出了必要的Selenium选项的完整列表。

但是...

一些链接似乎会引起问题,我对此采取的措施没有任何印象。

一个网址,例如我无法造景,如下所示: www.mobilityhouse.com/de_de/zubehoer/ladekabel.html

这是我的刮刀。

爱知道,缺少什么。 而且由于我想节省资源(因为稍后要进行线程处理),所以我正在寻找一种无忧的解决方案。

谢谢!

代码:

########################
# scraper
########################

def seleniumhtml_url(link):
    dic={}    
    dirname = os.path.dirname(__file__)
    filepath = os.path.join(dirname,'chromedriver')
    
    chrome_options = Options()
    chrome_options.add_argument('--incognito')
    chrome_options.add_argument("--enable-javascript")
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/79.0.3945.79 Safari/537.36')
    chrome_options.add_argument('--disable-extensions')
    chrome_options.add_argument('start-maximized')
    chrome_options.add_argument('disable-infobars')
    chrome_options.add_experimental_option("excludeSwitches",["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension',False)
    
    driver = webdriver.Chrome(executable_path=filepath,chrome_options=chrome_options)  # Optional argument,if not specified will search path.
    driver.get(link)
    #time.sleep(3) # Let the user actually see something!

    html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
    driver.quit()
    
    dic["html"] = html
   
    return(dic)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...