检测到Python Selenium Scraper

问题描述

我通读了所有的scraper检测线程，并提出了必要的Selenium选项的完整列表。

但是...

一些链接似乎会引起问题，我对此采取的措施没有任何印象。

一个网址，例如我无法造景，如下所示： www.mobilityhouse.com/de_de/zubehoer/ladekabel.html

这是我的刮刀。

爱知道，缺少什么。而且由于我想节省资源（因为稍后要进行线程处理），所以我正在寻找一种无忧的解决方案。

谢谢！

代码：

########################
# scraper
########################

def seleniumhtml_url(link):
    dic={}    
    dirname = os.path.dirname(__file__)
    filepath = os.path.join(dirname,'chromedriver')
    
    chrome_options = Options()
    chrome_options.add_argument('--incognito')
    chrome_options.add_argument("--enable-javascript")
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument("--disable-gpu")
    chrome_options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/79.0.3945.79 Safari/537.36')
    chrome_options.add_argument('--disable-extensions')
    chrome_options.add_argument('start-maximized')
    chrome_options.add_argument('disable-infobars')
    chrome_options.add_experimental_option("excludeSwitches",["enable-automation"])
    chrome_options.add_experimental_option('useAutomationExtension',False)
    
    driver = webdriver.Chrome(executable_path=filepath,chrome_options=chrome_options)  # Optional argument,if not specified will search path.
    driver.get(link)
    #time.sleep(3) # Let the user actually see something!

    html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
    driver.quit()
    
    dic["html"] = html
   
    return(dic)

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

options python screen-scraping selenium

检测到Python Selenium Scraper

问题描述

解决方法

相关问答