问题描述
我通读了所有的scraper检测线程,并提出了必要的Selenium选项的完整列表。
但是...
一些链接似乎会引起问题,我对此采取的措施没有任何印象。
一个网址,例如我无法造景,如下所示: www.mobilityhouse.com/de_de/zubehoer/ladekabel.html
这是我的刮刀。
爱知道,缺少什么。 而且由于我想节省资源(因为稍后要进行线程处理),所以我正在寻找一种无忧的解决方案。
谢谢!
代码:
########################
# scraper
########################
def seleniumhtml_url(link):
dic={}
dirname = os.path.dirname(__file__)
filepath = os.path.join(dirname,'chromedriver')
chrome_options = Options()
chrome_options.add_argument('--incognito')
chrome_options.add_argument("--enable-javascript")
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument("--disable-gpu")
chrome_options.add_argument(f'user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/79.0.3945.79 Safari/537.36')
chrome_options.add_argument('--disable-extensions')
chrome_options.add_argument('start-maximized')
chrome_options.add_argument('disable-infobars')
chrome_options.add_experimental_option("excludeSwitches",["enable-automation"])
chrome_options.add_experimental_option('useAutomationExtension',False)
driver = webdriver.Chrome(executable_path=filepath,chrome_options=chrome_options) # Optional argument,if not specified will search path.
driver.get(link)
#time.sleep(3) # Let the user actually see something!
html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")
driver.quit()
dic["html"] = html
return(dic)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)