使用 RSelenium 进行抓取不包含应该存在的所有信息?

问题描述

我想抓取以下页面https://www.ochsnersport.ch/de/shop/neutral-ausruestung-00015642-c.html?page=2

由于我想要的信息是动态的(我猜是 java),我使用 RSelenium。

不幸的是,我遇到了一个问题,在输出中无法找到来自网站的所有信息。我试过这个:

rD<-rsDriver(browser = 'firefox',port = 564L)
remDr<-rD$client

remDr$navigate('https://www.ochsnersport.ch/de/shop/neutral-ausruestung-00015642-c.html?page=2')
html_sportarten<-read_html(remDr$getPageSource()[[1]])

test<-html_sportarten %>%
  html_nodes('section a div div div a')%>%
  html_attr('href')

输出如下所示: [1] "/de/shop/powerzone-yoga-set-beige-0000200191551800000001-p.html"
[2] "/de/shop/46-nord-oxford-20-l-rucksack-gruen-0000200169931100000007-p.html"
[3] "/de/shop/46-nord-kinder-skihelm-brille-gruen-00002001883598-p.html"
[4] "/de/shop/46-nord-chelsea-14-l-rucksack-hellblau-0000200169930600000002-p.html"
[5] "/de/shop/beach-mountain-matrix-herren-sNowboard-2021-schwarz-weiss-00002001881722-p.html" [6] "/de/shop/kettler-tour-600-ergometer-schwarz-0-0000200189576900000001-p.html"
[7] "/de/shop/kettler-optima-600-crosstrainer-schwarz-0-0000200189577600000001-p.html"
[8] "/de/shop/46-nord-maedchen-skihelm-brille-pink-00002001883596-p.html"
[9] "/de/shop/rossignol-nova-6-damen-ski-set-1920-schwarz-00002001764332-p.html"
[10] "/de/shop/atomic-vantage-130-150-cm-jungen-ski-set-1920-blau-00002001773874-p.html"
[11] "/de/shop/salomon-smax-10-ski-set-2021-schwarz-00002001883611-p.html"
[12] "/de/shop/voelkl-racetiger-sc-ski-2021-gelb-00002001939924-p.html"

但是使用这个节点,实际上应该可以找到48个带有href属性的url? 有人知道这里可能有什么问题吗?

我实际上非常确定,此时并未提取我想要的所有信息:

html_sportarten<-read_html(remDr$getPageSource()[[1]])

如果我只这样做:

html_sportarten<-remDr$getPageSource()[[1]]

相关资料不存在

最好的问候,非常感谢您的帮助! 大卫

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)