Web在R中抓取HTML表需要花费大量时间

问题描述

伙计们，我正在尝试取消一个链接，该链接大约有1000多个记录，但是要花很长时间才能获取它们。.想知道我做错了什么还是将其加载到表中的方法。

urlString = "https://www.valueresearchonline.com/funds/selector-data/primary-category/1/equity/?tab=snapshot&output=html-data"
urlString <- URLencode(paste0(urlString,""))

#Reading the HTML code from the website and process the text
getHTML <- xml2::read_html(urlString,options = "HUGE")

#This one keeps running endlessly and doesn't load the table
mytable <- data.frame(getHTML %>% html_table(fill = T,trim = T))

任何帮助将不胜感激。谢谢

解决方法

链接是一个JSON文件。您需要先通过jsonlite阅读。 HTML数据位于html_data节点，您通过read_html读取了该节点：

json <- jsonlite::fromJSON("https://www.valueresearchonline.com/funds/selector-data/primary-category/1/equity/?tab=snapshot&output=html-data")
getHTML <- xml2::read_html(json$html_data)
mytable <- data.frame(getHTML %>% html_table(fill = T,trim = T))

r r rvest web-scraping xml2