使用 R rvest

问题描述

作为自学 rvest 的一个例子，我试图抓取一个网站来抓取已经以表格格式编写的数据。唯一的问题是我无法获得底层表数据的输出。

我唯一真正需要的是玩家栏。

library(tidyverse)
library(rvest)


base <- "https://www.milb.com/stats/"
base2 <- "?page="
base3 <- "&playerPool=ALL"

html <- read_html(paste0(base,"pacific-coast/","2017",base2,"2",base3))

html2 <- html %>% html_element("#stats-app-root")
html3 <- html2 %>% html_text("#stats-body-table player")

https://www.milb.com/stats/pacific-coast/2017?page=2&playerPool=ALL（查看实际示例网址的简便方法）

“HTML 2”似乎可以工作，但我有点不知道从那里开始做什么。几次不同的尝试都碰壁了。

一旦成功，我将用数字替换文本并执行一些 for 循环（这看起来很简单）。

解决方法

如果您在 chrome 中“检查”页面，您会看到它正在调用下载 json 文件。自己做吧...

JSON.parse()

r r rvest web-scraping

使用 R rvest

问题描述

解决方法

相关问答