问题描述
到目前为止,我在抓取网站时都使用了此代码,以前的代码给出了变量的名称,但是出于这个问题的目的,我认为比我对使用过滤器或只需另一个整理文本包即可。
我只想选择包含冒号的“行”,因为我认为这是区分本网站上包含书名的行和不包含冒号的行的最佳方法。使用另一个网站提供的示例使用过滤器(行%>%str_starts(“”)),但是str_starts函数对该网站无用。那么我将如何使用filter()函数来获取我需要的行?我提供了该标题的屏幕截图。
episode_1544_tbl %>%
unnest_lines(output = lines,input = text,to_lower = FALSE) %>%
mutate(lines = lines %>%
str_trim())
filter(lines %>% str_detect(lines,".*:"))
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)