问题描述
我有70个科学论文的PDF,我正在尝试使用<p id="settings-icon" class="fa fa-cog" onClick='attachModal()'>test</p>
的字典功能(属于tm软件包)在其中查找特定术语来缩小它们的范围。我的PDF存储在VCorpus对象中。这是一个使用原始数据集和通用术语的示例代码,这些术语会(可能)出现在每个示例论文中(以粗体显示):
inspect()
此搜索仅将10篇论文返回到output.matrix。给出的结果是:
library(tm)
output.matrix <- inspect(DocumentTermMatrix(crude,list(dictionary = c("i","and","all","of","the","if","i'm","looking","for","but","because","has","it","was"))))
output <- data.frame(output.matrix)
对于我的70篇论文的实际数据集,我知道应该大于10篇,因为当我向VCorpus添加更多PDF时(我知道其中至少包含我的一个搜索词),我的输出中仍然只有10篇。我想将结果调整为一个列表,如图所示,它给出了来自VCorpus的每张论文,其中包含一个术语,而不仅仅是我认为的第一个10。
使用R版本4.0.2,macOS High Sierra 10.13.6
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)