使用关键字directory函数它不使用R执行正确的计数

问题描述

我正在使用pepa函数提取pdf文档中带有“人工智能”一词的段落。但是，我不会用这些词来提取所有段落。我错过了很多。无法从文档末尾提取那些内容。

library(textreadr)
library(tidyverse)
library(pdfsearch)

dirct <- directory_path
result <- keyword_directory(dirct,keyword = 'Artificial Intelligence',split_pdf = TRUE,surround_lines = 0,full_names = TRUE)

例如，在此文件中： https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Management-Report.pdf/0a9c8382-c9ff-ba52-1d5b-e431a7efab3f

我只被提及22次，但是这个关键字（人工智能）却被提及40次

这是什么？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdf r r text-mining