问题描述
我尝试了以下代码来读取目录中的多个期刊文章pdf,将其转换为文本,并将其存储在r中的列表中。
myFiles <- list.files(path = ".",pattern = "pdf",full.names = TRUE)
parsedFiles <- lapply(myFiles,function(f) {
print(f)
tryPDF <- gsub("\\s+"," ",pdf_text(f))
if (all(tryPDF[-1] == "")) {
compiledPDF <- do.call(c,lapply(1:length(tryPDF),function(pg) {
bitmap <-
pdf_render_page(
pdf = f,page = pg,dpi = 200,numeric = TRUE
)
tiff::writeTIFF(bitmap,"temp.tiff")
out <- ocr("temp.tiff")
return(out)
}))
return(compiledPDF)
}
return(tryPDF)
})
但是我得到了我认为是编码错误的信息,其中fi
或类似firms
的单词在pdf文本版本中显示为efficient
,例如<U+FB01>
和<U+FB01>rms
关于如何调整以上代码以解决此问题的任何想法?现在有什么想法吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)