如何解决在R中使用pdf_tool的pdf_text函数将pdf转换为文本的可能的编码问题

问题描述

我尝试了以下代码来读取目录中的多个期刊文章pdf,将其转换为文本,并将其存储在r中的列表中。

myFiles <- list.files(path = ".",pattern = "pdf",full.names = TRUE)

parsedFiles <- lapply(myFiles,function(f) {
                        print(f)
                        tryPDF <- gsub("\\s+"," ",pdf_text(f))
                        if (all(tryPDF[-1] == "")) {
                          compiledPDF <- do.call(c,lapply(1:length(tryPDF),function(pg) {
                                                          bitmap <-
                                                            pdf_render_page(
                                                              pdf = f,page = pg,dpi = 200,numeric = TRUE
                                                            )
                                                          tiff::writeTIFF(bitmap,"temp.tiff")
                                                          out <- ocr("temp.tiff")
                                                          return(out)
                                                        }))
                          return(compiledPDF)
                          
                        }
                        return(tryPDF)
                      })

但是我得到了我认为是编码错误的信息,其中fi或类似firms的单词在pdf文本版本中显示为efficient ,例如<U+FB01><U+FB01>rms

关于如何调整以上代码以解决此问题的任何想法?现在有什么想法吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...