如何解决在R中使用pdf_tool的pdf_text函数将pdf转换为文本的可能的编码问题

问题描述

我尝试了以下代码来读取目录中的多个期刊文章pdf，将其转换为文本，并将其存储在r中的列表中。

myFiles <- list.files(path = ".",pattern = "pdf",full.names = TRUE)

parsedFiles <- lapply(myFiles,function(f) {
                        print(f)
                        tryPDF <- gsub("\\s+"," ",pdf_text(f))
                        if (all(tryPDF[-1] == "")) {
                          compiledPDF <- do.call(c,lapply(1:length(tryPDF),function(pg) {
                                                          bitmap <-
                                                            pdf_render_page(
                                                              pdf = f,page = pg,dpi = 200,numeric = TRUE
                                                            )
                                                          tiff::writeTIFF(bitmap,"temp.tiff")
                                                          out <- ocr("temp.tiff")
                                                          return(out)
                                                        }))
                          return(compiledPDF)
                          
                        }
                        return(tryPDF)
                      })

但是我得到了我认为是编码错误的信息，其中fi或类似firms的单词在pdf文本版本中显示为efficient ，例如<U+FB01>和<U+FB01>rms

关于如何调整以上代码以解决此问题的任何想法？现在有什么想法吗？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdftools r

如何解决在R中使用pdf_tool的pdf_text函数将pdf转换为文本的可能的编码问题

问题描述

解决方法

相关问答