Java-PDFBox-从PDF文件获取文本

问题描述

我想从PDF文件获取原始文本。
我正在这样做:

public String parsePDF (String fileNameorFilePath){
    File f = new File(fileNameorFilePath);
    String parsedText;
    PDFParser parser = null;
    try {
        parser = new PDFParser(new RandomAccessFile(f,"r"));
        parser.parse();
        COSDocument cosDoc = parser.getDocument();
        PDFTextStripper pdfStripper = new PDFTextStripper();
        PDDocument pdDoc = new PDDocument(cosDoc);
        parsedText = pdfStripper.getText(pdDoc);
        if (cosDoc != null) cosDoc.close();
        return parsedText;
    } catch (IOException e) {
        e.printstacktrace();
    }
    return null;
}

我收到此错误

java.io.IOException: Error : ~bfchar contains an unexpected operator : endcmap

在线

parsedText = pdfStripper.getText(pdDoc);

有办法避免这种情况吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)