Java pdfbox用印地语从PDF读取文本非英语PDF

问题描述

我正在使用 Java PDFBOX 从PDF读取文本。英语的PDF可以正常使用。但是我想用英语以外的其他语言从PDF读取数据。 PDF中的语言为“ 印地语”（来自印度）。在这种情况下，我得到的数据就像编码的字符串。我如何以原始语言（印地语）获取此数据

import java.io.IOException;
import java.io.PrintWriter;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;
import org.apache.pdfbox.pdmodel.PDDocument;
import java.io.File;

public class PDF2DataExample
{
    public static void main(final String[] args) throws Exception {
        String SRC = "";
        String DEST = "";
        for (final String s : args) {
            SRC = args[0];
            DEST = args[1];
        }
        final File file = new File(DEST);
        file.getParentFile().mkdirs();
        try {
            PDDocument document = null;
            document = PDDocument.load(new File(SRC));
            document.getClass();
            final PDFTextStripperByArea stripper = new PDFTextStripperByArea();
            stripper.setSortByPosition(true);
            final PDFTextStripper Tstripper = new PDFTextStripper();
            final String st = Tstripper.getText(document);
            try {
                final PrintWriter writer = new PrintWriter(DEST,"UTF-8");
                writer.println("Text:" + st);
                writer.close();
            }
            catch (IOException ex) {}
        }
        catch (Exception e) {
            e.printStackTrace();
        }
    }
}

我出去像

PkvTkv bUk#kmrTkv ¢Tkn^kkR QkkZk Pkkv H Uk|Ak#kTk bkgUkoOkrUkOkv bkYkkHTkv \kkXkRkZkA Tkm^kMv ¢vYk

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

java java pdf-parsing pdfbox