问题描述
我正在使用 Java PDFBox 从PDF读取文本。英语的PDF可以正常使用。但是我想用英语以外的其他语言从PDF读取数据。 PDF中的语言为“ 印地语”(来自印度)。在这种情况下,我得到的数据就像编码的字符串。我如何以原始语言(印地语)获取此数据
import java.io.IOException;
import java.io.PrintWriter;
import org.apache.pdfBox.text.PDFTextStripper;
import org.apache.pdfBox.text.PDFTextStripperByArea;
import org.apache.pdfBox.pdmodel.PDDocument;
import java.io.File;
public class PDF2DataExample
{
public static void main(final String[] args) throws Exception {
String SRC = "";
String DEST = "";
for (final String s : args) {
SRC = args[0];
DEST = args[1];
}
final File file = new File(DEST);
file.getParentFile().mkdirs();
try {
PDDocument document = null;
document = PDDocument.load(new File(SRC));
document.getClass();
final PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.setSortByPosition(true);
final PDFTextStripper Tstripper = new PDFTextStripper();
final String st = Tstripper.getText(document);
try {
final PrintWriter writer = new PrintWriter(DEST,"UTF-8");
writer.println("Text:" + st);
writer.close();
}
catch (IOException ex) {}
}
catch (Exception e) {
e.printstacktrace();
}
}
}
我出去像
PkvTkv bUk#kmrTkv ¢Tkn^kkR QkkZk Pkkv H Uk|Ak#kTk bkgUkoOkrUkOkv bkYkkHTkv \kkXkRkZkA Tkm^kMv ¢vYk
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)