问题描述
我如何获得有关pdf结构的信息,我是指文本还是图片?我需要我的程序才能在其他文件夹中移动没有文本的pdf,但是现在我只得到一个空的txt文件。
try (FileWriter writer = new FileWriter(outputFile)) {
PDDocument document = new PDDocument().load(file);
PDFTextStripper pdfTextStripper = new PDFTextStripper();
String text = pdfTextStripper.getText(document);
writer.write(text);
document.close();
} catch (IOException e){
e.printstacktrace();
}
此外,从保存在pdf网页中获取文本方面也存在问题。看起来像:
我认为编码有问题,但是不知道该怎么做