如何从Scala中的PDF文件中提取其他sysmbols

问题描述

给出：一个PDF文件，我想从该pdf文件中提取符号。

尝试：

val foldedFlow = Flow[ByteString].fold(ByteString()) {
  case (bs,element) => bs ++ element
}
val logFlow = Flow.fromFunction { bytes: ByteString =>
  logger.info("Received test bytes: " + bytes.length)
  bytes
}

     val result: ByteString = Await.result(response.entity.dataBytes
          .via(logFlow)
          .via(foldedFlow)
          .runWith(Sink.head[ByteString])(client.materializer),10.seconds)
    
        val pdf = PDDocument.load(result.toArray[Byte])
        val stripper = new PDFTextStripper
        val contents = stripper.getText(pdf)
        pdf.close()
        contents

输入：

 私は素晴らしいよ原因こんにちは、これは日本語のテキストの例は、正しくレンダリ
ングです!
S0001 HEADACHE Mar 22,2014
S0008 NAUSEA May 18,2014
S0011 STOMACACHE Feb 12,2008
S0001 HEADACHE Mar 22,2008

输出：

S0001 HEADACHE Mar 22,2008

pdftextstripper无法从文件中提取“私は素晴らしいよ原因こんにちは，これは日本语のテキストの例は，正しくレン” 如何解决这个建议一些

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdf pdfbox scala