如何清除由OCR进程在python中生成的随机符号?

问题描述

我正在研究将pdf转换为文本。一个突出的问题是,OCR似乎将目录中的点转换为某种随机噪声。

是否有任何方便的方法可以将这些内容从文本文档中清除?我只是担心这会影响我的后续文字分析。

Example

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)