从多个图像中提取文本

问题描述

我想从多张图片中提取文本。
我想在colab中做。
我知道如何用一张图片做到这一点:https://github.com/bhadreshpsavani/ExploringOCR/blob/master/OCRusingTesseract.ipynb
但是怎么做一个循环呢,因为我有一百多张图?
提前致谢!

解决方法

我将图片上传到根目录的 colab.research 中,并使用以下代码解决了此任务:

image_ext = ['.jpg','.png','.jpeg']
directory = '/'
for file in os.listdir(directory):
  ext = os.path.splitext(file)[-1].lower()
  if ext not in image_ext:
    continue
  filename = os.path.join(directory,file)
  
  extracted_information = pytesseract.image_to_string(Image.open(filename))
  print(extracted_information)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...