问题描述
很抱歉我的问题含糊不清,因为我只是想开始一个项目。
我想要一个应用程序,它从我的 Windows 10 PC 上截取屏幕截图,然后从屏幕截图中识别文本数字和指定的符号/图像,然后将这些值存储在数据库中。我希望通过单击命令按钮自动执行此操作。
我偶然发现了一些关于 OCR 屏幕抓取的文章,但我不知道这是否真的可行,或者我该如何去做,或者获得可根据我的特定需求进行定制的软件。
所以基本上,我希望屏幕上有一个正在更新的应用程序打开,并且在相同的确切位置有特定的信息更新,所以我想编程来捕获多个特定的目标像素位置并解释文本字符/数字/符号/图像。
有人可以帮忙提出想法吗?
非常感谢!
解决方法
您要找的是这个项目:https://github.com/PaddlePaddle/PaddleOCR
我做了您正在寻找的确切工作,即从图像中获取数据(符号-数字-单词..)(在您的情况下为屏幕截图)
这个项目最大的特点是支持多语言识别:韩语、日语、德语、法语、英语...
我认为剩下的就是截取屏幕截图并将其解析到此工具并处理输出。
祝你好运!!!