使用 C# 从 Excel 中读取和提取超链接

问题描述

所以我有一个 excel 文件,在那个文件中有指向 OCR 的 PDF 的超链接,我想:

  1. 从 Excel 文件转到超链接的 PDF
  2. 将 PDF 转换为文本文件
  3. 在 PDF 中搜索某个关键字,然后将该关键字粘贴回 excel 文件中,参考它所属的行。

如果有人能提供有关如何做到这一点的信息,那将是非常有帮助的。

解决方法

这看起来有点复杂。但我会采取以下方式:

  1. 您应该能够在 NuGet 上找到 import requests url = 'https://www.facilitron.com/api/search/facilities/facilitron' payload = { 'search_option[startLoc][]': ['-122.2913078','37.8271784'],'search_option[distance]': '20','search_option[activities][]': '-1','search_option[start_row]': '0','search_option[limit]': '15','search_option[types][]': '-1','search_option[namelike]': 'grass field' } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/87.0.4280.141 Safari/537.36','Referer': 'https://www.facilitron.com/searchfacility/u:facilitron/lat:37.8271784/lng:-122.2913078/dist:20/activities:-1/types:-1/namelike:grass%20field' } res = requests.post(url,data=payload,headers=headers) for item in res.json()['facilities']: print(item['name'],item['address']) 。谷歌似乎也有这样的教程:first link on google to a blog post

  2. 关于如何阅读 PDF 文件,还有关于堆栈溢出的帖子,如下所示:link to post

  3. 现在您可以使用步骤 1 中的库来更新您的 excel 文件

所以最终你必须寻找能让你的生活更轻松的图书馆。查看他们的文档,您的生活应该会变得更轻松...

如果您可以使用现有的代码,实际上您不必编写那么多。

顺便说一下,在以纯文本形式搜索关键字时,请查看正则表达式。 python也可以成为你的朋友。您可以首先提取 PDF 文件的所有链接并编写一个小脚本将所有这些 PDF 转换为纯文本,然后使用 c# 打开它。 link to a post about how to convert PDF to text via python