问题描述
我有一堆公司名称及其地址。我要验证他们。一些公司名称不正确。(拼写错误,缩写等)。
为了获得正确的公司名称,我构建了一个Google搜索搜寻器,该搜索器会在给出查询时提取第一个搜索结果。因此,基本上,当我在Google中搜索公司名称时,(大多数情况下)我会获得公司的准确标题和URL。
还有其他方法可以从不正确的公司名称中获取正确的名称吗?有时,第1个搜索结果的方向不正确,并且调用Google Api的请求数量受到限制。如何解决这个问题?如果我收集以某种方式可以预测正确的公司名称或前5名的置信度的数据,我可以使用机器学习吗?
解决方法
确切的公司名称的概念是相对的,唯一的正式名称是在公司所在国家/地区注册的法定名称,但通常不是公众使用的名称(谁称Apple为“ Apple” Inc。”?)。
如果您正在寻找上市公司,则可以将股票市场中使用的名称作为参考。
例如,对于美国股票,SEC提供了list。 一些数据提供商也将提供此服务,包括非美国股票,例如Yahoo Finance python module if you use python或Quandl。
如果您要查找的公司未列出,则可能需要抓取某些网站,例如注册处或其他业务列表。
建立参考名称后,可以使用诸如Fuzzy Wuzzy之类的字符串匹配将必须具有的名称映射到所选参考。