问题描述
|
我有一个带有\'name \'列(VARCHAR(255))的MysqL InnoDB表,希望用户能够对其进行搜索,并返回所有匹配的行。但是,我不能仅使用LIKE查询,因为搜索需要允许用户输入与可用名称相似的名称(例如,以\'The \'作为前缀,或者不知道正确的名称包含撇号) )。
两个示例是:
DB中的名称:\'Rose and Crown \'
可能匹配的示例搜索示例:\'Rose&Crown \',\'Rose and Crown \',\'rose and Crown \',\'The Rose and Crown \'
DB中的名称:\'diver \'s Inn \'
可能匹配的示例搜索示例:\'divers \'Inn \',\'The diver \'s Inn \',\'divers Inn \'
我还希望能够通过“最接近匹配”的相关性对结果进行排名,尽管我不确定如何完成(也许编辑距离?)。
该表不可能增长到超过几千行,因此一种不扩展到数百万行的方法是可以的。输入后,给定行的名称值将不会更改,因此,如果需要昂贵的索引操作,则不会有问题。
有没有可以执行此任务的工具?我已经看过Zend_Search_Lucence,但这似乎集中在文档上,而我只在搜索单个列时很有趣。
编辑:在SOUNDEX搜索上,这不会产生我想要的结果。例如:
SELECT soundex( \'the rose & crown\' ) AS soundex1,soundex( \'rose and crown\' ) AS soundex2;
soundex1 soundex2
T6265 R253265
解决方案:最后,我使用Zend_Search_Lucence并假装每个名称实际上都是一个文档,这似乎达到了我想要的结果。我想这是某种程度上的全文搜索,即使每个字符串最多3-4个字也是如此。
解决方法
全文搜索(FTS)是您所需的数据库功能的术语。有:
本机MySQL支持(要求表为MyISAM)
WHERE MATCH(column)
AGAINST(\'Rose\',\'Crown\')
狮身人面像(第3方)
Lucene / SOLR(第三方)
, 这是一个非常接近您想要的问题。虽然答案是针对PHP和MySQL的,但一般原则仍然适用:
如何在MYSQL中使用PHP对公司名称进行模糊匹配以实现自动完成?
基本上,您将使用SOUNDEX获得所需的东西。如果您需要更多功能,更长的字符串等,则可能需要研究Double Metaphone,它是对Metaphone和SOUNDEX的改进:
http://aspell.net/metaphone/
http://www.atomodo.com/code/double-metaphone