问题描述
我有一个产品描述数据集,我需要将它与一个很长的列表(2,265 个可能的类别)中的单个类别进行匹配。我无法弄清楚我应该使用哪种方法。我尝试过使用 Levenshtein 距离/比率使用模糊匹配,当描述与正确的类别名称非常相似时,这种方法有效,但并非总是如此。例如,我的第一个条目是“砾石和碎石”,应该归类为“所有其他非金属矿产”,但匹配逻辑没有抓住它。我试图通过词形还原、删除停用词、按字母顺序对每个条目中的单词进行排序以及删除重复的单词来平衡竞争环境,但这并没有产生明显的效果。
我认为这可能需要某种有监督或无监督的学习方法,但我不确定从哪里开始。现在我只能访问一个包含 18 行的虚拟数据集,但我希望在接下来的几天内可以访问大量数据,这将使我可以选择进行训练/测试拆分和训练正确建模。一旦发生这种情况,我应该使用什么方法?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)