如何在具有多个文本和类别特征的记录之间形成关联?

问题描述

我正在构建一个机器学习解决方案,以分析餐厅中的客户反馈。 客户的反馈将每2小时进行一次分析,如果发现任何潜在的重复/相关问题,则将这些记录汇总在一起,以进行进一步的因果分析。请注意,此处给出的示例只是出于简化和理解的目的,真实的反馈会更加复杂/不清楚以得出问题。

反馈示例-(功能-摘要,配料问题,投放问题,该信息已被删除,注释)

  1. 摘要-汤很咸配料问题-否 服务问题-否 这是带走了吗-否 笔记-我已经计划和我的大学朋友一起共进晚餐,并考虑根据良好的反馈选择这家餐厅。经过与餐厅厨师的多次讨论,精心选择了菜单。我们很喜欢晚餐,但是由于汤的缘故,起步不是很好。
  2. 摘要-今天的番茄汤测试与众不同 配料问题-没有数据 服务问题-无数据 这是带走了吗-否 笔记-我与服务器进行了交谈,他用南瓜汤代替了它。
  3. 摘要-三明治很干 配料问题-面包 服务问题-否 这是带走了吗-没有数据 注释-无数据
  4. 总结-我不喜欢汤
    配料问题-南瓜可能是 服务问题-无数据 这是带走了吗-否 笔记-我通常在这家餐厅喜欢这种汤;但是我不确定今天汤和开胃菜出了什么问题。

现在,我的目标是根据这些功能找到相关的反馈,并帮助餐厅有效地采取行动。当反馈到来时,这必须实时发生。 例如,反馈#1,#2是相关的。

我已经尝试过-

  1. 基于“摘要功能(公里数)的聚类-这种方法适用于批处理反馈,我们确实需要一些实时解决方案。

  2. 在“摘要功能上使用文本相似性匹配(通用句子编码器/ TFIDF)创建聚类-我仍然看到一些聚类会产生嘈杂的记录,因为反馈的“摘要”始终不够清晰。

  3. 在组合特征(摘要/成分/服务等)上使用文本相似性匹配(通用语句编码器/ TFIDF)创建聚类-尚未分析结果

我正在考虑探索分层聚类(聚集性),以了解是否有帮助。

对于此用例,有没有比集群更好的方法了? [注意:我还将这个问题发布在DatascienceStackexchange here上]

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)