将文档子集分类

问题描述

我正在尝试找出解决多类分类问题的最佳方法。我想做的是将简短产品使用方法分类为各自的产品。

示例方法

The report builder allow you to build joint reports. 
Click on the new report and select type: 'Joint'

我需要将其分类为产品 Analytics Suite

我大约有10种产品。每个都有20-70个功能及其简短描述(不平衡数据)。我有15000个操作说明文件

我已经提取了每种产品的每个功能描述的术语,所以对于分析套件,我有5个功能及其各自的术语:

功能1

'Report Builder' Terms: ['joint reports','wysiwig','drag-and-drop','download in excel','build reports']

功能2

'Data Loader' Terms: ['ingest data','multiple formats','rest api' ]

我苦苦挣扎的是如何构建自己的功能。我不需要仅在产品功能级别上对操作方法进行分类。因此,如果我在功能级别上进行tf-idf矢量化,我将区分某些术语,因为它们可能出现在所有功能术语中。但是,如果我在产品级别执行功能,则基本上每个产品都有一组种子词。

如何训练分类器以及哪个分类器很明显,但是我很难找到解决方案。简而言之,我需要根据给每个类别的一组种子词来对小文本进行分类。任何指针往哪个方向走?尤其是围绕特征工程,矢量化?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)