高阶类别重叠分析

问题描述

我正在尝试分析dataset的类别重叠，以最终确定对数据进行分类的最佳方法，以最大程度地减少用于描述数据集的类别的数量。

到目前为止的努力：

我对R和python还是比较陌生，并且已经在Excel中进行了大量此类工作。

按照matrix中的建议，我已经能够得出 Category Overlap Analysis question 来分析1°的重叠（即，每对类别的＃项重叠）。
解开矩阵以得出output，可用于分析每对类别的重叠并确定存在1°重叠的重复项。通过此analysis，我能够识别300个重复的1°分类重叠，这些重叠可以解析为118个唯一类别。

挑战：

我正在努力有效地分析高阶分类重叠并确定独立的商品代码

谢谢！

示例可以更好地说明我尝试实现的困难。

数据段

data snippet viewed in worksheet

Category,ItemCode
G0617,5410.001
G0617,5410.006
G0617,5410.903
...
G0080,5410.001
...
G0419,5410.001
...
G0532,5410.001
G0532,5410.903
...
G0616,5410.006
...
G0659,5410.001
G0659,5410.903
...
G0846,5410.001
...
Gtest,5410.903
Gtest,5410.006

理想的输出

ideal output viewed in worksheet

category|equivalent categories|subsumed categories|independent item_code|duplicate category
G0080|||5410.001|
G0419|G0080|||TRUE
G0532||G0080|5410.903|
G0616|||5410.006|
G0617|G0532,G0616;G0080,Gtest;G0532,Gtest|G0080,G0419,G0532,G0616,G0659,G0846||
G0659|G0532|G0080|5410.903|TRUE
G0846|G0080|||TRUE
Gtest||G0616|5410.903|

“重复类别”列将偏向具有较小＃号的类别ID。

（即类别完全相同的地方，ID较高的类别将被标记为ID最小的类别的重复。例如，G0419和G0846都被标记为G0080的重复）

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

categorical-data excel excel python r r