Apache Spark TF-IDF

问题描述

Apache spark具有可用的TF-IDF算法: https://spark.apache.org/docs/latest/ml-features.html#tf-idf

运行示例时,它将添加“ rawFeatures和” features”列,并输出以下数据框:

|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| l | sentence    | words       | rawFeatures                                             | features   
|---|----------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | Hi...       | ["hi",...] | [0,32,[1,12,16,22,28],1,1]]           | [0,28,[0.69,0.69,0.29,0.29]]                    |
|---|----------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 0 | I wish...   | [...]  | [0,[11,15,29,31],1]] | [0,1]]                   |
|---|----------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 1 | Logistic... | [...] | [0,[3,4,27,30],1]]                  | [0,0.69]]                    |
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------|

我有两个问题:

  1. “ rawFeatures”和“ features”列是什么,它们中的数组与TF-IDF有什么关系?
  2. (假设“功能”列的最后一个元素是TF-IDF)如何将这个数据框转换成这样?
|-----------------------|
| word | label | TF-IDF |
|-----------------------|

基本上,我想要一个数据框,每个字包含多行,显示在其中的标签以及TF-IDF。

预先感谢:)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)