问题描述
我有点想了解决策树计算的细节。 我获取了虹膜数据集,并使用以下公式计算了整个数据集的熵
Entropy = - \Sigma _{k=1}^m p(k) * log(p(k)
>>> ( (32/112) * log(32/112)) + ( (38/112) *log(38/112)) +( (42/112) * log(42/112))
-1.09
注意:32、38和42是虹膜数据集中三个类别的个体频率,它们的总数为112。
令我惊讶的是,最终得到的熵大于1。我什至没有使用 log2 ,它在熵的公式中存在(熵详细信息的屏幕截图如下)。 / p>
预先感谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)