大数据分析到底需要多少种工具?

发布时间:2020-10-21 整理:编程之家
编程之家收集整理的这篇文章主要介绍了大数据分析到底需要多少种工具?编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随编程之家小编过来看看吧!

摘要

JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。

1.分类方法大比武

 

[转载]大数据分析到底需要多少种工具?

 

 机器学习分类体系

2.几点经验总结

大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。

l  大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

  一般地,Ensemble方法包括Random ForestAdaBoostSVMLogistic Regression 分类准确率最高。

  没有一种方法可以“包打天下”。Random ForestSVM等方法一般性能最好,但不是在什么条件下性能都最好。

  不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2Blaco & Brill的实验结果。

  对于简单问题,Random ForestSVM方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

  在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

 

[转载]大数据分析到底需要多少种工具?

 不同机器学习方法在数据集增大时的学习曲线。

建立大数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,自如使用分析工具的工程师和分析人员

只有善工利器,大数据分析才能真正发挥威力。

[1]  Manuel Fernández-Delgado,Eva Cernadas,Senén Barro,Dinani Amorim; Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research 15(Oct):3133−3181,2014.