我对机器学习和数据科学的概念很少,我需要对数据集进行降维,对应于用户的电视消费。我有大约 20 列(特征)和数十万个样本。
问题在于特征的种类不同。例如地区、日期、设备类型、消费时长等。
在这种特殊情况下,我可以实施哪些算法来减少特征数量?
看看特征选择算法,有大量的文章和公共图书馆都有这些算法的实现。支持向量机 (SVM) 是一种常用的方法。看看 sklearn/tensorflow/etc。文档以查看实现细节并选择最适合您的问题。