问题描述
|
是否有人拥有Python API来获取各种ML数据集?
X,Y,info = mldata.load( name,db=,verbose= )
X: N x dim data,a NumPy array
Y: N,ints for class numbers or None
info: a dict with ...
我更喜欢NumPy的直接python,
但是如果Rpy函数可以获取数据,那可能没问题
(对不起,R说的不多)。
对于\“ db \”,可以使用平面文件,例如
#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol nrow nclass year name etc.
3 2858 2 2008 \"Character+Trajectories\" Time-Series Classification,Clus
4 150 2 1988 \"Iris\" Multivariate Classification Real
8 768 2 1990 \"Pima+Indians+Diabetes\" Multivariate Classification Inte
...
为什么只是平面文件而不是\“ real \”数据库?
因为我可以一次下载它们,然后以近乎0的努力浏览,排序和唤醒它们;
其他人可能更喜欢精美的搜索引擎。
数据是本地存储还是通过Web加载对我来说都不重要。
(env MLDATAPATH =(local dir ... url ...)都是)吗?
(对于具有统一名称和统一数据的网站,基本API应该是微不足道的,
但要统一uci / ml看起来相当乏味。)
解决方法
Scikits.learn中的人们在Scikits.learn示例中解决了该问题
但是,数据集具有各种形状和大小,因此它们具有用于处理每个数据集的自定义代码。 (如果您仅拥有CSV或ARFF格式的数据集,而没有灰度图像等,那将是不同的)。
, 您可以检查此程序包/代码库,以搜索和导入任何UCI ML回购数据集。它不会将数据集加载到Python对象中,而只是从门户自动搜索并下载您选择的数据集。您甚至可以选择特定大小和ML任务类别的所有数据集。
https://github.com/tirthajyoti/UCI-ML-API