使用Python API加载各种机器学习数据集吗？

问题描述

| 是否有人拥有Python API来获取各种ML数据集？

X,Y,info = mldata.load( name,db=,verbose= )
X: N x dim data,a NumPy array
Y: N,ints for class numbers or None
info: a dict with ...

我更喜欢NumPy的直接python，但是如果Rpy函数可以获取数据，那可能没问题（对不起，R说的不多）。对于\“ db \”，可以使用平面文件，例如

#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol  nrow  nclass  year  name               etc.
  3  2858  2  2008   \"Character+Trajectories\"  Time-Series     Classification,Clus
  4   150  2  1988   \"Iris\"    Multivariate    Classification  Real
  8   768  2  1990   \"Pima+Indians+Diabetes\"   Multivariate    Classification  Inte
...

为什么只是平面文件而不是\“ real \”数据库？因为我可以一次下载它们，然后以近乎0的努力浏览，排序和唤醒它们；其他人可能更喜欢精美的搜索引擎。数据是本地存储还是通过Web加载对我来说都不重要。（env MLDATAPATH =（local dir ... url ...）都是）吗？（对于具有统一名称和统一数据的网站，基本API应该是微不足道的，但要统一uci / ml看起来相当乏味。）

解决方法

Scikits.learn中的人们在Scikits.learn示例中解决了该问题但是，数据集具有各种形状和大小，因此它们具有用于处理每个数据集的自定义代码。（如果您仅拥有CSV或ARFF格式的数据集，而没有灰度图像等，那将是不同的）。 , 您可以检查此程序包/代码库，以搜索和导入任何UCI ML回购数据集。它不会将数据集加载到Python对象中，而只是从门户自动搜索并下载您选择的数据集。您甚至可以选择特定大小和ML任务类别的所有数据集。 https://github.com/tirthajyoti/UCI-ML-API

api api python 使用使用使用加载加载加载学习学习学习数据数据数据机器