使用Python API加载各种机器学习数据集吗?

问题描述

| 是否有人拥有Python API来获取各种ML数据集?
X,Y,info = mldata.load( name,db=,verbose= )
X: N x dim data,a NumPy array
Y: N,ints for class numbers or None
info: a dict with ...
我更喜欢NumPy的直接python, 但是如果Rpy函数可以获取数据,那可能没问题 (对不起,R说的不多)。 对于\“ db \”,可以使用平面文件,例如
#! http://archive.ics.uci.edu/ml/machine-learning-databases
# ncol  nrow  nclass  year  name               etc.
  3  2858  2  2008   \"Character+Trajectories\"  Time-Series     Classification,Clus
  4   150  2  1988   \"Iris\"    Multivariate    Classification  Real
  8   768  2  1990   \"Pima+Indians+Diabetes\"   Multivariate    Classification  Inte
...
为什么只是平面文件而不是\“ real \”数据库? 因为我可以一次下载它们,然后以近乎0的努力浏览,排序和唤醒它们; 其他人可能更喜欢精美的搜索引擎。 数据是本地存储还是通过Web加载对我来说都不重要。 (env MLDATAPATH =(local dir ... url ...)都是)吗? (对于具有统一名称和统一数据的网站,基本API应该是微不足道的, 但要统一uci / ml看起来相当乏味。)     

解决方法

        Scikits.learn中的人们在Scikits.learn示例中解决了该问题 但是,数据集具有各种形状和大小,因此它们具有用于处理每个数据集的自定义代码。 (如果您仅拥有CSV或ARFF格式的数据集,而没有灰度图像等,那将是不同的)。     ,        您可以检查此程序包/代码库,以搜索和导入任何UCI ML回购数据集。它不会将数据集加载到Python对象中,而只是从门户自动搜索并下载您选择的数据集。您甚至可以选择特定大小和ML任务类别的所有数据集。 https://github.com/tirthajyoti/UCI-ML-API     

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...