DataVec 介绍
DataVec 是基于 Apache 2.0 许可的 ETL 机器学习(Extract,Transform,Load)操作库。 DataVec
的目的是将原始数据转换成可以馈送到机器学习算法的可用向量格式。
当前输入数据类型支持开箱即用:
-
CSV Data
-
Raw Text Data (Tweets, Text Documents, etc)
-
Image Data
-
LibSVM
-
MatLab (MAT) format
-
JSON, XML, YAML, XML