scikit-learn 是一个 Python 的机器学习项目。是一个简单高效的数据挖掘和数据分析工具。基于NumPy、SciPy
Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。
Oryx的目标是帮助Hadoop用户搭建并部署能够实时查询的机器学习模型,例如垃圾邮件过滤和推荐引擎。随着数据的不断流入,Oryx还将支持自我更新。
SHOGUN是一个机器学习工具箱,其重点是在大尺度上的内核的方法,特别是支持向量机(SVM)的学习工具箱。它提供了一个通用的SVM对象接口连接到几个不同的SVM的实现中,所有相同的底层,高效的内核实现利用。除了支持
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是创建一些可伸缩的机器学习算法,供开发人员在 Apache
Shark是一个快速、模块化、功能丰富的开源C++机器学习库,提供了各种机器学习相关技术,比如线性/非线性优化、基于内核学习算法、神经网络等。Shark已经应用于多个现实项目中。
ganitha 包含一组算法用来实现在 Hadoop 平台是的各种规模的机器学习和统计分析。
Milepost GCC 是IBM发布的世界上第一款开源机器学习编译器。 IBM称编译器能智能的优化程序,因此能缩短开发时间,同时又能提升性能。使用机器学习技术,编译器分析软件,确定哪些代码优化将能在编译中取得最
PredictionIO 是一款开源的机器学习服务器,开发工程师和数据分析师可以使用它构建智能应用程序,并且还可以做一些预测功能,比如个性化推荐、发现内容等。好比开发者可以使用数据库服务器过滤信息。PredictionIO
mlpack是一个C的机器学习库,它重点在于其扩展性、高速性和易用性。它的目的是让新用户通过简单、一致的API使用机器学习,同时为专业用户提供C的高性能和最大灵活性。他的性能超出大量类似的机器学习库,如WEKA、S
Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了
Waffles 英文原意是蜂蜜甜饼,在这里却指代一个非常强大的机器学习的开源工具包。Waffles里包含的算法特别多,涉及机器学习的方方面面,推荐系统位于
Jubatus 是一个分布式处理框架和机器学习库,包含以下功能: 在线机器学习库,包括:分类、聚合和推荐
GraphLab 是一个机器学习平台,主要是图模型方面的计算。 GraphLab 是另一种有趣的MapReduce抽象实现,侧重机器学习算法的并行实现。GraphLab中,Map阶段定义了可以独立执行(在独立的主机上)的计算,Reduce阶段合
Fuzzy 机器学习框架是一个程序库和一个使用直觉模糊数据的机器学习的GUI前端。该方法是基于直觉模糊集和可能性理论。进一步的特点是模糊的功能和类;基于语言变量的数值,枚举的功能和特点;用户自定义特征;衍生和评
Shifu 是一个基于 Hadoop 的快速和可伸缩的机器学习框架。
Data X 开发了一个 Chrome 扩展程序,名为 Data Selfie,用户可以看到在算法计算后,用户在 Facebook
Pylearn2是一个基于Theano的机器学习库,它的大部分功能是基于Theano顶层实现的。这意味着用户可以用数学表达式去编写Pylearn2插件(新模型、算法等),Theano不仅会帮助用户优化这些表达式,并且将这些表达式编译
Gorgonia 是 Go 机器学习库。撰写和评估多维数组的数学公式。与Theano 和TensorFlow 理念相似。具体来说,
GoLearn 是一款 Go 语言机器学习框架,示例代码: package main import (     \"fmt\"     \"github.com/sjwhitworth/golearn/base\"
TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,TensorFlow的表现比第一代的DistBelief快了2倍。
MLDB 是一个用于机器学习的开源数据库。你可以随意安装它,并通过 RESTful API 发送命令以存储数据,使用 SQL
PaddlePaddle (中文名:飞桨,PArallel Distributed Deep LEarning 并行分布式深度学习)是百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持。
ERNIE 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。
tf.Transform 是一个使用 TensorFlow 进行数据预处理的库。它允许用户结合各种数据处理框架(目前支持 Apache
KeystoneML 是一个用 Scala 编写的软件框架,来自伯克利大学 AMPLab 实验室。该项目主要目的是简化构造大规模、端到端的机器学习管道,基于Apache Spark 构建。
Apache MADlib 是为数据科学提供的 SQL 大数据机器学习工具。Apache MADlib 拥有强大的大数据分析能力。Apache MADlib
Hyperopt-sklearn是基于scikit- learn项目的一个子集,其全称是:Hyper-parameter optimization for scikit-learn,即针对scikit-
DMTK 是微软分布式机器学习工具包。 DMTK 包括以下几个项目: DMTK framework(Multiverso): 参数服务器架构的机器学习
Fregata 是一个基于 Apache Spark 的轻量级、超快速、大规模的机器学习库,并在 Scala 中提供了高级 API。
YCML 是使用 Objective-C 编写的机器学习框架,也支持 Swift。 当前提供以下算法:
Deeplearning4j(简称DL4J)是为Java和Scala编写的首个商业级开源分布式深度学习库。DL4J与Hadoop和Spark集成,为商业环境(而非研究工具目的)所设计。Skymind是DL4J的商业支持机构。
vowpal_wabbit 是一个机器学习系统,它能推动机器学习前沿技术的学习,例如在线学习、哈希、交互学习等。
Manifold 是一款无关模型的视觉调试工具,用于机器学习。 考虑到机器学习算法的固有不透明性,了解机器学习模型的性能和行为是一个不容易的过程。性能摘要统计信息(如 AUC,RMSE
PyMC是一个实现贝叶斯统计模型和马尔科夫链蒙塔卡洛采样工具拟合算法的Python库。PyMC的灵活性及可扩展性使得它能够适用于解决各种问题。除了包含核心采样功能,PyMC还包含了统计输出、绘图、拟合优度检验和收敛性
Faster R-CNN 可以简单地看做是 R-CNN 和 Fast R-CNN 的升级版,或者可以看成是“区域生成网络+Fast