Hyracks 是 Apache AsterixDB 的底层数据流运行平台,是并行运行时查询执行引擎。
Apache Apex 是一个企业级的统一流和批处理引擎。提供高度可伸缩、高性能、容错、有状态、安全和分布式的大数据处理,同时操作起来非常简单容易。
Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest
eBay公司隆重宣布正式向开源业界推出分布式实时安全监控引方案 - Apache Eagle ,该项目已正式加入Apache 称为孵化器项目。Apache
Terrapin 是 Hadoop 数据服务工具,为批量生成的数据集服务。Terrapin 是低延迟服务系统,提供通过 Hadoop 作业生成,存储在
hblog 是一个日志集群分析器。支持的体制格式有:Syslog、 Log4j、Java GC log。 具有以下功能:
Tiger 数据统计服务,用于移动端的数据统计分析。 系统工作流程: PC端创建App,获得AppSecretKey;
什么是SF1R SF1R是一个分布式的存储搜索一体化海量数据引擎。SF1R来自于iZENECloud团队多年的
TARE全称是Targeted Advertising and Recommender Engine。做为定向广告和推荐一体化引擎,TARE解决的是大规模点击率预估问题。TARE有两个组成部分:
hive-dwrf 是作为 Apache Hive 项目一部分的 ORC 文件格式的分支。
Pulsar 是 eBay 开源的实时大数据分析平台。 作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对
随着大数据技术的普及,对数据挖掘的需求在不断上升,本项目为一些常用的数据挖掘工具提供中文文档,并提供一部分数据挖掘算法的教程,仍在不断更新中。
Apache Falcon 提供了一个用于治理和编排 Hadoop 内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关键性的管控框架
Ibis 是一个新的 Python 数据分析框架,目标是让数据科学家和数据工程师们处理大型数据时,能够像处理小中型数据一样的高效。为了实现这个目标,我们将启用 Python 来作为
Airflow 被 Airbnb 内部用来创建、监控和调整数据管道。任何工作流都可以在这个使用 Python 编写的平台上运行(目前加入 Apache
streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。
Nextjournal是一款多语言 notebook,从头开始设计,使复杂的数据科学无痛。允许用户灵活地使用Bash、Python、R、Julia或Clojure进行编码,而且可以创建包含多个运行时的notebook。
Apache Edgent 是一种编程模型和具有微内核风格的运行时,可嵌入到网关和小型的物联网设备中。Apache Edgent
Laxcus 是一个多集群多用户多任务通用数据管理系统,支持百万级计算机节点,提供 EB
发源地开源云采集引擎 发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎,致力于让用户快捷挖掘大数据矿山背后的价值!
通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。
概览 Trafodion提供了一个基于Hadoop平台的交易型分布式SQL引擎。它是一个擅长处理交易型负载的Hadoop大数据解决方案。其主要特性包括:
Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。
Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。 与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用DataFrame构造函数也是如此。
KSQL 用于 Apache Kafka 的流数据 SQL 引擎 注意:项目还处于开发者预览版,请暂时勿用于生产集群中。
Trill 是 Microsoft Research 开源的高性能单通道内存流分析引擎,它基于时态数据(temporal data)和查询模型(query
简介 Sylph 被定位为大数据生态中的一站式流计算平台,您可以使用它来开发、管理、监控、运维您的流计算.
一个封装了Hadoop Client的简单、方便的API,已经在生产环境中经受日千万级别次IO操作的检验。
Rain 是一个 Rust 实现的轻巧且强大的分布式计算框架,适用于处理大规模的基于任务的管道。
SpinalTap —— 通用可靠的变更数据捕获(Change Data Capture: CDC)服务 SpinalTap 是一种可扩展、高性能、可靠、无损的变更数据捕获(CDC)服务,能够检测跨不同数据源类型的低延迟的数据突变,并将它们作为标准化事
TensorFlow on YARN (TonY) 是一个构建在 Hadoop YARN 上的 TensorFlow 框架。 TonY 可以将单节点或分布式 TensorFlow 训练作为 Hadoop 应用程序运行。此原生连接器与其他 TonY 功能一起,旨在可靠,灵活地运行
Apache Griffin是一个应用于分布式数据系统中的开源数据质量解决方案。在Hadoop, Spark,
温馨提示:该项目除了使用 BSD 协议授权外,还需遵守附加的专利授权。 prophet是一个可以通过 Python 和 R 语言使用的预测工具
Ciao取“Cloud Integrated Advanced Orchestrator”首字母命名,是一款云集成化先进编排工具。通过这套新方案,企业客户能够将各类元素汇聚至单一模式当中——包括云分析(例如Hadoop或者Apache
Apache Beam 是 Apache 软件基金会越来越多的数据流项目中最新增添的成员,是 Google 在2016年2月份贡献给 Apache
tinympi4j 是一款微型的 java 分布式离线计算框架, 实现原理如图: 特性 简单直观, 没有任何学习难度