Blink 最初是阿里巴巴内部的 Apache Flink 版本代号,基于阿里的场景做了大量的优化和稳定性改造工作。在经过一些讨论之后,我们决定将Blink的所有代码捐赠给Flink社区,并将其开源从而成为Flink社区的一部分。我们
Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。
Cascalog 是 Hadoop 上的数据处理解决方案,无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理 Hadoop
Hadapt 是个自适应分析平台,为 Apache Hadoop 开源项目带来了 SQL 实现。Hadoop 非常健壮,并且可伸缩。所以通过其合并了关联数据存储的混合存储层,Hadapt 允许进行基于 SQL 大数据集的交互分析。通过
Hazelcast Jet 是一个分布式计算平台,专为高性能流处理和快速批处理而构建。它在内存数据网格(IMDG)中嵌入Hazelcast,以提供轻量级的处理器包和可扩展的内存存储。
python 天气雷达数据处理包。weather radar data processing。 wradlib使用Travis CI进行持续集成。这意味着一旦将新代码推送到wradlib存储库,Travis将运行一组测试。万一测试顺利进行,将在readthedocs上构建新的
ROOT 是一个模块化的科学软件工具包,它是一个数据处理框架,提供了大数据处理、统计分析、可视化和存储所需的所有功能,主要使用 C++ 编写而成,同时可集成
Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。它存储和索引数据,以便在服务时间对数据进行查询、选择和处理。
Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本,提交给Linkis执行的数据分析Web工具,且支持UDF、函数、资源管控和智能诊断等企业级特性。
PackOne 致力于实现主流大数据软件在云端的快速弹性部署。通过对云 API 和 Apache Ambari API 的联合调用,完成
Annoy 是 Spotify 开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。最邻近搜索(Nearest Neighbor
Pothos 项目是一个完善的数据流框架,用于创建互相连接的数据处理模块拓扑图。数据处理的拓扑图可以进行图形化的设计和测试,并应用到设备网络。
Faust 是一个流处理库,将想法从 Kafka Streams 移植到 Python。 它在 Robinhood 用于构建高性能的分布式系统和实时数据管道,每天处理数十亿个事件。
OpenCTI 即 Open Cyber Threat Intelligence Platform,开放网络威胁情报平台。它的创建是为了构建、存储、组织和可视化有关网络威胁的技术和非技术信息。
HAWQ 是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。
SandDance 是微软研究院( Microsoft Research )微软车库( Microsoft Garage )推出的免费数据可视化应用。SandDance 是一款以 Web
xarray 是一个开源 Python 包,它可以使处理多维数组更加简单、高效并有趣。xarray 在原始类 NumPy
Linkis是一个打通了多个计算存储引擎如:Spark、TiSpark、Hive、Python和HBase等,对外提供统一REST/WebSocket/JDBC接口,提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。
AthenaX 是 Uber 的内部流分析平台,旨在满足以下需求并为每一个人提供可访问的流分析能力:
通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。
http-mock-middleware 是一个 http mock 库,或者说 ajax/websocket mock 库,它接收来自 web 前端页面的
MR4C 是 Google 开发的 C++ 的 MapReduce 框架,你可以在 Hadoop 架构中执行本地代码。
Surus 是 Pig 和Hive 的分析集合,包括以下功能: ScorePMML - 云评测模型工具 Robust Anomaly Detection (RAD) - 健壮的 PCA 实现
PyJava 是一个用于在 Java/Scala 和 Python 之间转换数据的库。 PyJava 引入了 Apache Arrow 作为交换数据格式,这意味着可以避免 Java/Scala 和 Python 之间的 ser/der,这可以加快通信效率。在 Java/Scala
TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件,用户可在没有编程基础的情况下,通过拖拽的方式进行操作
概览 Apache Geode 是一个数据管理平台,提供实时的、一致的、贯穿整个云架构地访问数据关键型应用.
Brooklin 是一种近实时的大规模数据流分布式服务,LinkedIn 自 2016 年以来一直在使用这项服务,支撑每天数千个数据流和超过 2
PiFlow 是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性:
MacroBase 是一个数据分析工具,利用机器学习优先处理大型数据集。 具体来说,MacroBase 是一个新的分析监督引擎,旨在进行大型数据集和数据流优先处理。与传统的分析引擎不同,MacroBase
Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道: 即插即用 :轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据,并支持
Wormhole 是一个 SPAAS(Stream Processing as a Service)平台解决方案。Wormhole 面向大数据项目的开发,运维以及管理人员,致力于简化和统一开发管理流程。当今运维是典型的大数据应用领域,Wormhole
GrimoireLab 是一个用于软件开发分析的工具集。它包括一组协调的工具,用于从支持软件开发(存储库)的系统中检索数据,将其存储在数据库中,通过计算相关指标来丰富它,并使其易于运行分析和可视化。
IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。