大数据处理

Blink Streaming SQLBatch SQL 阿里数据处理平台

Blink 最初是阿里巴巴内部的 Apache Flink 版本代号，基于阿里的场景做了大量的优化和稳定性改造工作。在经过一些讨论之后，我们决定将Blink的所有代码捐赠给Flink社区，并将其开源从而成为Flink社区的一部分。我们

Cascading Hadoop集群数据处理API

Cascading是一个新式的针对Hadoop clusters的数据处理API，它使用富于表现力的API来构建复杂的处理工作流，而不是直接实现Hadoop MapReduce的算法。

Cascalog Hadoop 的数据处理解决方案

Cascalog 是 Hadoop 上的数据处理解决方案，无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理 Hadoop

Hadapt 自适应分析平台

Hadapt 是个自适应分析平台，为 Apache Hadoop 开源项目带来了 SQL 实现。Hadoop 非常健壮，并且可伸缩。所以通过其合并了关联数据存储的混合存储层，Hadapt 允许进行基于 SQL 大数据集的交互分析。通过

Hazelcast Jet 基于 Hazelcast 的分布式数据处理引擎

Hazelcast Jet 是一个分布式计算平台，专为高性能流处理和快速批处理而构建。它在内存数据网格（IMDG）中嵌入Hazelcast，以提供轻量级的处理器包和可扩展的内存存储。

wradlib 天气雷达数据处理

python 天气雷达数据处理包。weather radar data processing。 wradlib使用Travis CI进行持续集成。这意味着一旦将新代码推送到wradlib存储库，Travis将运行一组测试。万一测试顺利进行，将在readthedocs上构建新的

ROOT-framework 欧洲核子研究中心数据处理框架

ROOT 是一个模块化的科学软件工具包，它是一个数据处理框架，提供了大数据处理、统计分析、可视化和存储所需的所有功能，主要使用 C++ 编写而成，同时可集成

gmq 3.1 源码运行3.2 执行文件运行运行一条消息结构延迟任务超时任务异步任务优先级任务5.1 延迟时间 delay5.2 执行超时时间 TTR5.3 确认机制7.1 安全退出7.2 智能定时器7.3 原子性问题7.4 redis 连接池9.1 客户端出现大量的 TIME_WAIT 状态，并且新的连接被拒绝基于 golang 和 redis 实现的简易队列

1. 概述 gmq是基于redis提供的特性,使用go语言开发的一个简单易用的队列；关于 redis 使用特性可以参考之前本人写过一篇很简陋的文章Redis

Vespa 开放大数据服务引擎

Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。它存储和索引数据，以便在服务时间对数据进行查询、选择和处理。

Scriptis 同类系统对比：交互式数据分析工具

Scriptis是一款支持在线写SQL、Pyspark、HiveQL等脚本，提交给Linkis执行的数据分析Web工具，且支持UDF、函数、资源管控和智能诊断等企业级特性。

PackOne 大数据软件栈部署与管理工具

PackOne 致力于实现主流大数据软件在云端的快速弹性部署。通过对云 API 和 Apache Ambari API 的联合调用，完成

Annoy 求近似最近邻的库

Annoy 是 Spotify 开源的高维空间求近似最近邻的库，在 Spotify 使用它进行音乐推荐。最邻近搜索（Nearest Neighbor

Pothos framework 数据流拓扑图开发框架

Pothos 项目是一个完善的数据流框架，用于创建互相连接的数据处理模块拓扑图。数据处理的拓扑图可以进行图形化的设计和测试，并应用到设备网络。

Faust Python 流处理

Faust 是一个流处理库，将想法从 Kafka Streams 移植到 Python。它在 Robinhood 用于构建高性能的分布式系统和实时数据管道，每天处理数十亿个事件。

OpenCTI 开放的网络威胁情报平台

OpenCTI 即 Open Cyber Threat Intelligence Platform，开放网络威胁情报平台。它的创建是为了构建、存储、组织和可视化有关网络威胁的技术和非技术信息。

Apache HAWQ 大规模并行 SQL 分析处理引擎

HAWQ 是一个Hadoop原生大规模并行SQL分析引擎，针对的是分析性应用。和其他关系型数据库类似，接受SQL，返回结果集。

SandDance 数据可视化工具

SandDance 是微软研究院（ Microsoft Research ）微软车库（ Microsoft Garage ）推出的免费数据可视化应用。SandDance 是一款以 Web

xarray 在 NumPy 多维数组中加入变量名与坐标索引

xarray 是一个开源 Python 包，它可以使处理多维数组更加简单、高效并有趣。xarray 在原始类 NumPy

Linkis 1. Linkis管理台2. 支持标签功能3. AppGovernance应用治理实现4. 支持Flink和Spark Structured Streaming 计算中间件

Linkis是一个打通了多个计算存储引擎如：Spark、TiSpark、Hive、Python和HBase等，对外提供统一REST/WebSocket/JDBC接口，提交执行SQL、Pyspark、HiveQL、Scala等脚本的计算中间件。

AthenaX 数据流分析平台

AthenaX 是 Uber 的内部流分析平台，旨在满足以下需求并为每一个人提供可访问的流分析能力：

Koalas Apache Spark Pandas API

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容，Koalas项目在与大数据交互时提高了数据科学家的工作效率。

http-mock-middleware http mock 库

http-mock-middleware 是一个 http mock 库，或者说 ajax/websocket mock 库，它接收来自 web 前端页面的

MR4C C++ 的 MapReduce 框架

MR4C 是 Google 开发的 C++ 的 MapReduce 框架，你可以在 Hadoop 架构中执行本地代码。

Surus 大数据分析集合

Surus 是 Pig 和Hive 的分析集合，包括以下功能： ScorePMML - 云评测模型工具 Robust Anomaly Detection (RAD) - 健壮的 PCA 实现

PyJava Java/Scala 与 Python 数据转换库

PyJava 是一个用于在 Java/Scala 和 Python 之间转换数据的库。 PyJava 引入了 Apache Arrow 作为交换数据格式，这意味着可以避免 Java/Scala 和 Python 之间的 ser/der，这可以加快通信效率。在 Java/Scala

TipDM 数据库建模平台和挖掘工具

TipDM数据挖掘建模平台是基于Python引擎、用于数据挖掘建模的开源平台。平台提供数量丰富的数据分析与挖掘建模组件，用户可在没有编程基础的情况下，通过拖拽的方式进行操作

Apache Geode 数据管理平台

概览 Apache Geode 是一个数据管理平台，提供实时的、一致的、贯穿整个云架构地访问数据关键型应用.

Brooklin 为什么要开发 Brooklin？什么是 Brooklin？应用场景数据传输桥多租户变更数据捕获CDC 近实时大规模数据流式传输

Brooklin 是一种近实时的大规模数据流分布式服务，LinkedIn 自 2016 年以来一直在使用这项服务，支撑每天数千个数据流和超过 2

PiFlow 大数据流水线系统

PiFlow 是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。它具有如下特性：

MacroBase 数据分析工具

MacroBase 是一个数据分析工具，利用机器学习优先处理大型数据集。具体来说，MacroBase 是一个新的分析监督引擎，旨在进行大型数据集和数据流优先处理。与传统的分析引擎不同，MacroBase

Data Accelerator 简化流数据处理的数据管道

Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道：即插即用：轻松设置输入源和输出接收器，以便在几分钟内建立管道。Data Accelerator 支持从 Eventhub 和 IoThub 取数据，并支持

Wormhole-SPAAS 流式处理平台

Wormhole 是一个 SPAAS（Stream Processing as a Service）平台解决方案。Wormhole 面向大数据项目的开发，运维以及管理人员，致力于简化和统一开发管理流程。当今运维是典型的大数据应用领域，Wormhole

GrimoireLab 用于软件开发分析的工具集

GrimoireLab 是一个用于软件开发分析的工具集。它包括一组协调的工具，用于从支持软件开发（存储库）的系统中检索数据，将其存储在数据库中，通过计算相关指标来丰富它，并使其易于运行分析和可视化。

Apache IoTDB 时序数据管理引擎

IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点，完美对接Hadoop与Spark生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。