Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也
这个 Kafka 的专题,我会从系统整体架构,设计到代码落地。和大家一起杠源码,学技巧,涨知识。希望大家持续关注一起见证成长! 我相信:技术的道路,十年如一日!十年磨一剑! 往期文章 Kafka 探险
Kafka 探险 - 架构简介 这个 Kafka 的专题,我会从系统整体架构,设计到代码落地。和大家一起杠源码,学技巧,涨知识。希望大家持续关注一起见证成长! 我相信:技术的道路,十年如一日!十年磨一
这个 Kafka 的专题,我会从系统整体架构,设计到代码落地。和大家一起杠源码,学技巧,涨知识。希望大家持续关注一起见证成长! 我相信:技术的道路,十年如一日!十年磨一剑! 往期文章 Kafka 探险
使用过 Kafka 框架的朋友都知道,启动 Kafka 框架只需要两个关联的组件,分别是:Zookeeper 和 Kafka。如果你还没使用过 Kafka 框架,建议先阅读《Kafka 快速入门教程》
Kafka 是由 LinkedIn 开发的一个分布式的消息系统,使用 Scala 编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如 Cloudera、Apache Sto
大家都知道 Kafka 是一个非常牛逼的消息队列框架,阿里的 RocketMQ 也是在 Kafka 的基础上进行改进的。对于初学者来说,一开始面对这么一个庞然大物会不知道怎么入手。那么这篇文章就带你先
需求 kafka中的message带有key,带有相同key值的message后入kafka的意味着更新message,message值为null则意味着删除message。 用logstash来同步
问题 kafka挂掉后,启动报错日志如下 [2020-03-19 17:50:58,123] FATAL Fatal error during KafkaServerStartable startup
思路 每隔一段时间(比如说10秒)统计一次某 的所有 的最大 值之和,这便是该 的message总数。 然后除以间隔时间就可以粗略但方便得出 某 的数据增长速率(即相应程序写kafka的速率) &qu
前言 大家好,我是 yes。 这是Kafka源码分析第四篇文章,今天来说说 Kafka控制器,即 Kafka Controller。 源码类的文章在手机上看其实效果很差,这篇文章我分为两部分,第一部分
前言 其实这篇文章只是从Kafka索引入手,来讲述算法在工程上基于场景的灵活运用。单单是因为看源码的时候有感而写之。 索引的重要性 索引对于我们来说并不陌生,每一本书籍的目录就是索引在现实生活中的应用
大家好,我是yes。 最近看 Kafka 看到了时间轮算法,记得以前看 Netty 也看到过这玩意,没太过关注。今天就来看看时间轮到底是什么东西。 为什么要用时间轮算法来实现延迟操作? 延时操作 Ja
引子 之所以写这篇文章是因为之前面试时候被面试官问到(倒)了,面试官说:“你说你对Kafka比较熟?看过源码? 那说说kafka日志段如何读写的吧?” 我心里默默的说了句 “擦...我说看过一点点源码
大家好,我是 yes。 这是我的第三篇Kafka源码分析文章,前两篇讲了日志段的读写和二分算法在kafka索引上的应用 今天来讲讲 Kafka Broker端处理请求的全流程,剖析下底层的网络通信是如
kafka对于构建实时的数据管道和流应用是很有用的。 Apache Kafka是一个分布式的流平台。这是什么意思呢? 我们考虑流平台有三个关键的能力: Kafa有什么用呢? 它被用于两类应用: 那么K
Producer API org.apache.kafka.clients.producer.KafkaProducer producer由一个缓冲池组成,这个缓冲池中维护着那些还没有被传送到服务器上
1. 前言 我们知道,生产者发送消息到主题,消费者订阅主题(以消费者组的名义订阅),而主题下是分区,消息是存储在分区中的,所以事实上生产者发送消息到分区,消费者则从分区读取消息,那么,这里问题来了,生
消息投递语义
1. 启动Server http://kafka.apache.org/quickstart For Kafka, a single broker is just a cluster of size
push vs pull
我有一个春季应用程序,是我的kafka制作人,我想知道为什么avro是最好的方式去. 我读到了它以及它所提供的一切,但为什么我不能将我自己用杰克逊创建的POJO序列化并将其发送给kafka? 我这样说是因为avro的POJO代并不是那么直截了当. 最重要的是,它需要maven插件和.avsc文件. 所以例如我在我的kafka制作人上创建了一个名为User的POJO: public class Us
我们有 Java代码来管理读取四个分区主题的Kafka流消费者的线程池(因此我们有四个消费者线程). 什么是动态检索分区数的推荐方法,以便线程池cat中的初始化代码设置正确的线程数? 能够动态调整到越来越多的分区不是必需的. 看一下Java API(v.0.8.1),我找不到一种直接的方法.目前我正在浏览Scala源代码,我看到有希望的类(这个问题的Scala解决方案也受到欢迎),但是我也想向社区