Flume前提回顾

Flume进阶使用

前提回顾
flume是以三大部分组成

  • agent:flume 的组成单位,包括了Source,Channel,Sink

  • Source
  1. netcat:官方提供的端口监控组件
  2. exec 用于监控Linux中的命令的(tail-F)
  3. Spooldir:监控一个目录的。如果目录中出现了新的文件,就文件内容采集过来。
  4. taildir:监控多文件,维护offset(支持断点续传 根据计算下载时记载在json中的系统偏移量来实现断点续传)
  5. Kafka

  • Channel
  1. memorychannel:基于内存
  2. filechannel:基于硬盘
  3. Kafka

  • Sink
  1. HDFS
  2. Logger
  3. Kafaka
  4. HBase
  5. Hive

  • event:是S,C,K中传输时最小的单位 是由(header:属性,body:数据,字节数组形式存在)

相关文章

# 前言 现有主流消息中间件都是生产者-消费者模型,主要角色...
错误的根源是:kafka版本过高所致,2.2+=的版本,已经不需要...
DWS层主要是存放大宽表数据,此业务中主要是针对Kafka topic...
不多BB讲原理,只教你怎么用,看了全网没有比我更详细的了,...
终于写完了,其实最开始学kafka的时候是今年2月份,那时候还...
使用GPKafka实现Kafka数据导入Greenplum数据库踩坑问题记录(...