大数据roadmap

该roadmap是对自身大数据知识的一个概括和梳理,之后会写一些博客对这些知识点进行展开。

  1. 大数据基础
    1. Hadoop
      1. HDFS
      2. MR
      3. Yarn  
    2. Spark
      1. spark 的原理
      2. spark 常用算子。
      3. spark 参数调优。
    3. Flink
      流计算
    4. Hive/Hbase/Flume
      大数据中还有其他的组件,比如 作为数仓处理的 Hive,列数据库 HBASE,负责数据 ETL 的 Flume, 负责调度的 OOZIE 等。 
  2. 大数据开发
    大数据通用开发流程, 以常用的 lamdba 为例。
    1. 埋点。主要包含APP 和 H5 上的用户行为埋点与收集
    2. 数据抽取。如何将埋点数据和业务数据抽取到 大数据平台。
    3. 数据计算。常用的 MR, Spark,流式可以用 Spark Streaming, Flink
    4. 数据存储与建模。 数据可以保存在 HDFS,CK等。 建模可以是常用的维度建模, 可以按照 ODS、DWD、DWS、ADS进行分层。
    5. 数据展示与使用。 包括 BI 报表,Oneservice  
  3. 大数据管理
    大数据管理部分包含,Job 管理,元数据管理,数据质量,数据指标,IDE平台建设等, 主要是通过这些平台的建设,掌握整个数据平台的运行情况, 让数据更加准确,易用,让平台运行更加健康。
    1. 平台管理,比如小文件管理,元数据管理,安全管理。
    2. 数据管理,比如数据质量,数据血缘,数据指标
    3. 平台自身建设,比如 Job,IDE,BI 报表系统等  
  4. 大数据应用
    大数据平台除了产出报表,还可以有下面这些应用
    1. 用户画像,DMP 平台等。用户画像可以在商品召回,或者重排时使用,DMP 平台可以在运营精准营销时起到关键作用。 
    2. 搜索,推荐,广告。现在大多数应用都有搜索,猜你喜欢等模块,这些模块的背后混合了机器学习,用户画像等技术。
    3. 数据挖掘。比如频繁项挖掘,落地到场景比如买了还买。
    4. 机器学习。比如 CTR 预估,情感分析,图像识别。  

相关文章

1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展A...
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,...