ACP-大数据分析师错题本

1.存储数据类型

  • OSS:适合视频,图片等信息
  • MysqL:不适合存储非结构化数据
  • HBASE:适合NOsql,多版本数据松散存储
  • MongDB:适合JSON存储

2.HDFS:

存储格式面向行,面向列

分布式文件系统,并不可能只允许单机服务器

解决昂贵服务器的问题

3.Hadoop不适合存储大量小文件

4.数据质量的五个维度:数据一致性(用于度量哪些数据的值在信息含义上是冲突的),数据唯一性(哪些数据是重复的,或数据的哪些属性是重复的),数据时效性(数据随时间的完整变化过程数据),数据准确性(用于度量哪些数据和信息是不正确的,或者数据是超期的),数据完整性(用于度量哪些数据丢失或不可用)

规范性(哪些数据未按统一格式存储),关联性(哪些关联数据缺失或未建立索引)

5.KPI一般指关键绩效指标法,关键指标比如数量(销售量)

6.模型拟合不足是训练误差和验证误差都很大,-> 欠拟合

7.硬盘大小:(原始数据+中间数据+结果数据)*副本数量 
8.msp处理任务的工作和作用:

1)读取输入文件,把每一行解析成键值对,每一个键值对调用一次Map函数

2)对传入的键值对,覆盖map函数,实现自己的逻辑,处理键值对输出心得键值对

3)根据键值对键值对精心分区

4)对不同的分区进行数据排序分组,把相同key的value放在一起集合

9.项目请况分析,问题界定,确定项目目标因素,建立项目目标体系,各目标关系确认

10.数据分析重要环节:数据采集,数据建模(处理),数据分析,指标报告

11.功能

Hive:基于hdfs的数据库服务,支持海量数据处理,不支持实时流处理,主要进行批处理

spark:快速通用的hadoop数据计算引擎,支持多种位用

Ambari:建立配置和管理hadoop的工具,可视化界面,简化系统管理和维护

pig:大规模数据分析平台,将类似sql的数据分析请求转换为一系列经过优化处理的MapReduce运算。   批处理,流式

HBASE:列式存储,多用于ELK工作,可以离散存储不是主要功能

12.HDFS元数据采用镜像文件(FSImage)+日志文件(editlogs)备份

FSNameSystem:是NameNode实际记录信息

13.Hadoop MapReduce:批处理计算引擎

HDFS:分布式数据存储

Hadoop  Yarn:大数据平台资源调度

Hadoop Hive :数据仓库工具

14.逻辑回归可以解决非线性问题

15.联机分处理:

快速行,可分析性,多维性,信息性

钻取,切片,切块,旋转(转轴)

17.指标十大要素:指标名称。定义,类属,作用计算方法,计量单位,空间规定,时间规定,指标数值及功能含义,基础数据取得方式

18.分类:定性分析,离散变量预测

回归:定量输出,连续变量预测

19.分类:有监督学习,需要有标注结果训练数据   K最近邻

聚类:无监督学习

相关文章

hadoop搭建准备工作三台虚拟机:master、node1、node2检查时...
文件的更名和移动:    获取文件详细信息       遇...
目录一、背景1)小文件是如何产生的?2)文件块大小设置3)H...
目录一、概述二、HadoopDataNode多目录磁盘配置1)配置hdfs-...
平台搭建(伪分布式)伪分布式搭建在VM中搭建std-master修改...
 一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生...