Hadoop常见问题

1.mr、hive调优的问题
2.数据倾斜怎么处理
hive的优化。
答1.不用*来select，指定列名 2.指定分区 3.大小表join，使用map join将小表加载到内存 4.尽量不要出现count（distinct），用中间表和group代替 5.避免出现笛卡尔积 6.设置平行度和reducer的个数 7.合并小文件
3HDFS的流程。
答就按照正常的流量稍微说下，画下。
4问hadoop生态圈中hdfs基本原理。
答1、首先调用FileSystem对象的open方法，其实获取的是一个 distributedFileSystem的实例。 2、distributedFileSystem通过RPC(远程过程调用)获得文件的第一批block的locations，同一block按照重复数会返回多个locations，这些locations按照Hadoop拓扑结构排序，距离客户端近的排在前面。 3、前两步会返回一个FSDataInputStream对象，该对象会被封装成 DFSInputStream对象，DFSInputStream可以方便的管理datanode和namenode数据流。客户端调用read方法，DFSInputStream就会找出离客户端最近的datanode并连接datanode。 4、数据从datanode源源不断的流向客户端。 5、如果第一个block块的数据读完了，就会关闭指向第一个block块的datanode连接，接着读取下一个block块。这些操作对客户端来说是透明的，从客户端的角度来看只是读一个持续不断的流。 6、如果第一批block都读完了，DFSInputStream就会去namenode拿下一批blocks的location，然后继续读，如果所有的block块都读完，这时就会关闭掉所有的流。
5面试主要问了一下sql以及对于数据仓库概念的理解，sql是关…
熟悉哪些框架详细描述下数独魔方二选一一道sql题（难度一般） java方法实现123改321 三段代码说下各自什么意思（一个C语言的本人不会，一个是java的单例模式，还有个sql难度一般）编程实现非递归算法计算斐波那契数列 vector、linkedlist、arraylist的区别与特性进程通信问题、线程安全问题
6（1）简单描叙一下你的兴趣爱好
（2）你最擅长的技术及专长，简单描述一下
（3）你所知道的集合类都有哪些，主要方法？
（4）Java面向对象的特性
（5）列举一下linux常用的命令行
（6）简单描述一下Hadoop生态圈的基本组成及功能
（7）启动Hadoop集群，需要先启动哪些进程
（8）简单列举下Hadoop的三大运行模式及介绍
（9）用mapreduce写个Wordcount。
7
当时是刚毕业去的，面试的是的一个经理，应届生没有问些什么东西，就问了一下对大数据的了解。spark，hadoop等大数据的问题，spark的内存模型，另外还问了些java的东西，spring的原理。
8大数据面试题
https://www.cnblogs.com/xiaodong520/p/8657925.html
http://dy.163.com/v2/article/detail/DQ6UBA5U0511VC27.html

Hadoop常见问题

相关文章