:dart: :star2:[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop/Hive/Spark/Flink/Hbase/Kafka/Zookeeper框架的面试题知识总结
HDFS架构
Yarn架构
MapReduce过程
Yarn 调度MapReduce
hdfs写流程
hdfs读流程
hdfs创建一个文件的流程
hadoop1.x 和hadoop 2.x 的区别
hadoop1.x的缺点
hadoop HA介绍
hadoop的常用配置文件有哪些,自己实际改过哪些?
小文件过多会有什么危害,如何避免?
启动hadoop集群会分别启动哪些进程,各自的作用
讲一下环形缓冲区的概念
hive 内部表和外部表的区别
hive中 sort by / order by / cluster by / distribute by 的区别
hive的metastore的三种模式
hive 中 join都有哪些
Impala 和 hive 的查询有哪些区别
Hive中大表join小表的优化方法
Hive Sql 是怎样解析成MR job的?
Hive UDF简单介绍
SQL题: 按照学生科目分组, 取每个科目的TopN
SQL题: 获取每个用户的前1/4次的数据
讲一下flink的运行架构
讲一下flink的作业执行流程
flink具体是如何实现exactly once 语义
flink 的 window 实现机制
flink的window分类
flink 的 state 是存储在哪里的
flink是如何实现反压的
flink的部署模式都有哪些
讲一下flink on yarn的部署
flink中的时间概念 , eventTime 和 processTime的区别
flink中的session Window怎样使用
讲一下 kafka 的架构
kafka 与其他消息组件对比?
kafka 实现高吞吐的原理
kafka怎样保证不重复消费
kafka怎样保证不丢失消息
kafka 与 spark streaming 集成,如何保证 exactly once 语义
ack 有哪几种, 生产中怎样选择?
如何通过 offset 寻找数据
如何清理过期数据
1条message中包含哪些信息
讲一下zookeeper在kafka中的作用
kafka 可以脱离 zookeeper 单独使用吗
kafka有几种数据保留策略
kafka同时设置了7天和10G清除数据,到第5天的时候消息到达了10G,这个时候kafka如何处理?