2021年超全超详细的最新大数据开发面试题，附答案解析 – 过往记忆

- -

HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办. NameNode在启动的时候会做哪些操作. Secondary NameNode了解吗，它的工作机制是怎样的. Secondary NameNode不能恢复NameNode的全部数据，那如何保证NameNode数据存储安全.

大数据量的算法面试题

- - 编程 - 编程语言 - ITeye博客

作者：July、youwang、yanxionglu. 时间：二零一一年三月二十六日. 说明：本文分为俩部分，第一部分为10道海量数据处理的面试题，第二部分为10个海量数据处理的方法总结. 出处：http://blog.csdn.net/v_JULY_v. 第一部分、十道海量数据处理面试题. 1、海量日志数据，提取出某日访问百度次数最多的那个IP.

机器学习及大数据相关面试的职责和面试问题

- - IT瘾-bigdata

· 机器学习、大数据相关岗位的职责. 各个企业对这类岗位的命名可能有所不同，比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师，或简称算法工程师，还有的称为搜索/推荐算法工程师，甚至有的并入后台工程师的范畴，视岗位具体要求而定. 机器学习、大数据相关岗位的职责. 根据业务的不同，岗位职责大概分为：.

大数据面试可能遇到的问题

- - 数据库 - ITeye博客

1、你处理过的最大的数据量. 2、告诉我二个分析或者计算机科学相关项目. 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则. 4、什么是：协同过滤、n-grams, map reduce、余弦距离. 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库.

写给大数据开发初学者的话 | 附教程 | 大数据

- -

第二章：更高效的WordCount. 第三章：把别处的数据搞到Hadoop上. 第四章：把Hadoop上的数据搞到别处去. 经常有初学者在博客和QQ问我，自己想往大数据方向发展，该学哪些技术，学习路线是什么样的，觉得大数据很火，就业很好，薪资很高. 如果自己很迷茫，为了这些原因想往大数据方向发展，也可以，那么我就想问一下，你的专业是什么，对于计算机/软件，你的兴趣是什么.

将安全开发流程扩展到云和大数据

- - 博客园_知识库

　　英文原文： Extend your secure development process to the cloud and big data. 　　简介：云计算和大数据正在改变着企业. 了解必须将这些新技术融入您的安全开发流程的原因，并了解什么是安全开发流程、云计算和大数据技术的组成部分，以及它们存在哪些应用程序安全风险和如何减轻这些风险.

专访QQ大数据团队，谈分布式计算系统开发

- - 互联网 - ITeye博客

NoSQL是笔者最早接触大数据领域的相关知识，因此在大家都在畅谈Hadoop、Spark时，笔者仍然保留着NoSQL博文的阅读习惯. 在偶尔阅读一篇Redis博文过程中，笔者发现了. jacksu的个人博客，并在其中发现了大量的分布式系统操作经验，从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组，这里我们一起走进.

Android开发面试题 71道经典题目

- - CSDN博客移动开发推荐文章

1. 下列哪些语句关于内存回收的说明是正确的. (b ) A、程序员必须创建一个线程来释放内存. B、内存回收程序负责释放无用内存 . C、内存回收程序允许程序员直接释放内存 . D、内存回收程序可以在指定的时间释放内存对象 . 2. 下面异常是属于Runtime Exception 的是（abcd）(多选) A、ArithmeticException .

100个iOS开发/设计面试题大全

- - 极客521 | 极客521

无论是对于公司还是开发者或设计师个人而言，面试都是一项耗时耗钱的项目，本文作者Cameron Banga从编程、设计、App Store等各个方面对iOS开发者及设计师在面试时可能会遇到的问题进行了筛选与汇总. 一方面，能够帮助HR在短时间内获取更多反馈信息，更好地甄选合适人选，而iOS开发者及设计师在寻找相关工作时，也可作为参考，为面试做好万全准备.

谈大数据(2)

- - 人月神话的BLOG

对于大数据，后面会作为一个系列来谈，大数据涉及的方面特别多，包括主数据，数据中心和ODS，SOA，云计算，业务BI等很多方面的内容. 前面看到一个提法，即大数据会让我们更加关注业务方面的内容，而云平台则更多是技术层面的内容. 对于大数据会先把各个理解的关键点谈完了，再系统来看大数据的完整解决方案和体系化.

2021年超全超详细的最新大数据开发面试题，附答案解析 – 过往记忆

Hadoop

1. 请说下HDFS读写流程

2. HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办

3. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办

4. NameNode在启动的时候会做哪些操作

5. Secondary NameNode了解吗，它的工作机制是怎样的

6. Secondary NameNode不能恢复NameNode的全部数据，那如何保证NameNode数据存储安全

7. 在NameNode HA中，会出现脑裂问题吗？怎么解决脑裂

8. 小文件过多会有什么危害,如何避免

9. 请说下HDFS的组织架构

10. 请说下MR中Map Task的工作机制

11. 请说下MR中Reduce Task的工作机制

12. 请说下MR中shuffle阶段

13. shuffle阶段的数据压缩机制了解吗

14. 在写MR时，什么情况下可以使用规约

15. yarn 集群的架构和工作原理知道多少

16. yarn 的任务提交流程是怎样的

17. yarn 的资源调度三种模型了解吗

Hive

1. hive 内部表和外部表的区别

2. hive 有索引吗

3. 运维如何对hive进行调度

4. ORC、Parquet等列式存储的优点

5. 数据建模用的哪些模型？

6. 为什么要对数据仓库分层？

7. 使用过Hive解析JSON串吗

8. sort by 和 order by 的区别

9.hive优化有哪些？

Spark

1. hadoop和spark使用场景？

2. spark如何保证宕机迅速恢复?

3. hadoop和spark的相同点和不同点？

4. RDD持久化原理？

5. checkpoint检查点机制？

6. checkpoint和持久化机制的区别？

7. RDD机制理解吗？

8. Spark streaming以及基本工作原理？

9. DStream以及基本工作原理？

10. spark有哪些组件？

11. spark工作机制？

12. 说下宽依赖和窄依赖

13. Spark主备切换机制原理知道吗？

14. spark解决了hadoop的哪些问题？

15. 数据倾斜的产生和解决办法？

16. 你用sparksql处理的时候， 处理过程中用的dataframe还是直接写的sql？为什么？

17. 现场写一个笔试题

18. RDD中reduceBykey与groupByKey哪个性能好，为什么

19. Spark master HA主从切换过程不会影响到集群已有作业的运行，为什么？

20. spark master使用zookeeper进行ha，有哪些源数据保存到Zookeeper里面

Kafka

1. 为什么要使用 kafka？

2. Kafka消费过的消息如何再消费？

3. kafka的数据是放在磁盘上还是内存上，为什么速度会快？

4. Kafka数据怎么保障不丢失？

5. 采集数据为什么选择kafka？

6. kafka 重启是否会导致数据丢失？

7. kafka 宕机了如何解决？

8. 为什么Kafka不支持读写分离？

9. kafka数据分区和消费者的关系？

10. kafka的数据offset读取流程

11. kafka内部如何保证顺序，结合外部组件如何保证消费者的顺序？

12. Kafka消息数据积压，Kafka消费能力不足怎么处理？

13. Kafka单条日志传输大小

Hbase

1. Hbase是怎么写数据的？

2. HDFS和HBase各自使用场景

3. Hbase的存储结构

4. 热点现象（数据倾斜）怎么产生的，以及解决方法有哪些

5. HBase的 rowkey 设计原则

6. HBase的列簇设计

7. HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别

Flink

1. Flink 的容错机制（checkpoint）

2. Flink checkpoint与 Spark Flink 有什么区别或优势吗

3. Flink 中的 Time 有哪几种

4. 对于迟到数据是怎么处理的

5. Flink 的运行必须依赖 Hadoop组件吗

6. Flink集群有哪些角色？各自有什么作用

7. Flink 资源管理中 Task Slot 的概念

16. 你用sparksql处理的时候，处理过程中用的dataframe还是直接写的sql？为什么？

相关 [大数据开发面试] 推荐：