欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:976
  2. 浏览总数:11,916,898
  3. 评论:3931
  4. 分类目录:106 个
  5. 注册用户数:6090
  6. 最后更新:2018年12月11日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

Hadoop面试题系列(3/11)

1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?

2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?

3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?

4. 你们的服务器有多少台?服务器的内存多大?

5. 你们的服务器怎么分布的?(这里说地理位置分布,最好也从机架方面也谈谈)

6. 你平常在公司都干些什么(一些建议)

7. 你们的集群规模?

537台。

8. 你们的数据是用什么导入到数据库的?导入到什么数据库?
处理之前的导入:通过 hadoop 命令导入到 hdfs 文件系统
处理完成之后的导出:利用 hive 处理完成之后的数据,通过 sqoop 导出到 mysql 数据库中,以供报表层使用。

9. 你们业务数据量多大?有多少行数据?
开发时使用的是部分数据,不是全量数据,有将近一亿行( 8、 9 千万,具体不详,一般开发中也没人会特别关心这个问题)

10. 你们处理数据是直接读数据库的数据还是读文本数据?
将日志数据导入到 hdfs 之后进行处理

11. 你们写 hive 的 hql 语句,大概有多少条?
不清楚,我自己写的时候也没有做过统计

12. 你们提交的 job 任务大概有多少个?这些 job 执行完大概用多少时间?
没统计过,加上测试的,会有很多

13. 你在项目中主要的工作任务是?
利用 hive 分析数据

14. 你在项目中遇到了哪些难题,是怎么解决的?
某些任务执行时间过长,且失败率过高,检查日志后发现没有执行完就失败,原因出在hadoop 的 job 的 timeout 过短(相对于集群的能力来说),设置长一点即可

15. 你自己写过 udf 函数么?写了哪些?

16. 你的项目提交到 job 的时候数据量有多大?

17. 数据备份, 你们是多少份, 如果数据超过存储容量, 你们怎么处理?

18. 怎么提升多个 JOB 同时执行带来的压力, 如何优化, 说说思路?

19. 你们用 HBASE 存储什么数据?

20. 你们的 hive 处理数据能达到的指标是多少?

21. 你们的 hbase 大概在公司业务中(主要是网上商城)大概都几个表,几个表簇,都存什么样的数据?

本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【Hadoop面试题系列(3/11)】(https://www.iteblog.com/archives/1758.html)
喜欢 (3)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!