一. 单选题1. 下面哪个程序负责 HDFS 数据存储a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker答案:C datanode2. HDfS 中的 block 默认保存几份?a)3 份 b)2 份 c)1 份d)不确定答案:A 默认3份 3. 下列哪个程序通常与 NameNode在一个节点启动?a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker答案:D分析:hadoop的集群是基于ma w397090770 8年前 (2016-08-26) 3716℃ 0评论2喜欢
一. 问答题1. 简单说说map端和reduce端溢写的细节2. hive的物理模型跟传统数据库有什么不同3. 描述一下hadoop机架感知4. 对于mahout,如何进行推荐、分类、聚类的代码二次开发分别实现那些接口5. 直接将时间戳作为行健,在写入单个region 时候会发生热点问题,为什么呢?二. 计算题1. 比方:如今有10个文件夹, 每个 w397090770 8年前 (2016-08-26) 3154℃ 0评论1喜欢
一.问答题1、map方法是如何调用reduce方法的?2、fsimage和edit的区别?3、hadoop1和hadoop2的区别?4、列举几个配置文件优化?5、写出你对zookeeper的理解6、datanode首次加入cluster的时候,如果log报告不兼容文件版本,那需要namenode执行格式化操作,这样处理的原因是?7、hbase 集群安装注意事项二. 思考题1. linux w397090770 8年前 (2016-08-26) 3175℃ 0评论1喜欢
1.文件大小默认为64M,改为128M有啥影响?2.RPC的原理?3.NameNode与SecondaryNameNode的区别与联系?4.介绍MadpReduce整个过程,比如把WordCount的例子的细节将清楚(重点讲解Shuffle)?5.MapReduce出现单点负载多大,怎么负载平衡?6.MapReduce怎么实现Top10?7.hadoop底层存储设计8.zookeeper有什么优点,用在什么场合9.Hbase中的meta w397090770 8年前 (2016-08-26) 3586℃ 0评论2喜欢
1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?4. 你们的服务器有多少台?服务器的内存多大?5. 你们的服务器怎么分布的?(这里说地理位置 w397090770 8年前 (2016-08-26) 3446℃ 0评论4喜欢
1.hbase怎么预分区?2.hbase怎么给web前台提供接口来访问?3.htable API有没有线程安全问题,在程序中是单例还是多例?4.hbase有没有并发问题?5.metaq消息队列,zookeeper集群,storm集群,就可以完成对商城推荐系统功能吗?还有没有其他的中间件?6.storm 怎么完成对单词的计数?7.hdfs的client端,复制到第三个副本时宕机, w397090770 8年前 (2016-08-26) 4149℃ 0评论2喜欢
一. 问答题1.请说说hadoop1的HA如何实现?2.列举出hadoop中定义的最常用的InputFormats。那个是默认的?3.TextInputFormat和KeyValueInputFormat类之间的不同之处在于哪里?4.hadoop中的InputSplit是什么?5.hadoop框架中文件拆分是如何被触发的?6.hadoop中的RecordReader的目的是什么?7.如果hadoop中没有定义定制分区,那么如何在输出 w397090770 8年前 (2016-08-26) 5694℃ 0评论5喜欢
一、 问答题1、简单描述如何安装配置一个apache开源版hadoop,只描述即可,无需列出完整步骤,能列出步骤更好。1) 安装JDK并配置环境变量(/etc/profile)2) 关闭防火墙3) 配置hosts文件,方便hadoop通过主机名访问(/etc/hosts)4) 设置ssh免密码登录5) 解压缩hadoop安装包,并配置环境变量6) 修改配置文件($HADOOP_HOME/conf)hadoop-e w397090770 8年前 (2016-08-26) 7954℃ 0评论14喜欢
Shanghai Apache Spark Meetup第十次聚会活动将于2016年09月10日12:30 至 17:20在四星级的上海通茂大酒店 (浦东新区陆家嘴金融区松林路357号)。距离地铁2、4、6、9号线的世纪大道站1000米,距离地铁4号线浦电路站740米。本次活动分别请到了运营商和高校系统的讲师来分享经验,主题覆盖了从研发到应用的各种不同视角,希望带给大家耳目 w397090770 8年前 (2016-08-25) 1415℃ 5评论2喜欢
Apache Spark 2.0引入了SparkSession,其为用户提供了一个统一的切入点来使用Spark的各项功能,并且允许用户通过它调用DataFrame和Dataset相关API来编写Spark程序。最重要的是,它减少了用户需要了解的一些概念,使得我们可以很容易地与Spark交互。 本文我们将介绍在Spark 2.0中如何使用SparkSession。更多关于SparkSession的文章请参见: w397090770 8年前 (2016-08-24) 15172℃ 2评论11喜欢