欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第93页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Hive

使用Spark SQL读取Hive上的数据

使用Spark SQL读取Hive上的数据
  Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来

w397090770   9年前 (2015-08-27) 74569℃ 19评论38喜欢

Tachyon

Tachyon 0.7.0伪分布式集群安装与测试

Tachyon 0.7.0伪分布式集群安装与测试
  我们先来看看官方文档是怎么对Tachyon进行描述的:Tachyon is a memory-centric distributed storage system enabling reliable data sharing at memory-speed across cluster frameworks, such as Spark and MapReduce. It achieves high performance by leveraging lineage information and using memory aggressively. Tachyon caches working set files in memory, thereby avoiding going to disk to load datasets that are frequently

w397090770   9年前 (2015-08-27) 3138℃ 4评论2喜欢

Hive

Hive元数据升级

Hive元数据升级
  如果我们Hadoop的core-site.xml文件中的fs.defaultFS配置由于某种原因需要修改,比如Hadoop升级、重新命名fs.defaultFS等。也就是由hdfs://olditeblog变成hdfs://newiteblogle ,如下:[code lang="bash"]<property>  <name>fs.defaultFS</name>  <value>hdfs://olditeblog</value></property>变成<property>  <name>fs.defaultFS</

w397090770   9年前 (2015-08-27) 8488℃ 0评论14喜欢

Spark

Apache Spark 不过时的六大理由

Apache Spark 不过时的六大理由
  在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,spark仅仅是崭露头角。  在过去的几年时间,随着Hadoop技术爆炸和大数据逐渐占据主流地位,几件事情逐渐明晰:  1、对所有数据而言,Hadoop分布式文件系

w397090770   9年前 (2015-08-26) 2811℃ 0评论4喜欢

Spark

上海第五次Spark meetup会议资料分享

上海第五次Spark meetup会议资料分享
  上海Spark Meetup第四次聚会将于2015年7月18日在太库科技创业发展有限公司举办,详细地址上海市浦东新区金科路2889弄3号长泰广场 C座12层,太库。本次聚会由七牛和Intel联合举办。大会主题  1、hadoop/spark生态的落地实践  王团结(七牛)七牛云数据平台工程师。主要负责数据平台的设计研发工作。关注大数据处理,高

w397090770   9年前 (2015-08-26) 2883℃ 0评论3喜欢

Flink

关于大数据的五问五答

关于大数据的五问五答
  本文出自本公众号ChinaScala,由陈超所述。一、Spark能否取代Hadoop?  答: Hadoop包含了Common,HDFS,YARN及MapReduce,Spark从来没说要取代Hadoop,最多也就是取代掉MapReduce。事实上现在Hadoop已经发展成为一个生态系统,并且Hadoop生态系统也接受更多优秀的框架进来,如Spark (Spark可以和HDFS无缝结合,并且可以很好的跑在YARN上).。

w397090770   9年前 (2015-08-26) 7171℃ 1评论40喜欢

Spark

Apache Spark 1.5重要的修改和Bug修复

Apache Spark 1.5重要的修改和Bug修复
  Apache Spark 1.5版本目前正在社区投票中,相信到9月初应该会发布。这里先剧透一下Apache Spark 1.5版本的一些重要的修改和Bug修复。Apache Spark 1.5有来自220多位贡献者的1000多个commits。这里仅仅是列出重要的修改和Bug修复,详细的还请参见Apache JIRA changelog.如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:itebl

w397090770   9年前 (2015-08-26) 2871℃ 0评论6喜欢

电子书

Using Flume:Flexible, Scalable, and Reliable Data Streaming

Using Flume:Flexible, Scalable, and Reliable Data Streaming
本书作者:Hari Shreedharan,由O'Reilly Media出版社于2014年09月出版,全书共238页。 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Apache Hadoop and Apache HBase:An IntroductionChapter 2: Streaming Data Using Apache FlumeChapter 3:SourcesChapter 4: ChannelsChapter 5: SinksChapter 6: Inter

w397090770   9年前 (2015-08-25) 4092℃ 0评论8喜欢

电子书

Apache Flume: Distributed Log Collection for Hadoop, 2nd Edition

Apache Flume: Distributed Log Collection for Hadoop, 2nd Edition
本书作者:Steve Hoffman,由Packt 出版社于2015年02月出版,全书共178页。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop本书的章节[code lang="bash"]Chapter 1: Overview and ArchitectureChapter 2: A Quick Start Guide to FlumeChapter 3:ChannelsChapter 4:Sinks and Sink ProcessorsChapter 5: Sources and Channel SelectorsChapter 6:

w397090770   9年前 (2015-08-25) 3861℃ 10评论3喜欢