有关【Hadoop】的内容

Spark读取数据库(Mysql)的四种方式讲解

　　目前Spark支持四种方式从数据库中读取数据，这里以Mysql为例进行介绍。一、不指定查询条件　　这个方式链接MySql的函数原型是：def jdbc(url: String, table: String, properties: Properties): DataFrame　　我们只需要提供Driver的url，需要查询的表名，以及......

w397090770 10年前 (2015-12-28) 37927℃ 1评论61喜欢

大数据

2015年中国大数据技术大会PPT百度网盘下载

　　2015年中国大数据技术大会已经圆满落幕，本届大会历时三天（2015-12-10~2015-12-12），以更加国际化的视野，从政策法规、技术实践和产业应用等角度深入探讨大数据落地后的挑战，作为大数据产业界、科技界与政府部门密切合作的重要平台，吸引了数千名大数据技术爱好者到......

w397090770 10年前 (2015-12-18) 5611℃ 0评论11喜欢

Spark Streaming

上海大数据流处理(Big Data Streaming)资料分享

　　第二期上海大数据流处理(Shanghai Big Data Streaming 2nd Meetup)于2015年12月6日下午12:45在上海世贸大厦22层英特尔(中国)有限公司延安西路2299号进行，分享的主题如下：一、演讲者1/Speaker 1: 张天伦英特尔大数据组软件工程师　　个人介绍/BIO: 英特尔开源流处......

w397090770 10年前 (2015-12-16) 3721℃ 0评论5喜欢

Spark

Spark Checkpoint写操作代码分析

　　《Spark RDD缓存代码分析》　　《Spark Task序列化代码分析》　　《Spark分区器HashPartitioner和RangePartitioner代码详解》　　《Spark Checkpoint读操作代码分析》　　《Spark Checkpoint写操作代码分析》　　上次我对Spark RDD缓存的相关代码《Spark RDD缓存......

w397090770 10年前 (2015-11-25) 8986℃ 5评论14喜欢

Hive

Hive：解决Hive创建文件数过多的问题

　　今天将临时表里面的数据按照天分区插入到线上的表中去，出现了Hive创建的文件数大于100000个的情况，我的SQL如下：///////////////////////////////////////////////////////////////////// User: 过往记忆 Date: 2015-11-18 Time: 23:24 bolg: 本文地址......

w397090770 10年前 (2015-11-18) 23126℃ 3评论53喜欢

Spark

Spark RDD缓存代码分析

　　我们知道，Spark相比Hadoop最大的一个优势就是可以将数据cache到内存，以供后面的计算使用。本文将对这部分的代码进行分析。　　我们可以通过rdd.persist()或rdd.cache()来缓存RDD中的数据，cache()其实就是调用persist()实现的。persist()支持下面的几种存储级别：......

w397090770 10年前 (2015-11-17) 9786℃ 0评论15喜欢

Spark

Spark Task序列化代码分析

　　Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图，而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候，Task一般都会依赖一些文件和Jar包，这些依赖的文件和Jar会对增加分发的时间，所以Spark在分发Task的时候会将Task进行序列化，......

w397090770 10年前 (2015-11-16) 6363℃ 0评论8喜欢

Spark

Spark社区可能放弃Spark 1.7而直接发布Spark 2.x

　　最近由Reynold Xin给Spark开发者发布的一封邮件透露，Spark社区很有可能会跳过Spark 1.7版本的发布，而直接转向Spark 2.x。　　如果Spark 2.x发布，那么它将：　　（1）、Spark编译将默认使用Scala 2.11，但是还是会支持Scala 2.10。　　（2）、移除对Hadoop 1.x的支......

w397090770 10年前 (2015-11-13) 7015℃ 0评论16喜欢

Hive

　　Hive 1.2.1源码编译依赖的Hadoop版本必须最少是2.6.0，因为里面用到了Hadoop的org.apache.hadoop.crypto.key.KeyProvider和org.apache.hadoop.crypto.key.KeyProviderFactory两个类，而这两个类在Hadoop 2.6.0才出现，否者会出现以下编译错误：[ERROR] /home/q/spark......

w397090770 10年前 (2015-11-11) 13736℃ 11评论6喜欢

Spark

Spark分区器HashPartitioner和RangePartitioner代码详解

　　在Spark中分区器直接决定了RDD中分区的个数；也决定了RDD中每条数据经过Shuffle过程属于哪个分区；也决定了Reduce的个数。这三点看起来是不同的方面的，但其深层的含义是一致的。　　我们需要注意的是，只有Key-Value类型的RDD才有分区的，非Key-Value类型的RDD分区的......

w397090770 10年前 (2015-11-10) 18868℃ 2评论40喜欢

上一页
1
···
73
74
75
76
77
78
79
80
81
82
83
...
99
下一页
共 99 页