有关【Hadoop】的内容

过往记忆微信公共帐号自动回复升级啦

为了提高本博客的用户体验，我于去年七月写了一份代码，将博客与微信公共帐号关联起来（可以参见本博客），用户可以在里面输入相关的关键字（比如new、rand、hot），但是那时候关键字有限制，只能对文章的分类进行搜索。不过，今天我修改了自动回复功能相关代码，目前支持对......

w397090770 10年前 (2015-11-07) 2138℃ 0评论8喜欢

Spark

通过spark-redshift工具包读取Redshift上的表

　　Spark Data Source API是从Spark 1.2开始提供的，它提供了可插拔的机制来和各种结构化数据进行整合。Spark用户可以从多种数据源读取数据，比如Hive table、JSON文件、Parquet文件等等。我们也可以到http://spark-packages.org/（这个网站貌似现在不可以访问了）网站查看......

w397090770 10年前 (2015-10-21) 3925℃ 0评论4喜欢

Scala

Scala class和case class的区别

在Scala中存在case class，它其实就是一个普通的class。但是它又和普通的class略有区别，如下：1、初始化的时候可以不用new，当然你也可以加上，普通类一定需要加new；scala> case class Iteblog(name:String)defined class Iteblogscala> val iteblog = It......

w397090770 10年前 (2015-09-18) 38661℃ 1评论71喜欢

Spark

Apache Spark 1.5新特性介绍

　　Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。DataFrame执行后端优化（Tungsten第一阶段）　　DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要......

w397090770 10年前 (2015-09-09) 4817℃ 0评论14喜欢

Spark

Apache Spark 1.5.0正式发布

　　Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目，它主要是通过对低层次的组建进行优化从而提升Spark的性能......

w397090770 10年前 (2015-09-09) 3146℃ 0评论12喜欢

Kafka

Kafka设计解析：Kafka Consumer解析

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》High Level Consumer　　很多时候，客户程序只......

w397090770 10年前 (2015-09-08) 9669℃ 0评论22喜欢

Spark

在Tachyon运行Spark应用程序

　　我们在《Tachyon 0.7.0伪分布式集群安装与测试》文章中介绍了如何搭建伪分布式Tachyon集群。从官方文档得知，Spark 1.4.x和Tachyon 0.6.4版本兼容，而最新版的Tachyon 0.7.1和Spark 1.5.x兼容，目前最新版的Spark为1.4.1，所以下面的操作步骤全部是基于Tachyon 0.6.4平......

w397090770 10年前 (2015-08-31) 5520℃ 0评论6喜欢

Hive

Hive on Spark编程入门指南

　　先说明一下，这里说的Hive on Spark是Hive跑在Spark上，用的是Spark执行引擎，而不是MapReduce，和Hive on Tez的道理一样。　　从Hive 1.1版本开始，Hive on Spark已经成为Hive代码的一部分了，并且在spark分支上面，可以看这里https://github.com/apache/hive/tree/sp......

w397090770 10年前 (2015-08-31) 41955℃ 30评论43喜欢

Spark meetup

上海Spark Meetup第六次聚会

　　上海Spark Meetup第六次聚会将于2015年08月08日下午1:30 PM to 5:00 PM在上海市杨浦云计算创新基地发展有限公司举办，详细地址上海市杨浦区伟德路6号云海大厦13楼。本次聚会由Intel举办。大会主题主讲题目：Tachyon: 内存为中心可容错的分布式存储系统　　摘要：在越......

w397090770 10年前 (2015-08-28) 4497℃ 0评论1喜欢

Hive

使用Spark SQL读取Hive上的数据

　　Spark SQL主要目的是使得用户可以在Spark上使用SQL，其数据源既可以是RDD，也可以是外部的数据源（比如Parquet、Hive、Json等）。Spark SQL的其中一个分支就是Spark on Hive，也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑，可以近似认为仅将物理执......

w397090770 10年前 (2015-08-27) 74797℃ 19评论38喜欢

上一页
1
···
74
75
76
77
78
79
80
81
82
83
84
...
99
下一页
共 99 页