2017年04月的内容

解决Spark shell模式下初始化Job出现的异常

Spark 的 shell 作为一个强大的交互式数据分析工具，提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。我们很可能会在Spark Shell模式下运行下面的测试代码：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop[code lang="scala"]scala> imp

w397090770 8年前 (2017-04-26) 2891℃ 0评论9喜欢

Hadoop

使用CombineFileInputFormat来优化Hadoop小文件

我们都知道，HDFS设计是用来存储海量数据的，特别适合存储TB、PB量级别的数据。但是随着时间的推移，HDFS上可能会存在大量的小文件，这里说的小文件指的是文件大小远远小于一个HDFS块（128MB）的大小；HDFS上存在大量的小文件至少会产生以下影响：消耗NameNode大量的内存延长MapReduce作业的总运行时间如果想及时了解Spar

w397090770 8年前 (2017-04-25) 6875℃ 1评论18喜欢

Hadoop

使用Hadoop Configuration一些需要注意的细节

我们在使用Hadoop、Spark或者是Hbase，最常遇到的问题就是进行相关系统的配置，比如集群的URL地址，MapReduce临时目录、最终输出路径等。这些属性需要有一个系统（类）进行管理。然而，Hadoop没有使用 Java.util.Properties 管理配置文件，也没有使用Apache Jakarta Commons Configuration管理配置文件，而是单独开发了一个配置文件管理类，这个类就

w397090770 8年前 (2017-04-21) 7754℃ 0评论18喜欢

Flink

Flink Forward 201704所有PPT资料下载

这次整理的PPT来自于2017年04月10日至11日在San Francisco进行的flink forward会议，这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见：http://sf.flink-forward.org/kb_day/day1/。因为原始的PPT是在http://www.slideshare.net/网站，这个网站需要翻墙；为了学习交流的方便，这里收集了本次会议所有课下载的PPT（共27个），希望对大家有所

w397090770 8年前 (2017-04-20) 2788℃ 0评论8喜欢

Hadoop

MapReduce作业Uber模式介绍

大家在提交MapReduce作业的时候肯定看过如下的输出：[code lang="bash"]17/04/17 14:00:38 INFO mapreduce.Job: Running job: job_1472052053889_000117/04/17 14:00:48 INFO mapreduce.Job: Job job_1472052053889_0001 running in uber mode : false17/04/17 14:00:48 INFO mapreduce.Job: map 0% reduce 0%17/04/17 14:00:58 INFO mapreduce.Job: map 100% reduce 0%17/04/17 14:01:04 INFO mapreduce.Job: map 100% reduce 100%[/

w397090770 8年前 (2017-04-18) 3691℃ 2评论11喜欢

Spark

[电子书]Mastering Spark for Data Science PDF下载

　　本书由Andrew Morgan所著，全书共560页；Packt Publishing出版社于2017年03月出版。通过本书你将学习到以下的知识：　　1、Learn the design patterns that integrate Spark into industrialized data science pipelines　　2、See how commercial data scientists design scalable code and reusable code for data science services　　3、Explore cutting edge data science methods so that you can study tre

zz~~ 8年前 (2017-04-17) 3551℃ 2评论8喜欢

Beam

使用Apache Beam读写HDFS上的文件

Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目，被认为是继MapReduce，GFS和BigQuery等之后，Google在大数据处理领域对开源社区的又一个非常大的贡献。Apache Beam的主要目标是统一批处理和流处理的编程范式，为无限，乱序，web-scale的数据集处理提供简单灵活，功能丰富以及表达能力十分强大的SDK。此项

w397090770 8年前 (2017-04-14) 2593℃ 0评论6喜欢

Spark

Apache Spark常见的三大误解

最近几年关于Apache Spark框架的声音是越来越多，而且慢慢地成为大数据领域的主流系统。最近几年Apache Spark和Apache Hadoop的Google趋势可以证明这一点：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop上图已经明显展示出最近五年，Apache Spark越来越受开发者们的欢迎，大家通过Google搜索更多关

w397090770 8年前 (2017-04-12) 6697℃ 0评论46喜欢

Docker

[电子书]Troubleshooting Docker PDF下载

　　本书由Vaibhav Kohli, Rajdeep Dua, John Wooten所著，全书共290页；Packt Publishing出版社于2017年03月出版。通过本书你将学习到以下的知识：　　1、Install Docker ecosystem tools and services, Microservices and N-tier applications　　2、Create re-usable, portable containers with help of automation tools　　3、Network and inter-link containers　　4、Attach volumes securely to containe

zz~~ 8年前 (2017-04-05) 1908℃ 2评论7喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2017年04月的内容

解决Spark shell模式下初始化Job出现的异常

使用CombineFileInputFormat来优化Hadoop小文件

使用Hadoop Configuration一些需要注意的细节

Flink Forward 201704所有PPT资料下载

MapReduce作业Uber模式介绍

[电子书]Mastering Spark for Data Science PDF下载

使用Apache Beam读写HDFS上的文件

Apache Spark常见的三大误解

[电子书]Troubleshooting Docker PDF下载