海量数据处理 – 过往记忆

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式，使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询，满足 Uber 不同团队的各种需求。

w397090770 3年前 (2022-03-13) 2576℃ 0评论1喜欢

Zookeeper

Zookeeper Monitor集群监控开发

　　随着线上越来越多的系统依赖Zookeeper集群，以至于Zookeeper集群的运行状况越来越重要。但是目前还没有什么好用的Zookeeper集群监控系统（淘宝开源了一个Zookeeper监控系统，但是我觉得很不好用，里面主要有四个线程在跑，而且需要SSH登录到线上集群，这用起来很不方便。）于是我们开发了一套Zookeeper集群监控程序，可以监控Zooke

w397090770 11年前 (2014-08-01) 36086℃ 22评论62喜欢

Hadoop

如何在CDH 5上运行Spark应用程序

本文转载自：http://blog.cloudera.com/blog/2014/04/how-to-run-a-simple-apache-spark-app-in-cdh-5/(Editor’s note – this post has been updated to reflect CDH 5.1/Spark 1.0)Apache Spark is a general-purpose, cluster computing framework that, like MapReduce in Apache Hadoop, offers powerful abstractions for processing large datasets. For various reasons pertaining to performance, functionality, and APIs, Spark is already be

w397090770 11年前 (2014-07-18) 20174℃ 3评论9喜欢

Spark

Spark 1.0.1发布了

　　2014年7月11日，Spark 1.0.1已经发布了，原文如下：We are happy to announce the availability of Spark 1.0.1! This release includes contributions from 70 developers. Spark 1.0.0 includes fixes across several areas of Spark, including the core API, PySpark, and MLlib. It also includes new features in Spark’s (alpha) SQL library, including support for JSON data and performance and stability fixes.Visit the relea

w397090770 11年前 (2014-07-13) 6889℃ 0评论4喜欢

Spark

Java 8的lambda使得编写Spark应用更简单

　　Spark的其中一个目标就是使得大数据应用程序的编写更简单。Spark的Scala和Python的API接口很简洁；但由于Java缺少函数表达式（function expressions），使得Java API有些冗长。Java 8里面增加了lambda表达式，Spark开发者们更新了Spark的API来支持Java8的lambda表达式，而且与旧版本的Java保持兼容。这些支持将会在Spark 1.0可用。如果想及时了解

w397090770 11年前 (2014-07-10) 13210℃ 0评论18喜欢

HBase

Spark读取Hbase中的数据

Spark和Flume-ng整合，可以参见本博客：《Spark和Flume-ng整合》《使用Spark读取HBase中的数据》如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop　　大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如

w397090770 11年前 (2014-06-29) 75050℃ 47评论58喜欢

Kafka

Kafka分布式集群部署手册(二)

　　在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1（Kafka 0.7.x的操作命令和本文略有不同，请注意！）在介绍Kafka分布式部署之前，先来了解一下Kafka的基本概念。　　（1）Kafka维护按类区分的消息

w397090770 11年前 (2014-06-25) 9197℃ 0评论5喜欢

Kafka

Kafka分布式集群部署手册(一)

　　在本博客的《Apache Kafka-0.8.1.1源码编译》文章中简单地谈到如何用gradlew或sbt编译Kafka 0.8.1.1的代码。今天主要来谈谈如何部署一个分布式集群。以下本文所有的内容都是基于Kafka 0.8.1.1（Kafka 0.7.x的操作命令和本文略有不同，请注意！）在介绍Kafka分布式部署之前，先来了解一下Kafka的基本概念。　　（1）Kafka维护按类区分的消息

w397090770 11年前 (2014-06-23) 19131℃ 0评论20喜欢

Flume

Apache Kafka-0.8.1.1源码编译

　　经过近一个月时间，终于差不多将之前在Flume 0.9.4上面编写的source、sink等插件迁移到Flume-ng 1.5.0，包括了将Flume 0.9.4上面的TailSource、TailDirSource等插件的迁移（当然，我们加入了许多新的功能，比如故障恢复、日志的断点续传、按块发送日志以及每个一定的时间轮询发送日志而不是等一个日志发送完才发送另外一个日志）。现在

w397090770 11年前 (2014-06-18) 17547℃ 13评论15喜欢

Flume

用Maven编译Apache flume-ng 1.5.0源码及问题解决

　　在今年的5月22号，Flume-ng 1.5.0版本正式发布，关于Flume-ng 1.5.0版本的新特性可以参见本博客的《Apache Flume-ng 1.5.0正式发布》进行了解。关于Apache flume-ng 1.4.0版本的编译可以参见本博客《基于Hadoop-2.2.0编译flume-ng 1.4.0及错误解决》。本文将讲述如何用Maven编译Apache flume-ng 1.5.0源码。一、到官方网站下载相应版本的flume-ng源码[code lan

w397090770 11年前 (2014-06-16) 20837℃ 23评论14喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

标签：海量数据处理