有关【Hadoop】的内容

CarbonData源码浅析一：Create Table

本文来自恩爸的文章，原文地址：https://blog.csdn.net/zzcclp/article/details/80161130前言一个偶然的机会，从某Spark微信群知道了CarbonData，从断断续续地去了解，到测试 1.2 版本，再到实际应用 1.3 版本的流式入库，也一年有余，在这期间，得到了 CarbonData ......

w397090770 7年前 (2018-05-02) 2862℃ 0评论7喜欢

Distributed System

分布式系统调用的三态

在传统的单机系统中，我们调用一个函数，这个函数要么返回成功，要么返回失败，其结果是确定的。可以概括为传统的单机系统调用只存在两态（2-state system）：成功和失败。然而在分布式系统中，由于系统是分布在不同的机器上，系统之间的请求就相对于单机模式来说复杂度较......

w397090770 7年前 (2018-04-20) 2610℃ 0评论9喜欢

Spark

Apache Spark 统一内存管理模型详解

本文将对 Spark 的内存管理模型进行分析，下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥，我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析，如对之前的静态内存管理感兴趣，请参阅网上其他文章。我......

w397090770 7年前 (2018-04-01) 20124℃ 4评论93喜欢

Hadoop

HDFS 副本存放磁盘选择策略

在 HDFS 中，DataNode 将数据块存储到本地文件系统目录中，具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中，一般都会配置多个目录，并且把这些目录分别配置到不同的设备上，比如分别配置到不同的HDD（HDD的全称是Hard Disk D......

w397090770 7年前 (2018-03-28) 5428℃ 3评论24喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

我们知道，Zookeeper 会将所有事务操作的数据记录到日志文件中，这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前，Zookeeper 会采用磁盘空间预分配策略；磁盘空间预分配策略主要有以下几点好处：可以让文件尽可能的占用连续的磁盘扇区，减少后续写入和读取......

w397090770 7年前 (2018-03-23) 2152℃ 0评论5喜欢

Distributed System

原文名：Paxos Made Simple [PDF下载] Leslie Lamport 2001/11/01翻译：phylipsbmy原译文链接： http://duanple.blog.163.com/blog/static/709717672011440267333/审校：Jerry Lee oldratlee<at>gmail<dot>com译序“在PODC2001会议上，我总是听到人们在抱怨......

w397090770 7年前 (2018-03-12) 3811℃ 0评论9喜欢

Spark

Apache Spark 2.3 重要特性介绍

本文翻译自：Introducing Apache Spark 2.3为了继续实现 Spark 更快，更轻松，更智能的目标，Spark 2.3 在许多模块都做了重要的更新，比如 Structured Streaming 引入了低延迟的连续处理（continuous processing）；支持 stream-to-stream joins；通过改善 pandas UDFs 的......

w397090770 7年前 (2018-03-01) 7382℃ 3评论32喜欢

Apache SeaTunnel

Waterdrop：构建在Spark之上的简单高效数据处理系统

Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处，我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章......

w397090770 7年前 (2018-02-28) 6800℃ 0评论13喜欢

Spark

在 Apache Spark 中使用 UDF

用户定义函数（User-defined functions, UDFs）是大多数 SQL 环境的关键特性，用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言（如SQL）中启用新功能。 Apache Spark 也不例外，并且提供了用于将 UDF 与 Spark SQL工作流集成的各种选项。在......

w397090770 8年前 (2018-02-14) 15129℃ 0评论21喜欢

CarbonData