欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:961
  2. 浏览总数:11,482,614
  3. 评论:3873
  4. 分类目录:103 个
  5. 注册用户数:5843
  6. 最后更新:2018年10月17日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

最新发布 第6页

过往记忆专注于大数据技术及应用,微信公众号:iteblog_hadoop

Spark

Apache Spark 统一内存管理模型详解

Apache Spark 统一内存管理模型详解
本文将对 Spark 的内存管理模型进行分析,下面的分析全部是基于 Apache Spark 2.2.1 进行的。为了让下面的文章看起来不枯燥,我不打算贴出代码层面的东西。文章仅对统一内存管理模块(UnifiedMemoryManager)进行分析,如对之前的静态内存管理感兴趣,请参阅网上其他文章。我们都知道 Spark 能够有效的利用内存并进行分布式计算,其内

w397090770   7个月前 (04-01) 4761℃ 2评论40喜欢

Hadoop

HDFS 副本存放磁盘选择策略

HDFS 副本存放磁盘选择策略
在 HDFS 中,DataNode 将数据块存储到本地文件系统目录中,具体的目录可以通过配置 hdfs-site.xml 里面的 dfs.datanode.data.dir 参数。在典型的安装配置中,一般都会配置多个目录,并且把这些目录分别配置到不同的设备上,比如分别配置到不同的HDD(HDD的全称是Hard Disk Drive)和SSD(全称Solid State Drives,就是我们熟悉的固态硬盘)上。当

w397090770   7个月前 (03-28) 1776℃ 1评论14喜欢

Zookeeper

Apache Zookeeper 磁盘空间预分配策略

Apache Zookeeper 磁盘空间预分配策略
我们知道,Zookeeper 会将所有事务操作的数据记录到日志文件中,这个文件的存储路径可以通过 dataLogDir 参数配置。在写数据之前,Zookeeper 会采用磁盘空间预分配策略;磁盘空间预分配策略主要有以下几点好处:可以让文件尽可能的占用连续的磁盘扇区,减少后续写入和读取文件时的磁盘寻道开销;迅速占用磁盘空间,防止使用

w397090770   7个月前 (03-23) 682℃ 0评论5喜欢

Distributed System

Paxos Made Simple 译文

Paxos Made Simple 译文
原文名:Paxos Made Simple [PDF下载] Leslie Lamport 2001/11/01翻译:phylipsbmy 原译文链接: http://duanple.blog.163.com/blog/static/709717672011440267333/审校:Jerry Lee oldratlee<at>gmail<dot>com译序“在PODC2001会议上,我总是听到人们在抱怨Paxos算法是那么的难以理解。人们总是被那些古希腊的名称弄得晕头转向,而使得他们觉得论文难以理解

w397090770   7个月前 (03-12) 679℃ 0评论3喜欢

Spark

Apache Spark 2.3 重要特性介绍

Apache Spark 2.3 重要特性介绍
本文翻译自:Introducing Apache Spark 2.3为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别是自带的独立模式St

w397090770   8个月前 (03-01) 5332℃ 6评论28喜欢

Spark

Waterdrop:构建在Spark之上的简单高效数据处理系统

Waterdrop:构建在Spark之上的简单高效数据处理系统
Databricks 开源的 Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我们在此与大家分享一下我们在简化Spark使用和编程以及加快Spark在生产环境落地上做的一些努力。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop一个Spark Streaming读取Kafka

w397090770   8个月前 (02-28) 2257℃ 0评论11喜欢

Spark

在 Apache Spark 中使用 UDF

在 Apache Spark 中使用 UDF
用户定义函数(User-defined functions, UDFs)是大多数 SQL 环境的关键特性,用于扩展系统的内置功能。 UDF允许开发人员通过抽象其低级语言实现来在更高级语言(如SQL)中启用新功能。 Apache Spark 也不例外,并且提供了用于将 UDF 与 Spark SQL工作流集成的各种选项。在这篇博文中,我们将回顾 Python,Java和 Scala 中的 Apache Spark UDF和UDAF(u

w397090770   8个月前 (02-14) 5363℃ 0评论16喜欢

CarbonData

Apache CarbonData里程碑式版本1.3发布,多个重要新特性

Apache CarbonData里程碑式版本1.3发布,多个重要新特性
CarbonData是一种高性能大数据存储方案,支持快速过滤查找和即席OLAP分析,已在20+企业生产环境上部署应用,其中最大的单一集群数据规模达到几万亿。针对当前大数据领域分析场景需求各异而导致的存储冗余问题,业务驱动下的数据分析灵活性要求越来越高,CarbonData提供了一种新的融合数据存储方案,以一份数据同时支持多种应

w397090770   8个月前 (02-09) 1005℃ 0评论13喜欢

资料分享

阿里巴巴大数据相关职位推荐

阿里巴巴大数据相关职位推荐
工作地点:北京、杭州、深圳联系人:过往记忆​微信号:iteblog邮箱:wyphao.2007 at 163.com长期有效阿里云-高级研发/专家-大数据计算存储数据库(p6/p7/p8)职位描述:负责大数据计算引擎的开发工作,统一支持在线与离线的SQL计算(Spark类专家)负责大数据在线存储引擎的开发工作,统一支持kv、table、json、graph,支持各种in

w397090770   9个月前 (01-30) 3884℃ 1评论20喜欢

网站建设

过往记忆博客微信小程序正式上线

过往记忆博客微信小程序正式上线
经过几个星期的开发,本博客微信小程序(过往记忆大数据技术博客)正式上线了!至此大家可以通过微信公众号、微信小程序等方式访问本博客了。下面来看看本博客微信公众号的一些预览:微信小程序首页在首页可以查看本博客最新的文章,热门文章以及搜索等。文章页文章页可以文章的详情,功

w397090770   9个月前 (01-28) 818℃ 3评论7喜欢