欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1035
  2. 浏览总数:13,399,726
  3. 评论:4085
  4. 分类目录:108 个
  5. 注册用户数:6826
  6. 最后更新:2019年6月19日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
Hadoop技术博文:
bigdata_ai

最新发布 第7页

过往记忆专注于大数据技术及应用,微信公众号:iteblog_hadoop

Spark

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍

Apache Spark 2.4 中解决复杂数据类型的内置函数和高阶函数介绍
Apache Spark 2.4 是在11月08日正式发布的,其带来了很多新的特性具体可以参见这里,本文主要介绍这次为复杂数据类型新引入的内置函数和高阶函数。本次 Spark 发布共引入了29个新的内置函数来处理复杂类型(例如,数组类型),包括高阶函数。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

w397090770   7个月前 (11-21) 1109℃ 0评论2喜欢

HBase

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计

通过例子剖析 OpenTSDB 的 Rowkey 及列名设计
通过《OpenTSDB 底层 HBase 的 Rowkey 是如何设计的》 文章我们已经了解 OpenTSDB 底层的 HBase Rowkey 是如何设计的了。我们现在来测试一下 OpenTSDB 导入的时序数据到底长什么样子。在 OpenTSDB 里面默认存时序数据的表为 tsdb。前面说了,每个指标名称、标签名称以及标签值都有唯一的编码,这些编码数据是存放在 tsdb-uid 表里面。为了更加

w397090770   7个月前 (11-16) 1181℃ 3评论5喜欢

HBase

OpenTSDB 底层 HBase 的 Rowkey 是如何设计的

OpenTSDB 底层 HBase 的 Rowkey 是如何设计的
OpenTSDB 是基于 HBase 的可扩展、开源时间序列数据库(Time Series Database),可以用于存储监控数据、物联网传感器、金融K线等带有时间的数据。它的特点是能够提供最高毫秒级精度的时间序列数据存储,能够长久保存原始数据并且不失精度。它拥有很强的数据写入能力,支持大并发的数据写入,并且拥有可无限水平扩展的存储容量。目

w397090770   7个月前 (11-15) 1738℃ 1评论5喜欢

Spark

Apache Spark 2.4 正式发布,重要功能详细介绍

Apache Spark 2.4 正式发布,重要功能详细介绍
美国时间 2018年11月08日 正式发布了。一如既往,为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.4 带来了许多新功能,如下:添加一种支持屏障模式(barrier mode)的调度器,以便与基于MPI的程序更好地集成,例如, 分布式深度学习框架;引入了许多内置的高阶函数,以便更容易处理复杂的数据类型(比如数组和 map);

w397090770   7个月前 (11-10) 2275℃ 0评论5喜欢

Spark

Apache Spark 2.4.0 正式发布

Apache Spark 2.4.0 正式发布
Apache Spark 2.4 与昨天正式发布,Apache Spark 2.4 版本是 2.x 系列的第五个版本。 如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopApache Spark 2.4 为我们带来了众多的主要功能和增强功能,主要如下:新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中

w397090770   7个月前 (11-09) 1488℃ 0评论1喜欢

HBase

HBase 多租户隔离技术:RegionServer Group 介绍及实战

HBase 多租户隔离技术:RegionServer Group 介绍及实战
背景随着 Apache HBase 在各个领域的广泛应用,在 HBase 运维或应用的过程中我们可能会遇到这样的问题:同一个 HBase 集群使用的用户越来越多,不同用户之间的读写或者不同表的 compaction、region splits 操作可能对其他用户或表产生了影响。将所有业务的表都存放在一个集群的好处是可以很好的利用整个集群的资源,只需要一套运

w397090770   8个月前 (11-01) 1954℃ 4评论9喜欢

HBase

HBase基本知识介绍及典型案例分析

HBase基本知识介绍及典型案例分析
本文来自于2018年10月20日由中国 HBase 技术社区在武汉举办的中国 HBase Meetup 第六次线下交流会。分享者为过往记忆。本文 PPT 下载 请关注 iteblog_hadoop 微信公众号,并回复 HBase 获取。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公众号:iteblog_hadoop本次分享的内容主要分为以下五点:HBase基本知识;HBase读

w397090770   8个月前 (10-25) 3117℃ 0评论18喜欢

Alluxio

Alluxio Meetup 上海站开始报名了

Alluxio Meetup 上海站开始报名了
Alluxio Meetup 上海站由 Alluxio、七牛主办,示说网、过往记忆协办,本次会议将于2018年10月27日 13:30-17:00 在上海市张江高科博霞路66号浦东软件园Q座举行。报名地址扫描下面二维码:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop活动详情Alluxio:未来是数据的时代,数据的高效管理、存储

w397090770   8个月前 (10-17) 601℃ 0评论1喜欢

Spark

Spark+AI Summit Europe 2018 PPT下载[共95个]

Spark+AI Summit Europe 2018 PPT下载[共95个]
为期三天的 Spark+AI Summit Europe 于 2018-10-02 ~ 04 在伦敦举行,一如往前,本次会议包含大量 AI 相关的议题,某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议,Spark+AI Summit Europe 2018 吸引了全球大量技术大咖参会,本次会议议题超过了140多个。会议的全部日程请参见:https://databricks.com/sparkaisummit/europe/schedule。注意

w397090770   8个月前 (10-13) 2143℃ 1评论7喜欢

Hadoop

如何从根源上解决 HDFS 小文件问题

如何从根源上解决 HDFS 小文件问题
我们知道,HDFS 被设计成存储大规模的数据集,我们可以在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而这些数据的元数据(比如文件由哪些块组成、这些块分别存储在哪些节点上)全部都是由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的时候会将这些元数据全部加载到内存中。而 HDFS 中的每一个文件、目录以及文件块,

w397090770   8个月前 (10-09) 4338℃ 2评论24喜欢