欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

最新发布 第2页

过往记忆专注于大数据技术构架及应用,微信公众号:过往记忆大数据

Flink

Apache Hudi 现在也支持 Flink 引擎了

Apache Hudi 现在也支持 Flink 引擎了
本文作者:王祥虎,原文链接:https://mp.weixin.qq.com/s/LvKaj5ytk6imEU5Dc1Sr5Q,欢迎关注 Apache Hudi 技术社区公众号:ApacheHudi。Apache Hudi是由Uber开发并开源的数据湖框架,它于2019年1月进入Apache孵化器孵化,次年5月份顺利毕业晋升为Apache顶级项目。是当前最为热门的数据湖框架之一。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢

w397090770   2个月前 (10-09) 521℃ 0评论0喜欢

网站建设

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上

使用 yum 在 CentOS 上安装或升级 PHP 到 7 以上
最近升级了 WordPress,但是出现了以下的异常:[code lang="bash"]Your server is running PHP version 5.4.16 but WordPress 5.4.4 requires at least 5.6.20.[/code]可见 WordPress 5.4.4 版本需要 PHP 5.6.20 及以上才可以正常运行,所以本文记录 PHP 的升级过程。检查当前安装的 PHP我们可以使用下面命令看下当前服务器上的 PHP 版本[code lang="bash"][root@iteblog.com

w397090770   2个月前 (10-06) 5℃ 0评论0喜欢

Apache Iceberg

Apache Iceberg 代码调试技巧

Apache Iceberg 代码调试技巧
当前数据湖方向非常热门,市面上也出现了三款开源的数据湖产品:Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力,所以使用了代码调试功能。由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x,并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spa

w397090770   2个月前 (10-04) 110℃ 0评论1喜欢

Spark

Spark Join Hints 简介及使用

Spark Join Hints 简介及使用
当前 Spark 计算引擎能够利用一些统计信息选择合适的 Join 策略(关于 Spark 支持的 Join 策略可以参见每个 Spark 工程师都应该知道的五种 Join 策略),但是由于各种原因,比如统计信息缺失、统计信息不准确等原因,Spark 给我们选择的 Join 策略不是正确的,这时候我们就可以人为“干涉”,Spark 从 2.2.0 版本开始(参见SPARK-16475),支

w397090770   2个月前 (09-15) 521℃ 0评论3喜欢

Spark

每个 Spark 工程师都应该知道的五种 Join 策略

每个 Spark 工程师都应该知道的五种 Join 策略
数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划(physical plan)阶段,Spark 的 JoinSelection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join(equi-join) 还是不等值(non-equi-joins)以及参与 Join 的 key 是否可以排序等条件来选择最终的 Join 策略(join strategies),最后 Spark 会利用选择好的 Join 策略执行最

w397090770   2个月前 (09-13) 1004℃ 0评论7喜欢

Apache Doris

基于 Apache Doris 的小米增长分析平台实践

基于 Apache Doris 的小米增长分析平台实践
1、背景随着小米互联网业务的发展,各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然,让每个业务产品线都自己搭建一套增长分析系统,不仅成本高昂,也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节,让相关业务人员能够专注于自己的技术领域,从而提高工作效率。

w397090770   2个月前 (09-13) 404℃ 0评论0喜欢

Delta Lake

深入理解 Delta Lake:Schema Enforcement & Evolution

深入理解 Delta Lake:Schema Enforcement & Evolution
深入理解 Apache Spark Delta Lake 的事务日志 深入理解 Delta Lake:Schema Enforcement & Evolution深入理解 Delta Lake 的 DML 实现原理 (Update, Delete, Merge)在实践经验中,我们知道数据总是在不断演变和增长,我们对于这个世界的心智模型必须要适应新的数据,甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同

w397090770   2个月前 (09-12) 93℃ 0评论0喜欢

Spark

Apache Spark 3.0 第一个稳定版发布,终于可以在生产环境中使用啦!

Apache Spark 3.0 第一个稳定版发布,终于可以在生产环境中使用啦!
Apache Spark 3.0.0 正式版是2020年6月18日发布的,其为我们带来大量新功能,很多功能加快了数据的计算速度。但是遗憾的是,这个版本并非稳定版。不过就在昨天,Apache Spark 3.0.1 版本悄悄发布了(好像没看到邮件通知)!值得大家高兴的是,这个版本是稳定版,官方推荐所有 3.0 的用户升级到这个版本。Apache Spark 3.0 增加了很多

w397090770   2个月前 (09-10) 580℃ 0评论0喜欢

Spark

Spark on Yarn: 你设置的内存都去哪里了?

Spark on Yarn: 你设置的内存都去哪里了?
Efficient processing of big data, especially with Spark, is really all about how much memory one can afford, or how efficient use one can make of the limited amount of available memory. Efficient memory utilization, however, is not what one can take for granted with default configuration shipped with Spark and Yarn. Rather, it takes very careful provisioning and tuning to get as much as possible from the bare metal. In this post I’ll

w397090770   3个月前 (09-09) 20℃ 0评论0喜欢

Spark

Apache Spark SQL 参数介绍

Apache Spark SQL 参数介绍
我们可以在初始化 SparkSession 的时候进行一些设置:[code lang="scala"]import org.apache.spark.sql.SparkSessionval spark: SparkSession = SparkSession.builder .master("local[*]") .appName("My Spark Application") .config("spark.sql.warehouse.dir", "c:/Temp") (1) .getOrCreateSets spark.sql.warehouse.dir for the Spark SQL session[/code]也可以使用 SQL SET

w397090770   3个月前 (09-09) 15℃ 0评论1喜欢