欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

Spark

Spark Summit North America 202006 高清 PPT 下载

Spark Summit North America 202006 高清 PPT 下载
为期五天的 Spark Summit North America 2020在美国时间 2020-06-22 ~ 06-26 举行。由于今年新冠肺炎的影响,本次会议第一次以线上的形式进行。这次会议虽然是五天,但是前两天是培训,后面三天才是正式会议。本次会议一共有超过210个议题,一如既往,主题也主要是 Spark + ......

w397090770   5年前 (2020-07-04) 1921℃ 0评论2喜欢

Spark

Spark SQL小文件问题在OPPO的解决方案

Spark SQL小文件问题在OPPO的解决方案
Spark SQL小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈,对任务的稳定和集群的维护会带来极大的挑战。一般来说,通过Hive调度的MR任务都可以简单设置如下几个小文件合并的参数来解决任务产生的小文件问题:set h......

w397090770   5年前 (2020-07-03) 2534℃ 0评论3喜欢

Spark

深入理解数砖的 Delta Engine

深入理解数砖的 Delta Engine
在 Spark AI Summit 的第一天会议中,数砖重磅发布了 Delta Engine。这个引擎 100% 兼容 Apache Spark 的向量化查询引擎,并且利用了现代化的 CPU 架构,优化了 Spark 3.0 的查询优化器和缓存功能。这些特性显著提高了 Delta Lake 的查询性能。当然,这个引擎目前只能在 Dat......

w397090770   5年前 (2020-06-28) 1083℃ 0评论1喜欢

Spark

Spark 背后的商业公司收购的 Redash 是个啥?

Spark 背后的商业公司收购的 Redash 是个啥?
在2020年6月24日的 Spark AI summit Keynote 上,数砖的首席执行官 Ali Ghodsi 宣布其收购了 Redash 开源产品的背后公司 Redash!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop通过这次收购,Redash 加入了 Apache Spark、Delta ......

w397090770   5年前 (2020-06-26) 1132℃ 0评论3喜欢

Spark

每个 Spark 开发者都应该知道的开发技巧

每个 Spark 开发者都应该知道的开发技巧
尽量不要把数据 collect 到 Driver 端如果你的 RDD/DataFrame 非常大,drive 端的内存无法放下所有的数据时,千万别这么做data = df.collect()Collect 函数会尝试将 RDD/DataFrame 中所有的数据复制到 driver 端,这时候肯定会导致 driver 端的内存溢出,然后进程出......

w397090770   5年前 (2020-06-23) 857℃ 0评论3喜欢

Spark

历时近两年,Apache Spark 3.0.0 正式版终于发布了

历时近两年,Apache Spark 3.0.0 正式版终于发布了
原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月!这个版本的发布经历了两个预览版以及三次投票:2019年11月06日第一次预览版,参见 https......

w397090770   5年前 (2020-06-18) 1907℃ 0评论4喜欢

Spark

来自 Facebook 的 Spark 大作业调优经验

来自 Facebook 的 Spark 大作业调优经验
Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopS......

w397090770   5年前 (2020-06-14) 1704℃ 0评论6喜欢

Apache Iceberg

Apache Iceberg 快速入门

Apache Iceberg 快速入门
导言本文主要介绍如何快速的通过Spark访问 Iceberg table。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopSpark通过DataSource和DataFrame API访问Iceberg table,或者进行Catalog相关的操作。由于Spark Data Source V2 API还在......

w397090770   5年前 (2020-06-10) 10249℃ 0评论4喜欢