最新发布第25页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139103)474喜欢
1Hive数据类型转换
浏览 (115471)87喜欢
2Hive常用字符串函数
浏览 (101900)66喜欢
3Hive insert into语句用法
浏览 (92594)179喜欢
4Hive常用函数大全一览
浏览 (92354)128喜欢
5Hive几种数据导入方式
浏览 (90831)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87791)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84612)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83552)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83550)73喜欢
10Hive:ORC File Format存储格式详解

历时近两年，Apache Spark 3.0.0 正式版终于发布了

原计划在2019年年底发布的 Apache Spark 3.0.0 今天终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月！这个版本的发布经历了两个预览版以及三次投票：2019年11月06日第一次预览版，参见 https://spark.apache.org/news/spark-3.0.0-preview.html2019年12月23日第二次预览版，参见 https

w397090770 4年前 (2020-06-18) 1814℃ 0评论4喜欢

Hive

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

2010年，Facebook 的工程师在 ICDC（IEEE International Conference on Data Engineering）发表了一篇《RCFile: A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems》的论文，介绍了其为基于 MapReduce 的数据仓库设计的高效存储结构，这就是我们熟知的 RCFile（Record Columnar File）。下面介绍 RCFile 的一些诞生背景和设计。背景早在2010

w397090770 4年前 (2020-06-16) 1229℃ 0评论7喜欢

Spark

来自 Facebook 的 Spark 大作业调优经验

Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop 如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopSpark 是 Facebook 内部最大的 SQL 查询引擎（按 CPU 使用率计算）在存储计算分

w397090770 4年前 (2020-06-14) 1478℃ 0评论6喜欢

Apache Iceberg

Apache Iceberg 快速入门

导言本文主要介绍如何快速的通过Spark访问 Iceberg table。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoopSpark通过DataSource和DataFrame API访问Iceberg table，或者进行Catalog相关的操作。由于Spark Data Source V2 API还在持续的演进和修改中，所以Iceberg在不同的Spark版本中的使用方式有所不同。版本对比

w397090770 4年前 (2020-06-10) 9746℃ 0评论4喜欢

HBase

滴滴 HBase 大版本滚动升级之旅

滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级，用户无感知。新版本为我们带来了丰富的新特性，在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文，希望对大家有所帮助。背景目前HBase服务在我司共有国内、海外共计11个集群，总吞吐超过1kw+/s，服务

w397090770 4年前 (2020-06-10) 1474℃ 0评论5喜欢

Apache Iceberg

基于 Apache Iceberg 打造 T+0 实时数仓

大数据处理技术现今已广泛应用于各个行业，为业务解决海量存储和海量分析的需求。但数据量的爆发式增长，对数据处理能力提出了更大的挑战，同时对时效性也提出了更高的要求。业务通常已不再满足滞后的分析结果，希望看到更实时的数据，从而在第一时间做出判断和决策。典型的场景如电商大促和金融风控等，基于延迟数

w397090770 4年前 (2020-06-08) 3798℃ 0评论3喜欢

hudi

官宣，Apache Hudi 正式成为 Apache 顶级项目

2020年6月4日，马萨诸塞州韦克菲尔德（Wakefield, MA）—— Apache 软件基金会（ASF），超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器，正式宣布 Apache Hudi 成为顶级项目（Top-Level Project 、TLP）。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Hudi (Hadoop Upserts delete and Incrementa

w397090770 4年前 (2020-06-04) 1186℃ 0评论5喜欢

Spark

Spark 3.0 自适应查询优化介绍，在运行时加速 Spark SQL 的执行性能

多年以来，社区一直在努力改进 Spark SQL 的查询优化器和规划器，以生成高质量的查询执行计划。最大的改进之一是基于成本的优化（CBO，cost-based optimization）框架，该框架收集并利用各种数据统计信息（如行数，不同值的数量，NULL 值，最大/最小值等）来帮助 Spark 选择更好的计划。这些基于成本的优化技术很好的例子就是选择正确

w397090770 4年前 (2020-05-30) 1608℃ 0评论4喜欢

Spark

Apache Spark 3.0 新的 Pandas UDF 及 Python Type Hints

Pandas 用户定义函数（UDF）是 Apache Spark 中用于数据科学的最重要的增强之一，它们带来了许多好处，比如使用户能够使用 Pandas API和提高性能。但是，随着时间的推移，Pandas UDFs 已经有了一些新的发展，这导致了一些不一致性，并在用户之间造成了混乱。即将推出的 Apache Spark 3.0 完整版将为 Pandas UDF 引入一个新接口，该接口利用

w397090770 4年前 (2020-05-30) 860℃ 0评论1喜欢

HDFS

Ozone：Hadoop 原生分布式对象存储

Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone，同时提供对象和文件访问的接口，从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇，抛个砖，介绍Ozone的产生背景，主要架构和功能。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop背景HDFS是业界默认的

w397090770 4年前 (2020-05-26) 1842℃ 1评论1喜欢

上一页
1
···
20
21
22
23
24
25
26
27
28
29
30
...
139
下一页
共 139 页