最新发布第22页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139103)474喜欢
1Hive数据类型转换
浏览 (115471)87喜欢
2Hive常用字符串函数
浏览 (101900)66喜欢
3Hive insert into语句用法
浏览 (92595)179喜欢
4Hive常用函数大全一览
浏览 (92354)128喜欢
5Hive几种数据导入方式
浏览 (90831)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87791)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84612)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83554)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83550)73喜欢
10Hive:ORC File Format存储格式详解

基于 Apache Doris 的小米增长分析平台实践

1、背景随着小米互联网业务的发展，各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切。显然，让每个业务产品线都自己搭建一套增长分析系统，不仅成本高昂，也会导致效率低下。我们希望能有一款产品能够帮助他们屏蔽底层复杂的技术细节，让相关业务人员能够专注于自己的技术领域，从而提高工作效率。

w397090770 4年前 (2020-09-13) 1202℃ 0评论1喜欢

Delta Lake

深入理解 Delta Lake：Schema Enforcement & Evolution

在实践经验中，我们知道数据总是在不断演变和增长，我们对于这个世界的心智模型必须要适应新的数据，甚至要应对我们从前未知的知识维度。表的 schema 其实和这种心智模型并没什么不同，需要定义如何对新的信息进行分类和处理。这就涉及到 schema 管理的问题，随着业务问题和需求的不断演进，数据结构也会不断发生变化。

w397090770 4年前 (2020-09-12) 546℃ 0评论0喜欢

Spark

Apache Spark 3.0 第一个稳定版发布，终于可以在生产环境中使用啦！

Apache Spark 3.0.0 正式版是2020年6月18日发布的，其为我们带来大量新功能，很多功能加快了数据的计算速度。但是遗憾的是，这个版本并非稳定版。不过就在昨天，Apache Spark 3.0.1 版本悄悄发布了（好像没看到邮件通知）！值得大家高兴的是，这个版本是稳定版，官方推荐所有 3.0 的用户升级到这个版本。Apache Spark 3.0 增加了很多

w397090770 4年前 (2020-09-10) 1187℃ 0评论0喜欢

Spark

Efficient processing of big data, especially with Spark, is really all about how much memory one can afford, or how efficient use one can make of the limited amount of available memory. Efficient memory utilization, however, is not what one can take for granted with default configuration shipped with Spark and Yarn. Rather, it takes very careful provisioning and tuning to get as much as possible from the bare metal. In this post I’ll

w397090770 4年前 (2020-09-09) 929℃ 0评论0喜欢

Spark

Apache Spark SQL 参数介绍

我们可以在初始化 SparkSession 的时候进行一些设置：[code lang="scala"]import org.apache.spark.sql.SparkSessionval spark: SparkSession = SparkSession.builder .master("local[*]") .appName("My Spark Application") .config("spark.sql.warehouse.dir", "c:/Temp") (1) .getOrCreateSets spark.sql.warehouse.dir for the Spark SQL session[/code]也可以使用 SQL SET

w397090770 4年前 (2020-09-09) 3147℃ 0评论2喜欢

Apache Iceberg

数据湖技术 Iceberg 的探索与实践

本文资料来自2020年9月5日由快手技术团队主办的快手大数据平台架构技术交流会，分享者邵赛赛，腾讯数据平台部数据湖内核技术负责人，资深大数据工程师，Apache Spark PMC member & committer, Apache Livy PMC member，曾就职于 Hortonworks，Intel 。随着大数据存储和处理需求的多样化，如何构建一个统一的数据湖存储，并在其上进行多种形式

w397090770 4年前 (2020-09-07) 4311℃ 3评论8喜欢

Delta Lake

在 Delta Lake 中启用 Spark SQL DDL 和 DML

Delta Lake 0.7.0 是随着 Apache Spark 3.0 版本发布之后发布的，这个版本比较重要的特性就是支持使用 SQL 来操作 Delta 表，包括 DDL 和 DML 操作。本文将详细介绍如何使用 SQL 来操作 Delta Lake 表，关于 Delta Lake 0.7.0 版本的详细 Release Note 可以参见这里。使用 SQL 在 Hive Metastore 中创建表Delta Lake 0.7.0 支持在 Hive Metastore 中定义 Delta 表，而且这

w397090770 4年前 (2020-09-06) 1080℃ 0评论0喜欢

Spark

Learning Spark, 2nd Edition 可以免费下载了

《Learning Spark, 2nd Edition》这本书是由 O'Reilly Media 出版社于2020年7月出版的，作者包括 Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee。如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop图书介绍第二版已更新包含了 Spark 3.0 的一些东西，本书向数据工程师和数据科学家展示了 Spark 中结构化和统一

w397090770 4年前 (2020-09-03) 2445℃ 0评论9喜欢

Pulsar

Apache Pulsar 2.6.1 版本正式发布：功能增强，新增 OAuth2 支持

在 Apache Pulsar 2.6.0 版本发布后的 2 个月，2020 年 8 月 21 日，Apache Pulsar 2.6.1 版本正式发布！如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopApache Pulsar 2.6.1 修复了 2.6.0 版本中的诸多问题，改进了一些功能，新增了对 OAuth2 的支持，覆盖 Broker、Pulsar SQL、Pulsar Functions、Go Function、Java Client 和 C++

w397090770 4年前 (2020-09-02) 497℃ 0评论1喜欢

hudi

Apache Hudi 0.6.0 版本发布，新功能介绍

本文英文原文：https://hudi.apache.org/releases.html下载信息源码：Apache Hudi 0.6.0 Source Release (asc, sha512)二进制Jar包：nexus如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop2. 迁移指南如果您从0.5.3以前的版本迁移至0.6.0，请仔细核对每个版本的迁移指南；0.6.0版本从基于list的rollback策略变更为

w397090770 4年前 (2020-09-02) 850℃ 0评论0喜欢

上一页
1
···
17
18
19
20
21
22
23
24
25
26
27
...
139
下一页
共 139 页