最新发布第6页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

避免 Presto 中的数据孤岛：从 Raptor 到 RaptorX 的旅程

Raptor 是一个 Presto connector (presto-raptor)，用于支持 Meta（以前的 Facebook）中的一些关键的交互式查询工作负载。尽管在 ICDE 2019 年的论文《Presto: SQL on Everything》中提到了这个特性，但对于许多 Presto 用户来说，它仍然有些神秘，因为没有关于这个特性的可用文档。本文将介绍 Raptor 的历史，以及为什么 Meta 最终取代了它，转而支持一种

w397090770 3年前 (2022-03-06) 417℃ 0评论1喜欢

Presto

Presto 常用性能优化技巧

Presto 是一个用于分析的开源分布式 ANSI SQL 查询引擎，支持计算和存储的分离。性能对于一些分析查询尤其重要，因此 Presto 有许多设计特性来最大化 Presto 的速度，比如内存中的流水线执行（memory pipelined execution）、分布式的扩展架构和大规模并行处理（MPP）设计。Presto支持的具体性能特性：数据压缩（SNAPPY, LZ4, ZSTD 以及 GZIP）

w397090770 3年前 (2022-03-02) 1634℃ 0评论3喜欢

Apache Pulsar

Apache Pulsar in Action 下载

《Apache Pulsar in Action》于 2021年10月由 Manning 出版， ISBN 为 9781617296888 ，全书 400 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍《Apache Pulsar in Action》能够无缝地将理论和抽象概念与清晰的循序渐进的实例结合在一起，我愿意向任何人推荐!--- Matteo Merli, co-creator of Apache PulsarDe

w397090770 3年前 (2022-03-02) 906℃ 0评论1喜欢

Kafka

Kafka in Action 下载

《Kafka in Action》于 2022年01月由 Manning 出版， ISBN 为 9781617295232 ，全书 272 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍作者有多年使用 Kafka 的真实世界的经验，这本书的实地感觉真的让它与众不同。---- From the foreword by Jun Rao, Confluent CofounderMaster the wicked-fast Apache Kafka streaming

w397090770 3年前 (2022-03-02) 662℃ 0评论3喜欢

Apache Doris

Apache Doris 向量化设计与实现

导读：向量化技术带来极致的CPU效率的同时，也已经成为了软件开发的趋势，而数据库的向量化不仅仅是 CPU 指令的向量化，还是一个巨大的性能优化工程。本文从CPU向量化原理出发，通过Cache、虚函数、SIMD等方面讨论CPU的性能优化，介绍了Apache Doris现有列存行式计算结构向列存列式计算结构的转变，同时展示了目前Apache D

w397090770 3年前 (2022-03-01) 1258℃ 0评论3喜欢

Kubernetes

kubectl 常用命令一览表

本文列出了 kubectl 常用命令。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据Kubectl 自动补全BASH[code lang="bash"]source <(kubectl completion bash) # 在 bash 中设置当前 shell 的自动补全，要先安装 bash-completion 包。echo "source <(kubectl completion bash)" >> ~/.bashrc # 在您的 bash shell 中永久

w397090770 3年前 (2022-02-28) 343℃ 0评论2喜欢

Spark

Spark Structured Streaming 2021年最新进展的总结

本文我们将花点时间来回顾一下 Databricks 和 Apache Spark™ 在流数据处理方面所取得的巨大进步！2021年，工程团队和开源贡献者在以下三个目标取得了一些进展：降低延迟并改进有状态流处理；提高 Databricks 和 Spark Structured Streaming 工作负载的可观测性；改进资源分配和可伸缩性。下面我们来简单地看下这些目标。目标一：

w397090770 3年前 (2022-02-23) 874℃ 0评论6喜欢

公众号转载文章

一文理解实时数据仓库的演进

数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。实时数仓建设：实时数仓1.0 传统

w397090770 3年前 (2022-02-18) 780℃ 0评论2喜欢

公众号转载文章

数据湖统一存储在 OPPO 的实践

分享嘉宾：Xiaochun He OPPO，编辑整理：门君仪澳洲国立大学导读：OPPO是一家智能终端制造公司，有着数亿的终端用户，手机、IoT设备产生的数据源源不断，设备的智能化服务需要我们对这些数据做更深层次的挖掘。海量的数据如何低成本存储、高效利用是大数据部门必须要解决的问题。目前业界流行的解决方案是数据湖，本次

w397090770 3年前 (2022-02-18) 433℃ 0评论2喜欢

Flink

Flink SQL 在快手的扩展与实践

摘要：本文整理自快手实时计算团队技术专家张静、张芒在 Flink Forward Asia 2021 的分享。主要内容包括： Flink SQL 在快手功能扩展性能优化稳定性提升未来展望一、Flink SQL 在快手经过一年多的推广，快手内部用户对 Flink SQL 的认可度逐渐提高，今年新增的 Flink 作业中，SQL 作业达到了 60%，与去年相比有了一倍的提升，峰值吞吐

w397090770 3年前 (2022-02-18) 1066℃ 0评论4喜欢

上一页
1
2
3
4
5
6
7
8
9
10
11
...
140
下一页
共 140 页