最新发布第9页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

创建 Presto Docker 镜像教程

PrestoDB 官方并没有提供 Docker 镜像，但是其为我们提供了制作 Docker 镜像的方法，步骤很简单。本文主要是用于学习交流，并为大家展示如何制作并运行简单的的 Docker 镜像，Dockerfile 的编写大量参考了 PrestoDB 的文档。因为这里仅仅是测试，所以仅留了 tpch connecter，大家可以根据自己需求去修改。如果想及时了解Spark、Hadoop或者HBase

w397090770 3年前 (2021-11-19) 625℃ 0评论1喜欢

Alluxio

在 Presto Iceberg 数据源上使用 Alluxio 缓存

本文介绍了如何使用 Presto 通过 Alluxio 查询 Iceberg 表。由于这项功能目前处于试验阶段，此处提供的信息可能会发生变化，请及时参考官方文档了解最新功能。关于如何使用 Presto 读取 Iceberg 上的数据请参考这里。我们知道，在 Hive 数据源上，Presto 支持两种形式的 Alluxio 缓存：通过 Alluxio local cache 以及 Alluxio Cluster，截止到本文章

w397090770 3年前 (2021-11-18) 1266℃ 0评论6喜欢

Presto

Presto 两种 JOIN 算法实现

我们在《Presto 中支持的七种 Join 类型》这篇文章中介绍了 Presto 可用的 JOIN 操作的基础知识，以及如何在 SQL 查询中使用它们。有了这些知识，我们现在可以了解 Presto 的内部结构以及它如何在内部执行 JOIN 操作。本文将介绍 Presto 如何执行 JOIN 操作以及用于 JOIN 的算法。JOIN 的实现几乎所有的数据库引擎一次只 JOIN 两个表。即

w397090770 3年前 (2021-11-17) 858℃ 0评论0喜欢

Alluxio

Apache Hudi : 未来发展

本文是 2021-10-13 日周三下午13:30 举办的议题为《Apache Hudi : The Path Forward》的分享，作者来自Apache Hudi 项目的原始创建者和副总裁 Vinoth Chandar 和 Zendesk 的 Raymond Xu。Raymond Xu leads the Data Lake team at Zendesk. He is also a PMC member and committer for Apache Hudi.Vinoth Chandar is the original creator & VP of the Apache Hudi project, which has changed the face of data lake archi

w397090770 3年前 (2021-11-16) 495℃ 0评论1喜欢

Alluxio

使用 Shadow Cache 改进 Presto 架构决策在 Facebook 的实践

本文是 2021-10-13 日周三下午13:30 举办的议题为《Improve Presto Architectural Decisions with Shadow Cache at Facebook》的分享，作者来自 Facebook 的 Ke Wang 和普林斯顿CS系的 Zhenyu Song。Ke Wang is a software engineer at Facebook. She is currently developing solutions to help low latency queries in Presto at Facebook.Zhenyu Song is a Ph.D. student at Princeton CS Department. He works on using mach

w397090770 3年前 (2021-11-16) 282℃ 0评论1喜欢

Spark

OPPO 大数据计算集群资源调度架构演进

背景随着公司这两年业务的迅速扩增，业务数据量和数据处理需求也是呈几何式增长，这对底层的存储和计算等基础设施建设提出了较高的要求。本文围绕计算集群资源使用和资源调度展开，将带大家了解集群资源调度的整体过程、面临的问题，以及我们在底层所做的一系列开发优化工作。资源调度框架---YarnYarn的总体结

zz~~ 3年前 (2021-11-16) 584℃ 0评论0喜欢

Hadoop

同程旅行Hadoop集群跨机房迁移实践

背景随着同程旅行业务和数据规模越来越大，原有的机房不足以支撑未来几年的扩容需求，同时老机房的保障优先级也低于新机房。为了不受限于机房的压力，公司决定进行机房迁移。为了尽快完成迁移，需要1个月内完成上百PB数据量的集群迁移，迁移过程不允许停止服务。目前HADOOP集群主要有多个2.X版本，2019年升级到联

zz~~ 3年前 (2021-11-16) 663℃ 0评论1喜欢

Presto

Presto on Spark：通过 Spark 来扩展 Presto

概述Presto 最初设计是对数据仓库中的数据运行交互式查询，但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎，用于交互式和批处理工作负载，数据湖上的流行工作负载包括：报告和仪表盘：这包括为内部和外部开发人员提供自定义报告以获取业务洞察力，以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770 3年前 (2021-11-14) 1448℃ 0评论1喜欢

Presto

Presto 基本概念：Driver, Split 和 Pipeline

在使用 Presto 时，我们经常会听说 Query、Stage、Task 等概念，很多人会搞不清楚这些概念，所以会导致一些误解，本文将简单地介绍一下这些基本的概念是指StatementStatement语句。其实就是指我们输入的SQL语句。Presto支持需要ANSI标准的SQL语句。这种语句由子句(Clause)、表达式（Expression）和断言(Predicate)组成。Presto为什么将语句(S

w397090770 3年前 (2021-11-01) 1977℃ 0评论4喜欢

Presto

Presto 中支持的七种 Join 类型

SQL Join 是最重要和最昂贵的 SQL 操作之一，需要数据库工程师深入理解才能编写高效的 SQL 查询。从数据库工程师的角度来看，了解 JOIN 操作的工作原理有助于他们优化 JOIN 以实现高效执行。本文介绍了开源分布式计算引擎 Presto SQL 支持的 join 操作。几乎所有众所周知的数据库都支持以下五种类型的 JOIN 操作：Cross Join, Inner Join, L

w397090770 3年前 (2021-11-01) 1615℃ 0评论1喜欢

上一页
1
···
4
5
6
7
8
9
10
11
12
13
14
...
140
下一页
共 140 页