最新发布第5页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

如何在 mac 系统上安装 thrift

Thrift 最初由Facebook开发，目前已经开源到Apache，已广泛应用于业界。Thrift 正如其官方主页介绍的，“是一种可扩展、跨语言的服务开发框架”。简而言之，它主要用于各个服务之间的RPC通信，其服务端和客户端可以用不同的语言来开发。只需要依照IDL（Interface Description Language）定义一次接口，Thrift工具就能自动生成 C++, Java, Python, PH

w397090770 3年前 (2022-03-29) 1874℃ 0评论1喜欢

Kafka

Kafka: The Definitive Guide, 2nd Edition 下载

《Kafka: The Definitive Guide, 2nd Edition》于 2021年11月由 O'Reilly Media 出版， ISBN 为 9781492043089 ，全书 486 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍Every enterprise application creates data, whether it consists of log messages, metrics, user activity, or outgoing messages. Moving all this data is just as important as the

w397090770 3年前 (2022-03-22) 1235℃ 0评论4喜欢

Apache Pulsar

Mastering Apache Pulsar 下载

《Mastering Apache Pulsar》于 2021年12月由 O'Reilly Media 出版， ISBN 为 9781492084907 ，全书 227 页。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop图书介绍Every enterprise application creates data, including log messages, metrics, user activity, and outgoing messages. Learning how to move these items is almost as important as the data itself. If

w397090770 3年前 (2022-03-22) 510℃ 0评论1喜欢

Flink

Apache Flink 在米哈游的落地实践

摘要：本文是来自米哈游大数据部对于Flink在米哈游应用及实践的分享。本篇内容主要分为四个部分： 1.背景介绍 2.实时平台建设 3.实时数仓和数据湖探索 4.未来发展与展望作者：实时计算负责人张剑背景介绍米哈游成立于2011年，致力于为用户提供美好的、超出预期的产品与内容。公司陆续推出了

w397090770 3年前 (2022-03-21) 1735℃ 1评论6喜欢

Alluxio

Presto Alluxio Local Cache 监控指南

什么是 Alluxio Local Cache随着云计算在基础设施领域的市场份额持续上升，主流数据分析引擎纷纷选择独立扩展存储、计算来适配云基础设施，并以此为云提供商降低成本。但是，存储计算分离也为查询延迟带来了新的挑战，因为当网络饱和时，通过网络扫描大量数据将受到 IO 限制。此外，元数据也面临远程网络来检索的性能问题。

w397090770 3年前 (2022-03-21) 750℃ 0评论3喜欢

Presto

Presto 在 Lyft 的实践

2017 年初，我们开始探索 Presto 来解决 OLAP 用例，我们意识到了这个惊人的查询引擎的潜力。与 Apache Hive 相比，它最初是一种临时查询工具，供数据工程师和分析师以更快的方式运行 SQL 来构建查询原型。当时很多内部仪表板都由 AWS-Redshift 提供支持，并将数据存储和计算耦合在一起。我们的数据呈指数级增长（每隔几天翻一番），

w397090770 3年前 (2022-03-18) 396℃ 0评论1喜欢

Presto

Presto 自定义函数功能介绍及使用

Presto 内部提供了大量内置的函数，可以满足我们大部分的日常需求。但总是有一些场景需要我们自己写 UDF，为了满足这个需求，Presto 给我们提供了 Function Namespace Managers 模块使得我们可以实现直接的 UDF。本文将给大家介绍一下如何使用 Presto 的 UDF 功能。如果需要使用 Function Namespace Managers 功能，需要把 presto-catalog-managers 模块里

w397090770 3年前 (2022-03-15) 1093℃ 0评论1喜欢

Uber

Uber 如何在 Apache Parquet 中使用 ZSTD 压缩减少大量存储空间实践

背景我们基于 Apache Hadoop® 的数据平台以最小的延迟支持了数百 PB 的分析数据，并将其存储在基于 HDFS 之上的数据湖中。我们使用 Apache Hudi™ 作为我们表的维护格式，使用 Apache Parquet™ 作为底层文件格式。我们的数据平台利用 Apache Hive™、Apache Presto™ 和 Apache Spark™ 进行交互和长时间运行的查询，满足 Uber 不同团队的各种需求。

w397090770 3年前 (2022-03-13) 2576℃ 0评论1喜欢

ClickHouse

ClickHouse 在网易的实践

ClickHouse作为一款开源列式数据库管理系统（DBMS）近年来备受关注，主要用于数据分析（OLAP）领域。作者根据以往经验和遇到的问题，总结出一些基本的开发和使用规范，以供使用者参考。随着公司业务数据量日益增长，数据处理场景日趋复杂，急需一种具有高可用性和高性能的数据库来支持业务发展，ClickHouse是俄罗斯的搜索公

w397090770 3年前 (2022-03-10) 1708℃ 0评论1喜欢

Alluxio

通过 Alluxio 来加速 Uber 的 Presto 集群

本资料来自2022年03月03日举办的 Alluxio Day 活动。分享议题《Speed Up Uber’s Presto with Alluxio》，分享者 Liang Chen 和王北南。Uber 的 Liang Chen 和 Alluxio 的王北南将为大家呈现 Alluxio Local Cache 上线过程中遇到的实际问题和有趣的发现。他们的演讲涵盖了 Uber 的 Presto 团队如何解决 Alluxio 的本地缓存失效的问题。Liang Chen 还将分享他使用定

w397090770 3年前 (2022-03-07) 367℃ 0评论2喜欢

上一页
1
2
3
4
5
6
7
8
9
10
...
140
下一页
共 140 页