欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Hive

Hive SQL迁移 Spark SQL 在网易传媒的实践

Hive SQL迁移 Spark SQL 在网易传媒的实践
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。迁移背景 SQL任务运行慢Hive SQL处理任务虽然较为稳定,但是其时效性已经达瓶颈,无法再进一

  3年前 (2021-10-19) 766℃ 0评论2喜欢

Docker

如何在 Docker 中安装 CentOS

如何在 Docker 中安装 CentOS
到这个页面(https://hub.docker.com/_/centos?tab=tags)查看自己要下载的 Centos 版本:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop将指定版本的 CentOS 镜像拉到本地在本地使用下面命令进行拉取:[code lang="bash"][iteblog@iteblog.com]$ docker pull centos:centos7centos7: Pulling from library/centos6717b8ec66cd: Pull comp

  3年前 (2021-10-17) 94℃ 0评论1喜欢

Spark

即将发布的 Apache Spark 3.2 将内置 Pandas API

即将发布的 Apache Spark 3.2 将内置 Pandas API
在即将发布的 Apache Spark™ 3.2 版本中 pandas API 将会成为其中的一部分。Pandas 是一个强大、灵活的库,并已迅速发展成为标准的数据科学库之一。现在,pandas 的用户将能够在他们现有的 Spark 集群上利用 pandas API。几年前,我们启动了 Koalas 这个开源项目,它在 Spark 之上实现了 Pandas DataFrame API,并被数据科学家广泛采用。最近,Koala

  3年前 (2021-10-13) 722℃ 0评论3喜欢

Presto

动态代码生成技术在 Presto 中使用简介

动态代码生成技术在 Presto 中使用简介
在《ASM 与 Presto 动态代码生成简介》这篇文章中,我们简单介绍了 Presto 动态代码生成的原理以及 Presto 在计算表达式的地方会使用到动态代码生成技术。为了加深理解,本文将以两个例子介绍 Presto 里面动态代码生成的使用。EmbedVersion我们往 Presto 提交 SQL 查询以及 TaskExecutor 启动 TaskRunner 执行 Task 的时候都会使用到 EmbedVersion 类

  3年前 (2021-10-12) 614℃ 0评论1喜欢

资料分享

2021年最新美国苹果账号(Apple ID)注册方法

2021年最新美国苹果账号(Apple ID)注册方法
全新美国区 Apple ID 注册教程参见:2021年最新美区 Apple ID 注册教程使用苹果手机的有可能知道,国内使用的 App Store 只能下载国内的一些 APP 应用。有一些 APP 并没有在国内 App Store 上架,这时候就无法下载。我们需要使用一个国外的 Apple ID 账号,但是很多人手上一般都是只有国内的账号,这篇文章就来教大家如何把一个中国区的

  3年前 (2021-10-10) 1252℃ 0评论0喜欢

Presto

Presto 常用函数介绍

Presto 常用函数介绍
Presto 是由 Facebook 开发并开源的分布式 SQL 交互式查询引擎,很多公司都是用它实现 OLAP 业务分析。本文列出了 Presto 常用的函数列表。数学函数数学函数作用于数学公式。下表给出了详细的数学函数列表。abs(x)返回 x 的绝对值。使用如下:[code lang="bash"]presto:default> select abs(1.23) as absolute; absolute ---------- 1.23[/code]

  3年前 (2021-10-07) 5407℃ 0评论1喜欢

Presto

ASM 与 Presto 动态代码生成简介

ASM 与 Presto 动态代码生成简介
代码生成是很多计算引擎中常用的执行优化技术,比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。这两个计算引擎虽然都用到了代码生成技术,但是实现方式完全不一样。在 Spark 中,代码生成其实就是在 SQL 运行的时候根据相关算子动态拼接 Java 代码,然后使用 Janino 来动态编译生成相关的 Java 字节码并

  3年前 (2021-09-28) 573℃ 0评论3喜欢

Kafka

Apache Kafka 3.0.0 稳定版发布,有哪些值得关心的变化?

Apache Kafka 3.0.0 稳定版发布,有哪些值得关心的变化?
Apache Kafka 3.0 于2021年9月21日正式发布。本文将介绍这个版本的新功能。以下文章翻译自 《What's New in Apache Kafka 3.0.0》。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据我很高兴地代表 Apache Kafka® 社区宣布 Apache Kafka 3.0 的发布。 Apache Kafka 3.0 是一个大版本,其引入了各种新功能、API 发生重

  3年前 (2021-09-24) 468℃ 0评论2喜欢

Flink

Apache Flink 在 bilibili 的优化与实践

Apache Flink 在 bilibili 的优化与实践
导读:本文主要介绍Flink实时计算在bilibili的优化,将从以下四个方面展开: 1、Flink-connector稳定性优化 2、Flink sql优化 3、Flink-runtime优化 4、对未来的展望 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:过往记忆大数据 概述首先介绍下Flink实时计算在b站的应用场景。在b站,Flink on yarn

  3年前 (2021-09-23) 782℃ 0评论2喜欢

Hadoop

LinkedIn 是如何将 Hadoop YARN 集群扩展到超过一万个节点

LinkedIn 是如何将 Hadoop YARN 集群扩展到超过一万个节点
在 LinkedIn,我们使用 Hadoop 作为大数据分析和机器学习的基础组件。随着数据量呈指数级增长,并且公司在机器学习和数据科学方面进行了大量投资,我们的集群规模每年都在翻倍,以匹配计算工作负载的增长。我们最大的集群现在有大约 10,000 个节点,是全球最大(如果不是最大的)Hadoop 集群之一。多年来,扩展 Hadoop YARN 已成为

  3年前 (2021-09-18) 499℃ 0评论2喜欢