最新发布第13页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139066)473喜欢
1Hive数据类型转换
浏览 (115395)86喜欢
2Hive常用字符串函数
浏览 (101860)66喜欢
3Hive insert into语句用法
浏览 (92484)179喜欢
4Hive常用函数大全一览
浏览 (92332)128喜欢
5Hive几种数据导入方式
浏览 (90813)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87765)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84592)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83523)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83513)73喜欢
10Hive:ORC File Format存储格式详解

汽车之家离线计算平台的演进之路

本次的分享内容分成四个部分： 1.汽车之家离线计算平台现状2.平台构建过程中遇到的问题3.基于构建过程中问题的解决方案4.离线计算平台未来规划汽车之家离线计算平台现状 1. 汽车之家离线计算平台发展历程如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据 2013年的时候汽

w397090770 3年前 (2021-08-30) 507℃ 0评论2喜欢

Hadoop

Apache Hadoop 基础设施容器化在 Uber 的实践

如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据过往记忆大数据备注：以下的我们均代表 Uber 的 Hadoop 运维团队。介绍随着 Uber 业务的增长，Uber 公司在 5 年内将 Apache Hadoop（本文简称为“Hadoop”）部署扩展到 21000 台以上的节点，以支持各种分析和机器学习用例。我们组建了一支拥有各

w397090770 3年前 (2021-08-22) 700℃ 0评论2喜欢

Hive

如何彻底解决 Hive 小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢，这引起了我的注意，我在cmd窗口手动执行count操作查询发现，速度确实很慢，才不到五千万的数据，居然需要300s，这显然是有问题的，我推测可能是有小文件。我去hdfs目录查看了一下该目录：发现确实有很多小文件，有480个小文件，我觉得我找到了问题所在，那么合并一

zz~~ 3年前 (2021-08-20) 1072℃ 0评论3喜欢

Flink

Apache Flink 在 58 同城的应用与实践

摘要：本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题《Flink 在 58 同城应用与实践》，内容包括：实时计算平台架实时 SQL 建设Storm 迁移 Flink 实践一站式实时计算平台后续规划如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据实时计算平台架构

w397090770 3年前 (2021-08-17) 221℃ 0评论0喜欢

Presto

随着越来越多的公司广泛部署 Presto，Presto 不仅用于查询，还用于数据摄取和 ETL 作业。所有很有必要提高 Presto 文件写入的性能，尤其是流行的列文件格式，如 Parquet 和 ORC。本文我们将介绍 Presto 的全新原生的 Parquet writer ，它可以直接将 Presto 的列式数据结构写到 Parquet 的列式格式，最高可提高6倍的吞吐量，并减少 CPU 和内存开销

w397090770 3年前 (2021-08-14) 417℃ 0评论2喜欢

Presto

Presto 计算下推原理与实践

背景在介绍 Presto 计算下推之前，我们先来回顾一下 Presto 从对应的 Connector 上读取数据的流程，过程如下：如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：过往记忆大数据从上图可以看出，client 提交 SQL 到 Coordinator 上，Coordinator 接收到 SQL 之后，会进行 SQL 语法语义解析，生成逻辑计划树，然后经过 pla

w397090770 3年前 (2021-08-12) 1372℃ 0评论3喜欢

Presto

图文介绍 Presto 如何从逻辑计划树到物理计划树

和其他计算引擎一样，一条 SQL 从客户的提交到 Coordinator 端经过 SqlParser 进行词法和语法解析形成 AST 树，然后经过 Analyzer 进行语义分析，生成了逻辑计划（LogicalPlan）；接着经过优化器处理（优化规则都是在 PlanOptimizers 里面定义好的，然后在 LogicalPlanner 里面循环遍历每个规则）生成物理计划（PhysicalPlan）；最后使用 PlanFragmenter 并

w397090770 3年前 (2021-08-08) 1073℃ 0评论3喜欢

hudi

Apache Hudi 是如何处理小文件的

Apache Hudi 是一种数据湖平台技术，它提供了构建和管理数据湖所需的几个功能。hudi 提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。拥有大量的小文件将使计算更难获得良好的查询性能，因为查询引擎不得不多次打开/读取/关闭文件以执行查询。但是对于流数据湖用例来说，可能每次都只会写入很少的

w397090770 3年前 (2021-08-03) 973℃ 0评论1喜欢

Java

Java 中的 jmap 使用介绍

在安装完 JDK 之后，会自带安装一些常用的小工具，而 jmap 就是其中一个比较常用的。jmap 打印给定进程、core file 或远程调试服务器的共享对象内存映射或堆内存细节。我们可以查看下 jmap 的命令使用：[code lang="bash"]iteblog@iteblog.com:~|⇒ jmapUsage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <co

w397090770 3年前 (2021-08-02) 748℃ 0评论0喜欢

Git

Git 合并多个已经提交的 commits

在实际开发过程中，我们可能会每开发一些代码就会把这些代码进行提交，以防止一些意外；但是随着提交的 commits 数越来越多，一方面维护起来不便，另一方面可能会造成版本控制的混乱，为了解决这个问题，我们可以把多个 commit 合并成一个。比如下面这个 MR 一共提交了两次：如果想及时了解Spark、Hadoop或者HBase相关的文

w397090770 3年前 (2021-07-31) 1010℃ 0评论3喜欢

上一页
1
···
8
9
10
11
12
13
14
15
16
17
18
...
139
下一页
共 139 页