最新发布第18页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139084)474喜欢
1Hive数据类型转换
浏览 (115417)87喜欢
2Hive常用字符串函数
浏览 (101874)66喜欢
3Hive insert into语句用法
浏览 (92526)179喜欢
4Hive常用函数大全一览
浏览 (92342)128喜欢
5Hive几种数据导入方式
浏览 (90823)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87779)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84601)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83534)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83525)73喜欢
10Hive:ORC File Format存储格式详解

Learning and Operating Presto 预览版下载

由 Ahana 工程师 Vivek Bharathan、David E. Simmen 以及 George Wang 编写的《Learning and Operating Presto》图书计划在2021年11月发布，不过预览版已经可以下载了。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop图书描述Presto 社区自2012年诞生于 Facebook 后迅速发展起来。但是，即使对最有经验的工程师来说

w397090770 3年前 (2021-01-21) 459℃ 0评论1喜欢

ElasticSearch

重磅消息：Elastic 公司即将修改 ElasticSearch 的开源许可证

1月15日，ElasticSearch 创始人、Elastic 公司 CEO Shay Banon 宣布，将把 Elasticsearch 和 Kibana 的 Apache 2.0-licensed 源码协议修改成 SSPL（Server Side Public License、服务器端公共许可证）和 Elastic License 双重协议！下面是 Shay Banon 修改 Elasticsearch 和 Kibana 开源协议的全文翻译。注：下面的我们是指 Elastic 公司（或 Shay Banon）我们正在将 ElasticSearch

w397090770 3年前 (2021-01-17) 1068℃ 0评论2喜欢

Spark

图文理解 Spark 3.0 的动态分区裁剪优化

Spark 3.0 为我们带来了许多令人期待的特性。动态分区裁剪（dynamic partition pruning）就是其中之一。本文将通过图文的形式来带大家理解什么是动态分区裁剪。Spark 中的静态分区裁剪在介绍动态分区裁剪之前，有必要对 Spark 中的静态分区裁剪进行介绍。在标准数据库术语中，裁剪意味着优化器将避免读取不包含我们正在查找的数

w397090770 3年前 (2021-01-06) 1205℃ 0评论5喜欢

Delta Lake

Delta Lake 提供纯 Scala\Java\Python 操作 API，和 Flink 整合更加容易

$Delta Lake 提供纯 Scala\Java\Python 操作 API，和 Flink 整合更加容易$

最近，Delta Lake 发布了一项新功能，也就是支持直接使用 Scala、Java 或者 Python 来查询 Delta Lake 里面的数据，这个是不需要通过 Spark 引擎来实现的。Scala 和 Java 读取 Delta Lake 里面的数据是通过 Delta Standalone Reader 实现的；而 Python 则是通过 Delta Rust API 实现的。Delta Lake 是一个开源存储层，为数据湖带来了可靠性。Delta Lake 提供 ACID 事务

w397090770 3年前 (2021-01-05) 1023℃ 0评论0喜欢

资料分享

解决 Mac 挂载 NTFS 移动硬盘进行读写操作（Read-only file system）

使用 MAC 写移动硬盘的时候会出现 Read-only file system，我们可以使用下面方法来解决。[code code="bash"]iteblog: iteblog $ diskutil info /Volumes/Seagate\ Backup\ Plus\ Drive/ Device Identifier: disk2s1 Device Node: /dev/disk2s1[/code]记下上面的 Device Node。然后使用下面命令弹出我们插入的移动硬盘：[code code="bash"]iteblog: iteblog $ hdiutil eje

w397090770 3年前 (2021-01-05) 2085℃ 0评论2喜欢

Apache Iceberg

盘点2020年晋升为Apache TLP的大数据相关项目

在过去一年有很多 Apache 孵化项目顺利毕业成顶级项目（Top-Level Project ，简称 TLP ），在这里我将给大家盘点 2020 年晋升为 Apache TLP 的大数据相关项目。在2020年一共有四个大数据相关项目顺利毕业成顶级项目，主要是 Apache® ShardingSphere™、Apache® Hudi™、Apache® Iceberg™ 以及 Apache® IoTDB™，这里以毕业的时间顺序依次介绍。关于过

w397090770 3年前 (2021-01-03) 1394℃ 0评论5喜欢

Presto

PrestoSQL 项目更名为 Trino，彻底和 PrestoDB 分家

2020年12月27日，Martin Traverso、 Dain Sundstrom 以及 David Phillips 大佬们宣布将 PrestoSQL 项目的名字更名为 Trino。新的项目地址为 https://trino.io/。如果想及时了解Spark、Hadoop或者HBase相关的文章，欢迎关注微信公众号：iteblog_hadoop正如上图的描述，这个仅仅是更改名字，之前的社区和软件都还在那的，这个项目还是由 Presto 的创始人和创

w397090770 3年前 (2020-12-28) 1876℃ 0评论1喜欢

Kafka

Apache Kafka 2.7.0 稳定版发布，有哪些值得关心的变化？

Apache Kafka 2.7.0 于2020年12月21日正式发布，这个版本是目前 Kafka 最新稳定版本，大家可以根据需要自行决定是否需要升级到次版本，关于各个版本升级到 Apache Kafka 2.7.0 请参见《Upgrading to 2.7.0 from any version 0.8.x through 2.6.x》。在这个版本中，社区仍然在推进从 Kafka 移除对 ZooKeeper 的依赖，比如这个版本在 KIP-497 里面添加了可以修改 IS

w397090770 3年前 (2020-12-27) 580℃ 0评论1喜欢

Apache Doris

Apache Doris 在京东搜索实时 OLAP 中的应用实践

前言本文讨论了京东搜索在实时流量数据分析方面，利用Apache Flink和Apache Doris进行的探索和实践。流式计算在近些年的热度与日俱增，从Google Dataflow论文的发表，到Apache Flink计算引擎逐渐站到舞台中央，再到Apache Druid等实时分析型数据库的广泛应用，流式计算引擎百花齐放。但不同的业务场景，面临着不同的问题，没有哪一种引

w397090770 3年前 (2020-12-25) 1260℃ 0评论4喜欢

Presto

Presto 在车好多的实践

本文作者：车好多大数据 OLAP 团队-王培，由车好多大数据 OLAP 团队相关同事投稿。Presto 简介简介Presto 最初是由 Facebook 开发的一个分布式 SQL 执行引擎，它被设计为用来专门进行高速、实时的数据分析，以弥补 Hive 在速度和对接多种数据源上的短板。发展历史如下：2012年秋季，Facebook启动Presto项目2013年冬季，Presto开源

w397090770 3年前 (2020-12-21) 858℃ 0评论3喜欢

上一页
1
···
13
14
15
16
17
18
19
20
21
22
23
...
139
下一页
共 139 页