欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:975
  2. 浏览总数:11,897,616
  3. 评论:3925
  4. 分类目录:105 个
  5. 注册用户数:6079
  6. 最后更新:2018年12月9日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

w397090770的文章

Kafka

Apache Kafka 协议中文编程指南

Apache Kafka 协议中文编程指南
本文基于 A Guide To The Kafka Protocol 2017-06-14 的版本 v114 进行翻译的。简介本文档涵盖了 Kafka 0.8 及更高版本的通信协议实现。它旨在提供一个可读的,涵盖可请求的协议及其二进制格式,以及如何正确使用他们来实现一个客户端的协议指南。本文假设您已经了解了 Kafka 的基本设计以及术语。0.7 及更早的版本所使用的协议与此

  5个月前 (07-11) 1221℃ 1评论9喜欢

Hive

如何在 Apache Hive 中解析 Json 数组

如何在 Apache Hive 中解析 Json 数组
问题我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_tuple。用过这两个函数的同学肯定知道,其职能解析最普通的 Json 字符串,如下:[code lang="sql"]hive (default)> SELECT get_js

  5个月前 (07-04) 2276℃ 0评论16喜欢

Kafka

Kafka 2.0.0 重磅发布,新特性独家解读

Kafka 2.0.0 重磅发布,新特性独家解读
今天 Apache Kafka 项目的 2.0.0 版本正式发布了!距离 1.0 版本的发布,相距还不到一年。这一年不论是社区还是 Confluent 内部对于到底 Kafka 要向哪里发展都有很多讨论:从最初的标准消息系统,到现如今成为一个完整的包括导入导出和处理的流数据平台,从 0.8.2 一直到 1.0 版本,很多新特性和新部件被不断添加。但同时更重要的,关于

  5个月前 (06-28) 1121℃ 0评论2喜欢

Docker

八个基本的 Docker 容器管理命令

八个基本的 Docker 容器管理命令
在本文中,我将介绍八个基本的 Docker 容器命令,这些命令对于在 Docker 容器上执行基本操作很有用,比如运行,列表,停止,查看日志,删除等等。如果你对 Docker 的概念不熟悉,推荐你推荐你到网上查看相关的入门介绍,这篇文章就不详细介绍了。 现在我们赶快进入要了解的命令中:如果想及时了解Spark、Hadoop或者Hbase相关的

  6个月前 (06-27) 485℃ 0评论3喜欢

Spark

Spark Summit North America 201806 全部PPT下载[共147个]

Spark Summit North America 201806 全部PPT下载[共147个]
为期三天的 Spark Summit 在美国时间 2018-06-04 ~ 06-06 于旧金山的 Moscone Center 举行,不少人已经注意到,今年的会议已经更名为 Spark+AI, 去年 12 月份时,Databricks 在他们的博客中就已经提到过,2018 年的会议将包括更多人工智能的内容,某种意义上也代表着 Spark 未来的发展方向。作为大数据领域的顶级会议,Spark Summit 2018 吸引了全球近 200

  6个月前 (06-18) 2357℃ 0评论13喜欢

资料分享

使用 LFS 解决 GitHub 无法上传大文件问题

使用 LFS 解决 GitHub 无法上传大文件问题
如果你使用 Git 上传大于 100M 的文件时,你会遇到如下的问题:[code lang="bash"]iteblog@www.iteblog.com /d/spark-summit-north-america-2018-06 (master)$ git push origin masterfatal: AggregateException encountered. ▒▒▒▒һ▒▒▒▒▒▒▒▒▒▒Username for 'https://github.com': 397090770Counting objects: 78, done.Delta compression using up to 4 threads.Compressing objects: 100% (78/7

  6个月前 (06-17) 572℃ 0评论2喜欢

ElasticSearch

Elasticsearch 6.3 发布,你们要的 SQL 功能来了

Elasticsearch 6.3 发布,你们要的 SQL 功能来了
Elasticsearch 6.3 于前天正式发布,其中带来了很多新特性,详情请参见:https://www.elastic.co/blog/elasticsearch-6-3-0-released。这个版本最大的亮点莫过于内置支持 SQL 模块!我在早些时间就说过 Elasticsearch 将会内置支持 SQL,参见:ElasticSearch内置也将支持SQL特性。我们可以像操作 MySQL一样使用 Elasticsearch,这样我们就可以减少 DSL 的学习成本,

  6个月前 (06-15) 3709℃ 3评论8喜欢

CarbonData

Apache CarbonData 1.4.0 中文文档翻译完成

Apache CarbonData 1.4.0 中文文档翻译完成
Apache CarbonData 1.4.0 于 2018年06月06日正式发布。更新内容请参见 Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升。Apache CarbonData 是一种新的融合存储解决方案,利用先进的列式存储,索引,压缩和编码技术提高计算效率,从而加快查询速度,其查询速度比 PetaBytes 数据快一个数量级。 鉴于目前使用 Apache CarbonData 用户越来越

  6个月前 (06-12) 1705℃ 0评论13喜欢

CarbonData

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升

Apache CarbonData 1.4.0 正式发布,多项新功能及性能提升
本文原文:https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=85475081。Carbondata 1.4.0 下载Carbondata 官方文档Carbondata 源码Apache CarbonData社区很高兴发布1.4.0版本,在社区开发者和用户的共同努力下,1.4.0解决了超过230个JIRA Tickets(新特性和bug修复),欢迎大家试用。简介CarbonData是一个高性能的数据解决方案,目标是实现一份数据支持

  6个月前 (06-05) 883℃ 0评论4喜欢

Guava

网络速率限制以及 Guava 的 RateLimiter

网络速率限制以及 Guava 的 RateLimiter
在互联网网络中,当网络发生拥塞(congestion)时,交换机将开始丢弃数据包。这可能导致数据重发(retransmissions)、数据包查询(query packets),这些操作将进一步导致网络的拥塞。为了防止网络拥塞(network congestion),需限制流出网络的流量,使流量以比较均匀的速度向外发送。主要有两种限流算法:漏桶算法(Leaky Bucket)和

  6个月前 (06-04) 679℃ 0评论3喜欢