欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:1059
  2. 浏览总数:14,234,774
  3. 评论:4166
  4. 分类目录:111 个
  5. 注册用户数:7026
  6. 最后更新:2019年9月18日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
开发爱好者社区:
bigdata_ai

最新发布 第2页

过往记忆专注于大数据技术及应用,微信公众号:iteblog_hadoop

MongoDB

MongoDB 4.2 发布,支持分布式事务

MongoDB 4.2 发布,支持分布式事务
MongoDB 4.2 稳定版于近日正式发布了,此版本带来了许多最大的特性,比如分布式事务(Distributed Transactions)、客户端字段级别加密(Client-Side Field-Level Encryption)、按需物化视图(On-Demand Materialized Views)以及通配符索引(Wildcard Indexes)。下面我们来简单介绍一下各个新特性。如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关

w397090770   1个月前 (08-18) 290℃ 0评论3喜欢

Flink

五年总结:过往记忆大数据公众号原创精选

五年总结:过往记忆大数据公众号原创精选
今年是我创建这个微信公众号的第五年,五年来,收获了6.8万粉丝。这个数字,在自媒体圈子,属于十八线小规模的那种,但是在纯技术圈,还是不错的成绩,我很欣慰。我花在这个号上面的时间挺多的。我平时下班比较晚,一般下班到家了,老婆带着孩子已经安睡了,我便轻手轻脚的拿出电脑,带上耳机,开始我一天的知识盘

w397090770   1个月前 (08-13) 1500℃ 0评论8喜欢

Scala

Apache Spark DataSource V2 介绍及入门编程指南(下)

Apache Spark DataSource V2 介绍及入门编程指南(下)
我们在 Apache Spark DataSource V2 介绍及入门编程指南(上) 文章中介绍了 Apache Spark DataSource V1 的不足,所以才有了 Data Source API V2 的诞生。Data Source API V2为了解决 Data Source V1 的一些问题,从 Apache Spark 2.3.0 版本开始,社区引入了 Data Source API V2,在保留原有的功能之外,还解决了 Data Source API V1 存在的一些问题,比如不再依赖上层 API

w397090770   1个月前 (08-13) 363℃ 0评论3喜欢

Spark

Apache Spark DataSource V2 介绍及入门编程指南(上)

Apache Spark DataSource V2 介绍及入门编程指南(上)
Data Source API 定义如何从存储系统进行读写的相关 API 接口,比如 Hadoop 的 InputFormat/OutputFormat,Hive 的 Serde 等。这些 API 非常适合用户在 Spark 中使用 RDD 编程的时候使用。使用这些 API 进行编程虽然能够解决我们的问题,但是对用户来说使用成本还是挺高的,而且 Spark 也不能对其进行优化。为了解决这些问题,Spark 1.3 版本开始引入了 D

w397090770   1个月前 (08-13) 536℃ 0评论2喜欢

Hadoop

重磅 | HPE 宣布收购 MapR!

重磅 | HPE 宣布收购 MapR!
美国当地时间2019年8月5日,惠普企业(Hewlett Packard Enterprises,纽约证券交易所股票代码:HPE)宣布收购 MapR Technologies Inc. 的业务资产!如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop此交易包括 MapR 的技术,知识产权以及人工智能和机器学习(AI/ML)和分析数据管理领域的专业知识。MapR 是

w397090770   1个月前 (08-12) 239℃ 0评论1喜欢

Hadoop

Apache Hadoop 的 HDFS federation 前世今生(下)

Apache Hadoop 的 HDFS federation 前世今生(下)
在 《Apache Hadoop 的 HDFS federation 前世今生(上)》 已经介绍了 Hadoop 2.9.0 版本之前 HDFS federation 存在的问题,那么为了解决这个问题,社区采取了什么措施呢?HDFS Router-based FederationViewFs 方案虽然可以很好的解决文件命名空间问题,但是它的实现有以下几个问题:ViewFS 是基于客户端实现的,需要用户在客户端进行相关的配置,那

w397090770   2个月前 (07-26) 391℃ 0评论1喜欢

Hadoop

Apache Hadoop 的 HDFS Federation 前世今生(上)

Apache Hadoop 的 HDFS Federation 前世今生(上)
背景熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop从

w397090770   2个月前 (07-25) 590℃ 0评论1喜欢

Spark

深入理解 Spark SQL 的 Catalyst 优化器

深入理解 Spark SQL 的 Catalyst 优化器
Spark SQL 是 Spark 最新且技术最复杂的组件之一。它同时支持 SQL 查询和新的 DataFrame API。Spark SQL 的核心是 Catalyst 优化器,它以一种全新的方式利用高级语言的特性(例如:Scala 的模式匹配和 Quasiquotes ①)构建一个可扩展的查询优化器。最近我们在 SIGMOD 2015 发表了一篇论文(合作者:Davies Liu,Joseph K. Bradley,Xiangrui Meng,Tomer Kaftan

w397090770   2个月前 (07-21) 942℃ 0评论4喜欢

Kubernetes

YuniKorn: Cloudera 开源的可适配 YARN & K8s 的新一代资源调度器

YuniKorn: Cloudera 开源的可适配 YARN & K8s 的新一代资源调度器
2019 年 7 月 17 日,Cloudera 官方博客发文开源了一个内部研发使用很久的大数据存储和通用计算平台交叉的新项目 YuniKorn。Yunikorn 是一个新的独立通用资源调度程序,负责为大数据工作负载分配/管理资源,包括批处理作业和长时间运行的服务。介绍YuniKorn 是一种轻量级的通用资源调度程序,适用于容器编排系统(container orchestrator s

w397090770   2个月前 (07-17) 1126℃ 0评论0喜欢

Kafka

Apache Kafka 2.3 发布,新特性讲解

Apache Kafka 2.3 发布,新特性讲解
Apache Kafka 近期发布了 2.3.0 版本,主要的新特性如下:Kafka Connect REST API 已经有了一些改进。Kafka Connect 现在支持增量协同重新均衡(incremental cooperative rebalancing)Kafka Streams 现在支持内存会话存储和窗口存储;AdminClient 现在允许用户确定他们有权对主题执行哪些操作;broker 增加了一个新的启动时间指标;JMXTool现在可以连接到安

w397090770   3个月前 (06-27) 1448℃ 0评论6喜欢