欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

有关【Hadoop】的内容

HBase

滴滴 HBase 大版本滚动升级之旅

滴滴 HBase 大版本滚动升级之旅
滴滴HBase团队日前完成了0.98版本 -> 1.4.8版本滚动升级,用户无感知。新版本为我们带来了丰富的新特性,在性能、稳定性与易用性方便也均有很大提升。我们将整个升级过程中面临的挑战、进行的思考以及解决的问题总结成文,希望对大家有所帮助。背景目前HBase服务在我司共......

w397090770   5年前 (2020-06-10) 1647℃ 0评论6喜欢

Apache Iceberg

基于 Apache Iceberg 打造 T+0 实时数仓

基于 Apache Iceberg 打造 T+0 实时数仓
大数据处理技术现今已广泛应用于各个行业,为业务解决海量存储和海量分析的需求。但数据量的爆发式增长,对数据处理能力提出了更大的挑战,同时对时效性也提出了更高的要求。业务通常已不再满足滞后的分析结果,希望看到更实时的数据,从而在第一时间做出判断和决策。典型的......

w397090770   5年前 (2020-06-08) 3990℃ 0评论3喜欢

hudi

官宣,Apache Hudi 正式成为 Apache 顶级项目

官宣,Apache Hudi 正式成为 Apache 顶级项目
2020年6月4日,马萨诸塞州韦克菲尔德(Wakefield, MA)—— Apache 软件基金会(ASF),超过350个开源项目和计划的全志愿者开发人员、管理人员和孵化器,正式宣布 Apache Hudi 成为顶级项目(Top-Level Project 、TLP)。如果想及时了解Spark、Hadoop或者Hbase相关的文章,......

w397090770   5年前 (2020-06-04) 1252℃ 0评论5喜欢

Spark

Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能

Spark 3.0 自适应查询优化介绍,在运行时加速 Spark SQL 的执行性能
多年以来,社区一直在努力改进 Spark SQL 的查询优化器和规划器,以生成高质量的查询执行计划。最大的改进之一是基于成本的优化(CBO,cost-based optimization)框架,该框架收集并利用各种数据统计信息(如行数,不同值的数量,NULL 值,最大/最小值等)来帮助 Spark 选择......

w397090770   5年前 (2020-05-30) 1823℃ 0评论4喜欢

Spark

Apache Spark 3.0 新的 Pandas UDF 及 Python Type Hints

Apache Spark 3.0 新的 Pandas UDF 及 Python Type Hints
Pandas 用户定义函数(UDF)是 Apache Spark 中用于数据科学的最重要的增强之一,它们带来了许多好处,比如使用户能够使用 Pandas API和提高性能。但是,随着时间的推移,Pandas UDFs 已经有了一些新的发展,这导致了一些不一致性,并在用户之间造成了混乱。即将推出的 Apa......

w397090770   5年前 (2020-05-30) 1024℃ 0评论1喜欢

hudi

恭喜,Apache Hudi 即将成为顶级项目

恭喜,Apache Hudi 即将成为顶级项目
美国当地时间2020年05月11日,Apache Hudi 项目的共同创始人、PMC Vinoth Chandar 给社区发了一封标题为 [DISCUSS] Graduate Apache Hudi (Incubating) as a TLP 的邮件,来投票讨论 Apache Hudi 毕业成为 Apache TLP 项目。如果想及时了解Spark、Hadoop或者HBase相关的......

w397090770   5年前 (2020-05-22) 1242℃ 0评论1喜欢

其他

58同城商业工程团队招聘

58同城商业工程团队招聘
我们是负责58同城商业广告变现的商业工程技术团队,负责竞价排名类广告系统研发,包含广告投放系统,广告检索系统,以及广告投放策略的研究、实现。在这里,你将面临严密的商业逻辑的挑战,高并发、大数据量的挑战,如何认知数据、应用数据的挑战。高级大数据研发工程师 ......

w397090770   5年前 (2020-05-21) 1434℃ 0评论8喜欢

Spark

NVIDIA 与数砖合作,将 GPU 加速带入 Apache Spark 3.0

NVIDIA 与数砖合作,将 GPU 加速带入 Apache Spark 3.0
NVIDIA (辉达) 于2020年5月15日宣布将与开源社群携手合作,将端到端的 GPU 加速技术导入 Apache Spark 3.0。全球超过五十万名资料科学家使用 Apache Spark 3.0 分析引擎处理大数据资料。透过预计于今年春末正式发表的 Spark 3.0,资料科学家与机器学习工程师将能首次把革命......

w397090770   5年前 (2020-05-15) 831℃ 0评论2喜欢