欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

Apache Iceberg 代码调试技巧

本文是《Apache Iceberg 入门教程》专题的第 9 篇,共 10 篇:

当前数据湖方向非常热门,市面上也出现了三款开源的数据湖产品:Delta Lake、Apache Hudi 以及 Apache Iceberg。这段时间抽了点时间看了下使用 Apache Spark 读写 Apache Iceberg 的代码。完全看代码肯定有些吃力,所以使用了代码调试功能。

由于 Apache Iceberg 支持 Apache Spark 2.x 以及 3.x,并在创建了不同的模块。其相当于 Spark 的 Connect。Apache Spark 2.x 以及 3.x 读写 Iceberg 的入口都是 org.apache.iceberg.spark.source.IcebergSource,分别位于 Iceberg 项目的 spark2 以及 spark3 模块里面。

相同类名导致使用 Idea 调试的时候会出现错位,比如我想调试 spark2 读写 Iceberg 的代码可能会跳到 spark3 里面,从而导致无法正常查看代码。

不过值得高兴的是,在 debug 的时候 Idea 支持选择不同的类,这个功能默认是关闭的,我们可以按照下面方法打开:(Preferences -> Debugger,把 Show alternative source switcher 这个选项勾上)

Apache Spark 中支持的七种 Join 类型
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

保存后,我们就可以选择正确的代码了:

Apache Spark 中支持的七种 Join 类型
如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop
本博客文章除特别声明,全部都是原创!
转载本文请加上:转载自过往记忆(https://www.iteblog.com/)
本文链接: 【Apache Iceberg 代码调试技巧】(https://www.iteblog.com/archives/9885.html)
喜欢 (1)
分享 (0)
发表我的评论
取消评论

表情
本博客评论系统带有自动识别垃圾评论功能,请写一些有意义的评论,谢谢!