欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

w397090770的文章

Spark

Spark + jupyter notebook出现图像无法显示问题解决

Spark + jupyter notebook出现图像无法显示问题解决
最近在使用 Python 学习 Spark,使用了 jupyter notebook,期间使用到 hist 来绘图,代码很简单如下:[code lang="python"]user_data = sc.textFile("/home/iteblog/ml-100k/u.user")user_fields = user_data.map(lambda line: line.split("|"))ages = user_fields.map(lambda x: int(x[1])).collect()hist(ages, bins=20, color='lightblue', normed=True)fig = matplotlib.pyplot.gcf()fig.set_size_inch

  8年前 (2017-12-04) 4710℃ 0评论19喜欢

Spark

SparkRDMA:使用RDMA技术提升Spark的Shuffle性能

SparkRDMA:使用RDMA技术提升Spark的Shuffle性能
Spark Shuffle 基础在 MapReduce 框架中,Shuffle 是连接 Map 和 Reduce 之间的桥梁,Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节;而 Reduce 和 Map 过程通常不在一台节点,这意味着 Shuffle 阶段通常需要跨网络以及一些磁盘的读写操作,因此 Shuffle 的性能高低直接影响了整个程序的性能和吞吐量。与 MapReduce 计算框架一样,Spark 作

  8年前 (2017-11-15) 7607℃ 3评论30喜欢

Spark

Apache Spark 黑名单(Blacklist)机制介绍

Apache Spark 黑名单(Blacklist)机制介绍
在使用 Apache Spark 的时候,作业会以分布式的方式在不同的节点上运行;特别是当集群的规模很大时,集群的节点出现各种问题是很常见的,比如某个磁盘出现问题等。我们都知道 Apache Spark 是一个高性能、容错的分布式计算框架,一旦它知道某个计算所在的机器出现问题(比如磁盘故障),它会依据之前生成的 lineage 重新调度这个

  8年前 (2017-11-13) 10638℃ 0评论24喜欢

CarbonData

Carbondata使用过程中遇到的几个问题及解决办法

Carbondata使用过程中遇到的几个问题及解决办法
本文总结了几个本人在使用 Carbondata 的时候遇到的几个问题及其解决办法。这里使用的环境是:Spark 2.1.0、Carbondata 1.2.0。必须指定 HDFS nameservices在初始化 CarbonSession 的时候,如果不指定 HDFS nameservices,在数据导入是没啥问题的;但是数据查询会出现相关数据找不到问题:[code lang="scala"]scala> val carbon = SparkSession.builder().temp

  8年前 (2017-11-09) 6810℃ 5评论14喜欢

Kafka

重磅:Kafka 迎来 1.0.0 版本,正式告别四位数版本号!

重磅:Kafka 迎来 1.0.0 版本,正式告别四位数版本号!
Kafka 从首次发布之日起,已经走过了七个年头。从最开始的大规模消息系统,发展成为功能完善的分布式流式处理平台,用于发布和订阅、存储及实时地处理大规模流数据。来自世界各地的数千家公司在使用 Kafka,包括三分之一的 500 强公司。Kafka 以稳健的步伐向前迈进,首先加入了复制功能和无边界的键值数据存储,接着推出了用

  8年前 (2017-11-05) 25929℃ 0评论17喜欢

Spark

Spark Summit 2017 Europe全部PPT及视频下载[共69个]

Spark Summit 2017 Europe全部PPT及视频下载[共69个]
Spark Summit 2017 Europe 于2017-10-24 至 26在柏林进行,本次会议议题超过了70多个,会议的全部日程请参见:https://spark-summit.org/eu-2017/schedule/。本次议题主要包括:开发、研究、机器学习、流计算等领域。从这次会议可以看出,当前 Spark 发展两大方向:深度学习(Deep Learning)提升流系统的性能( Streaming Performance)如果想及时了解Spar

  8年前 (2017-11-02) 3611℃ 0评论13喜欢

HBase

中国民生银行 HBase 读写设计与实践

中国民生银行 HBase 读写设计与实践
背景介绍本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询。原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重。

  8年前 (2017-10-28) 2769℃ 0评论7喜欢

Spark

MMLSpark:微软开源的用于Spark的深度学习库

MMLSpark:微软开源的用于Spark的深度学习库
MMLSpark为Apache Spark提供了大量深度学习和数据科学工具,包括将Spark Machine Learning管道与Microsoft Cognitive Toolkit(CNTK)和OpenCV进行无缝集成,使您能够快速创建功能强大,高度可扩展的大型图像和文本数据集分析预测模型。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoopMMLSpark需要Scala 2.11,Spark 2

  8年前 (2017-10-24) 4294℃ 0评论9喜欢

Hadoop

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用

Apache Hadoop 3.0.0-beta1 正式发布,下一个版本(GA)即可在线上使用
就在前几天,Apache Hadoop 3.0.0-beta1 正式发布了,这是3.0.0的第一个 beta 版本。本版本基于 3.0.0-alpha4 版本进行了Bug修复、性能提升以及其他一些加强。好消息是,这个版本之后会正式发行 Apache Hadoop 3.3.0 GA(General Availability,正式发布的版本)版本,这意味着我们就可以正式在线上使用 Hadoop 3.0.0 了!目前预计 Apache Hadoop 3.3.0 GA 将会在 201

  8年前 (2017-10-11) 2355℃ 0评论15喜欢

Kafka

在Kafka中使用Avro编码消息:Consumer篇

在Kafka中使用Avro编码消息:Consumer篇
我在《在Kafka中使用Avro编码消息:Producter篇》文章中简单介绍了如何发送 Avro 类型的消息到 Kafka。本文接着上文介绍如何从 Kafka 读取 Avro 格式的消息。关于 Avro 我这就不再介绍了。如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop从 Kafka 中读取 Avro 格式的消息从 Kafka 中读取 Avro 格式的消

  8年前 (2017-09-25) 6601℃ 0评论16喜欢