有关【Hadoop】的内容

nginx 根据手机电脑进行不同跳转

有时候我们想对来自不同平台对同一页面的访问进行处理。比如访问 https://www.iteblog.com/test.html 页面，如果是电脑的浏览器访问，直接不处理；但是如果是手机的浏览器访问这个页面我们想跳转到其他页面去。这时候有几种方法可以实现：直接通过 JavaScript 进行处理；......

w397090770 8年前 (2017-12-16) 1835℃ 0评论13喜欢

Flink

四种优化 Apache Flink 应用程序的方法

Flink 是一种非常复杂的框架，它提供了多种调整其执行的方法。本文将介绍四种不同的方法来提升你的 Flink 应用程序的性能。使用 Flink Tuples当你使用类似于 groupBy, join, 或者 keyBy 算子时，Flink 提供了多种用于在你的数据集上选择 key 的方法。你可以使用 key 选择......

w397090770 8年前 (2017-12-10) 5385℃ 0评论16喜欢

机器学习

奇虎360正式开源深度学习调度平台XLearning

本文系奇虎360系统部相关工程师投稿。近两年人工智能技术发展迅速，以Google开源的TensorFlow为代表的各种深度学习框架层出不穷。为了方便算法工程师使用各类深度学习技术，减少繁杂的诸如运行环境部署运维等工作，提升GPU等硬件资源利用率，节省硬件投入成本，奇虎360系统......

w397090770 8年前 (2017-12-08) 2802℃ 0评论15喜欢

Spark

Spark作业如何在无管理权限的集群部署Python或JDK

在《如何在Spark、MapReduce和Flink程序里面指定JAVA_HOME》文章中我简单地介绍了如何自己指定 JAVA_HOME 。有些人可能注意到了，上面设置的方法有个前提就是要求集群的所有节点的同一路径下都安装部署好了 JDK，这样才没问题。但是在现实情况下，我们需要的 JDK 版本可能......

w397090770 8年前 (2017-12-05) 3044℃ 0评论18喜欢

Spark

Spark + jupyter notebook出现图像无法显示问题解决

最近在使用 Python 学习 Spark，使用了 jupyter notebook，期间使用到 hist 来绘图，代码很简单如下：user_data = sc.textFile("/home/iteblog/ml-100k/u.user")user_fields = user_data.map(lambda line: line.split("|"))ages = user_fields.m......

w397090770 8年前 (2017-12-04) 4710℃ 0评论19喜欢

Spark

SparkRDMA：使用RDMA技术提升Spark的Shuffle性能

Spark Shuffle 基础在 MapReduce 框架中，Shuffle 是连接 Map 和 Reduce 之间的桥梁，Reduce 要读取到 Map 的输出必须要经过 Shuffle 这个环节；而 Reduce 和 Map 过程通常不在一台节点，这意味着 Shuffle 阶段通常需要跨网络以及一些磁盘的读写操作，因此 Shuffle 的性能......

w397090770 8年前 (2017-11-15) 7601℃ 3评论30喜欢

Spark

Apache Spark 黑名单(Blacklist)机制介绍

在使用 Apache Spark 的时候，作业会以分布式的方式在不同的节点上运行；特别是当集群的规模很大时，集群的节点出现各种问题是很常见的，比如某个磁盘出现问题等。我们都知道 Apache Spark 是一个高性能、容错的分布式计算框架，一旦它知道某个计算所在的机器出现问题（比如......

w397090770 8年前 (2017-11-13) 10636℃ 0评论24喜欢

CarbonData

Carbondata使用过程中遇到的几个问题及解决办法

本文总结了几个本人在使用 Carbondata 的时候遇到的几个问题及其解决办法。这里使用的环境是：Spark 2.1.0、Carbondata 1.2.0。必须指定 HDFS nameservices在初始化 CarbonSession 的时候，如果不指定 HDFS nameservices，在数据导入是没啥问题的；但是数据查询会出现相......

w397090770 8年前 (2017-11-09) 6807℃ 5评论14喜欢

Kafka

[电子书]Building Data Streaming Applications with Apache Kafka PDF下载

本书于2017-08由 Packt 出版，作者 Manish Kumar, Chanchal Singh，全书269页。关注大数据猿(bigdata_ai)公众号及时获取最新大数据相关电子书、资讯等通过本书你将学到以下知识Learn the basics of Apache Kafka from scratchUse the basic building blocks of a strea......

zz~~ 8年前 (2017-11-08) 6690℃ 0评论31喜欢

Kafka