最新发布第83页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139106)474喜欢
1Hive数据类型转换
浏览 (115483)87喜欢
2Hive常用字符串函数
浏览 (101907)66喜欢
3Hive insert into语句用法
浏览 (92609)179喜欢
4Hive常用函数大全一览
浏览 (92362)128喜欢
5Hive几种数据导入方式
浏览 (90835)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87794)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84614)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83564)73喜欢
9Hive:ORC File Format存储格式详解
浏览 (83563)88喜欢
10Spark: sortBy和sortByKey函数详解

Apache Flink vs Apache Spark

　　我们是否还需要另外一个新的数据处理引擎？当我第一次听到Flink的时候这是我是非常怀疑的。在大数据领域，现在已经不缺少数据处理框架了，但是没有一个框架能够完全满足不同的处理需求。自从Apache Spark出现后，貌似已经成为当今把大部分的问题解决得最好的框架了，所以我对另外一款解决类似问题的框架持有很强烈的怀

w397090770 8年前 (2016-04-04) 18009℃ 0评论42喜欢

Flink

如何选择Apache Spark和Apache Flink

　　Spark Streaming和Flink都能提供恰好一次的保证，即每条记录都仅处理一次。与其他处理系统（比如Storm）相比，它们都能提供一个非常高的吞吐量。它们的容错开销也都非常低。之前，Spark提供了可配置的内存管理，而Flink提供了自动内存管理，但从1.6版本开始，Spark也提供了自动内存管理。这两个流处理引擎确实有许多相似之处，

w397090770 8年前 (2016-04-02) 4631℃ 0评论5喜欢

Kafka

如何移动Kafka部分分区的数据

　　在《Kafka集群扩展以及重新分布分区》文章中我们介绍了如何重新分布分区，在那里面我们基本上把所有的分区全部移动了，其实我们完全没必要移动所有的分区，而移动其中部分的分区。比如我们想把Broker 1与Broker 7上面的分区数据互换，如下图所示：可以看出，只有Broker 1与Broker 7上面的分区做了移动。来看看移动分区之

w397090770 8年前 (2016-03-31) 3306℃ 0评论4喜欢

Flink

Flink on YARN部署快速入门指南

　　Apache Flink是一个高效、分布式、基于Java和Scala(主要是由Java实现)实现的通用大数据分析引擎，它具有分布式 MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案，它支持批量和基于流的数据分析，且提供了基于Java和Scala的API。　　从Flink官方文档可以知道，目前Flink支持三大部署模式：Local、Cluster以及Cloud

w397090770 8年前 (2016-03-30) 24093℃ 6评论22喜欢

Kafka

Key为null时Kafka如何选择分区(Partition)

我们往Kafka发送消息时一般都是将消息封装到KeyedMessage类中：[code lang="scala"]val message = new KeyedMessage[String, String](topic, key, content)producer.send(message)[/code]Kafka会根据传进来的key计算其分区ID。但是这个Key可以不传，根据Kafka的官方文档描述：如果key为null，那么Producer将会把这条消息发送给随机的一个Partition。If the key is null, the

w397090770 8年前 (2016-03-30) 16157℃ 0评论10喜欢

Kafka

Kafka Producer是如何动态感知Topic分区数变化

　　我们都知道，使用Kafka Producer往Kafka的Broker发送消息的时候，Kafka会根据消息的key计算出这条消息应该发送到哪个分区。默认的分区计算类是HashPartitioner，其实现如下：[code lang="scala"]class HashPartitioner(props: VerifiableProperties = null) extends Partitioner { def partition(data: Any, numPartitions: Int): Int = { (data.hashCode % numPartitions) }}[/code]

w397090770 8年前 (2016-03-29) 9164℃ 0评论9喜欢

Spark meetup

北京第十次Spark meetup会议资料分享

　　北京第十次Spark Meetup活动于北京时间2016年03月27日在北京市海淀区丹棱街5号微软亚太研发集团总部大厦1号楼进行。活动内容如下：1. Spark in TalkingData,阎志涛.TalkingData研发副总裁2. Spark in GrowingIO,田毅,GrowingIO数据平台工程师,主要分享GrowingIO使用Spark进行数据处理过程中的各种小技巧，包括：多数据源的访问和使用Bitmap进行

w397090770 8年前 (2016-03-28) 2109℃ 0评论4喜欢

Kafka

Kafka日志删除源码分析

　　昨天Kafka集群磁盘容量达到了90%，于是赶紧将Log的保存时间设置成24小时，但是发现设置完之后Log仍然没有被删除。于是今天特意去看了一下Kafka日志删除相关的代码，于是有了这篇文章。　　在使用Kafka的时候我们一般都会根据需求对Log进行保存，比如保存1天、3天或者7天之类的，我们可以通过以下的几个参数实现：[code lan

w397090770 8年前 (2016-03-28) 5418℃ 0评论17喜欢

Spark

Spark MLlib 1.6.1之特征抽取和变换

7.1 TF-IDF　　TF-IDF是一种特征向量化方法，这种方法多用于文本挖掘，通过算法可以反应出词在语料库中某个文档中的重要性。文档中词记为t，文档记为d , 语料库记为D . 词频TF(t,d) 是词t 在文档d 中出现的次数。文档频次DF(t,D) 是语料库中包括词t的文档数。如果使用词在文档中出现的频次表示词的重要程度，那么很容易取出反例，

w397090770 8年前 (2016-03-27) 6026℃ 0评论6喜欢

Java

JMX监控权限认证配置

　　JMX（Java Management Extensions，即Java管理扩展）是一个为应用程序、设备、系统等植入管理功能的框架。JMX可以跨越一系列异构操作系统平台、系统体系结构和网络传输协议，灵活的开发无缝集成的系统、网络和服务管理应用。启动JMX监控，在启动java程序的时候最少需要在环境变量里面配置以下的选项：[code lang="bash"]-Dcom.sun.m

w397090770 8年前 (2016-03-25) 6071℃ 0评论10喜欢

上一页
1
···
78
79
80
81
82
83
84
85
86
87
88
...
139
下一页
共 139 页