最新发布第99页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139066)473喜欢
1Hive数据类型转换
浏览 (115395)86喜欢
2Hive常用字符串函数
浏览 (101860)66喜欢
3Hive insert into语句用法
浏览 (92486)179喜欢
4Hive常用函数大全一览
浏览 (92332)128喜欢
5Hive几种数据导入方式
浏览 (90813)75喜欢
6Apache Spark SQL自适应执行实践
浏览 (87765)294喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84592)69喜欢
8使用HttpClient通过post方式发送json数据
浏览 (83523)88喜欢
9Spark: sortBy和sortByKey函数详解
浏览 (83513)73喜欢
10Hive:ORC File Format存储格式详解

Kafka设计解析：Replication工具

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》Topic Tool　　$KAFKA_HOME/bin/kafka-topics.sh，该工具可用于创建、删除、修改、查看某个Topic，也可用于列出所有Topic。另外，该工具还

w397090770 9年前 (2015-06-05) 13739℃ 4评论7喜欢

Kafka

Kafka设计解析：Kafka High Availability （下）

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》　　本文在上篇文章（《Kafka设计解析：Kafka High Availability（上）》）基础上，更加深入讲解了Kafka的HA机制，主要阐述了HA相关各种

w397090770 9年前 (2015-06-04) 4478℃ 0评论6喜欢

Python

Spark1.4中DataFrame功能加强,新增科学和数学函数

　　社区在Spark 1.3中开始引入了DataFrames，使得Apache Spark更加容易被使用。受R和Python中的data frames激发，Spark中的DataFrames提供了一些API，这些API在外部看起来像是操作单机的数据一样，而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数（statistical and mathem

w397090770 9年前 (2015-06-03) 13874℃ 2评论3喜欢

Kafka

Spark+Kafka的Direct方式将偏移量发送到Zookeeper实现

　　Apache Spark 1.3.0引入了Direct API，利用Kafka的低层次API从Kafka集群中读取数据，并且在Spark Streaming系统里面维护偏移量相关的信息，并且通过这种方式去实现零数据丢失(zero data loss)相比使用基于Receiver的方法要高效。但是因为是Spark Streaming系统自己维护Kafka的读偏移量，而Spark Streaming系统并没有将这个消费的偏移量发送到Zookeeper中，

w397090770 9年前 (2015-06-02) 25587℃ 36评论22喜欢

Python

使用Spark读写CSV格式文件

　　CSV格式的文件也称为逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存表格数据（数字和文本）。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符

w397090770 9年前 (2015-06-01) 60975℃ 2评论26喜欢

网络编程

使用HttpClient通过post方式发送json数据

　　有时候我们在发送HTTP请求的时候会使用到POST方式，如果是传送普通的表单数据那将很方便，直接将参数到一个Key-value形式的Map中即可。但是如果我们需要传送的参数是Json格式的，会稍微有点麻烦，我们可以使用HttpClient类库提供的功能来实现这个需求。假设我们需要发送的数据是：[code lang="java"]{ "blog": "",

w397090770 9年前 (2015-06-01) 84592℃ 0评论69喜欢

Kafka

Kafka+Spark Streaming+Redis实时系统实践

　　基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时

w397090770 9年前 (2015-05-30) 37307℃ 2评论76喜欢

Spark

上海第四次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

w397090770 9年前 (2015-05-29) 5381℃ 0评论3喜欢

Hadoop

Hadoop权威指南第四版英文版pdf免费下载

[电子书]Hadoop权威指南第3版中文版PDF下载　　本书英文名是：Hadoop:the Definitive Guide,4rd Edition，中文名：Hadoop权威指南，著名的O'Reilly Media出版社出版，这里提供下载的是2015年3月出版的最终版，电子书756页，9.6MB，非之前网上传的。　　这里提供的是英文写作的，它的内容组织得当，思路清晰，紧密结合实际。但是要把它翻译成

w397090770 9年前 (2015-05-29) 41712℃ 7评论92喜欢

Hadoop

如何将MapReduce程序转换为Spark程序

MapReduce和Spark比较　　目前的大数据处理可以分为以下三个类型：　　1、复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间；　　2、基于历史数据的交互式查询（interactive query），通常的时间跨度在数十秒到数分钟之间；　　3、基于实时数据流的数据处理（streaming data processing），通常的时间

w397090770 9年前 (2015-05-28) 4797℃ 0评论7喜欢

上一页
1
···
94
95
96
97
98
99
100
101
102
103
104
...
139
下一页
共 139 页