目前的Spark RDD只提供了一个基于迭代器(iterator-based)、批量更新(bulk-updatable)的接口。但是在很多场景下,我们需要扫描部分RDD便可以查找到我们要的数据,而当前的RDD设计必须扫描全部的分区(partition )。如果你需要更新某个数据,你需要复制整个RDD!那么为了解...... w397090770 11年前 (2015-02-02) 6864℃ 0评论7喜欢
CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行...... w397090770 11年前 (2015-01-26) 9760℃ 0评论12喜欢
最近一段时间在做一个管理系统,在网上找了很久的前端展示框架,终于找到一款基于Bootstrap的后台管理系统模版:Ace。Bootstrap是Twitter 于2010年开发出来的前端框架,用过的同学应该知道,这款前端框架不仅界面很美观,而且兼容了很多的浏览器,大大加速了我们开发网站的...... w397090770 11年前 (2015-01-19) 172424℃ 15评论459喜欢
这里用到的nginx日志是网站的访问日志,比如:180.173.250.74 - - [08/Jan/2015:12:38:08 +0800] "GET /avatar/xxx.png HTTP/1.1" 200 968 "/archives/994" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gec...... w397090770 11年前 (2015-01-08) 14311℃ 2评论17喜欢
Spark支持读取很多格式的文件,其中包括了所有继承了Hadoop的InputFormat类的输入文件,以及平时我们常用的Text、Json、CSV (Comma Separated Values) 以及TSV (Tab Separated Values)文件。本文主要介绍如何通过Spark来读取Json文件。很多人会说,直接用Spark SQL模块...... w397090770 11年前 (2015-01-06) 27058℃ 10评论15喜欢
今天在项目中用到了Scala正则表达式,网上找了好久也没找到很全的资料,这里收集了Scala中很多常用的正则表达式使用方法。关于Scala正则表达式替换请参见:《Scala正则表达式替换》如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop...... w397090770 11年前 (2015-01-04) 24969℃ 0评论27喜欢
在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也...... w397090770 11年前 (2014-12-26) 84279℃ 7评论92喜欢
谁说网站首次备案一定要关站?特别是网站运行了一段时间,搜索引擎等已经收录了网站内容,这时候如果关站一段时间(备案期间最长需要20个工作日,也就是一个月时间)会对网站产生很大的影响,比如网站被搜索引擎加黑,权重变低。这样的影响我们肯定不想要。 今天我...... w397090770 11年前 (2014-12-24) 4433℃ 3评论5喜欢
Akka学习笔记系列文章: 《Akka学习笔记:ACTORS介绍》 《Akka学习笔记:Actor消息传递(1)》 《Akka学习笔记:Actor消息传递(2)》 《Akka学习笔记:日志》 《Akka学习笔记:测试Actors》 《Akka学习笔记:Actor消息处理-请求和响应(1) 》...... w397090770 11年前 (2014-12-22) 5752℃ 0评论8喜欢
在Scala中存在好几个Zip相关的函数,比如zip,zipAll,zipped 以及zipWithIndex等等。我们在代码中也经常看到这样的函数,这篇文章主要介绍一下这些函数的区别以及使用。1、zip函数将传进来的两个参数中相应位置上的元素组成一个pair数组。如果其中一个参数元素比较长,那...... w397090770 11年前 (2014-12-17) 26479℃ 2评论21喜欢