2015年05月的内容

Newspaper: 新闻文章元数据抽取的开源Python库

　　来自于requests的灵感，因为它很简单；并且由lxml驱动，因为它速度很快。　　Newspaper是一个惊人的新闻、全文以及文章元数据抽取开源的Python类库，这个类库支持10多种语言，所有的东西都是用unicode编码的。我们可以使用下面命令查看：[code lang="python"]/** * User: 过往记忆 * Date: 2015-05-20 * Time: 下午23:14 * bolg: * 本文地

w397090770 10年前 (2015-05-20) 2838℃ 0评论0喜欢

Spark

spark.cleaner.ttl将在Spark 1.4中取消

　　spark.cleaner.ttl参数的原意是清除超过这个时间的所有RDD数据，以便腾出空间给后来的RDD使用。周期性清除保证在这个时间之前的元数据会被遗忘，对于那些运行了几小时或者几天的Spark作业（特别是Spark Streaming）设置这个是很有用的。注意：任何内存中的RDD只要过了这个时间就会被清除掉。官方文档是这么介绍的：Duration (secon

w397090770 10年前 (2015-05-20) 8219℃ 0评论7喜欢

Hive

Apache Hive 1.2.0正式发布

　　Apache Hive 1.2.0于美国时间2015年05月18日正式发布，其中修复了大量大Bug，完整邮件内容如下：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoopThe Apache Hive team is proud to announce the the release of Apache Hive version 1.2.0.The Apache Hive (TM) data warehouse software facilitates querying and managing large datasets residin

w397090770 10年前 (2015-05-19) 5463℃ 0评论4喜欢

Kafka

Kafka设计解析：Kafka High Availability

《Kafka剖析：Kafka背景及架构介绍》《Kafka设计解析：Kafka High Availability（上）》《Kafka设计解析：Kafka High Availability （下）》《Kafka设计解析：Replication工具》《Kafka设计解析：Kafka Consumer解析》　　Kafka在0.8以前的版本中，并不提供High Availablity机制，一旦一个或多个Broker宕机，则宕机期间其上所有Partition都无法继续提供服

w397090770 10年前 (2015-05-19) 5456℃ 0评论3喜欢

Spark

在Spark中尽量少使用GroupByKey函数

　　为什么建议尽量在Spark中少用GroupByKey，让我们看一下使用两种不同的方式去计算单词的个数，第一种方式使用 reduceByKey ；另外一种方式使用groupByKey，代码如下：[code lang="scala"]# User: 过往记忆# Date: 2015-05-18# Time: 下午22:26# bolg: # 本文地址：/archives/1357# 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量

w397090770 10年前 (2015-05-18) 33677℃ 0评论51喜欢

HTTP代理

高速免费HTTP代理IP（2015-05-15更新）

下面IP由于地区不同可能无法访问，请多试几个。国内高匿代理 IP PORT 匿名度类型位置响应速度最后验证时间 112.19.121.141 8123 高匿名 HTTP

w397090770 10年前 (2015-05-15) 23861℃ 0评论6喜欢

HTTP代理

高速免费HTTP代理IP（2015-05-14更新）

下面IP由于地区不同可能无法访问，请多试几个。国内高匿代理 IP PORT 匿名度类型位置响应速度最后验证时间 122.246.148.77 8090 高匿名 HTTP 浙

w397090770 10年前 (2015-05-15) 41211℃ 0评论0喜欢

Spark

北京第七次Spark meetup会议资料分享

　　《Spark meetup(Beijing)资料分享》　　《Spark meetup(杭州)PPT资料分享》　　《北京第二次Spark meetup会议资料分享》　　《北京第三次Spark meetup会议资料分享》　　《北京第四次Spark meetup会议资料分享》　　《北京第五次Spark meetup会议资料分享》》　　《北京第六次Spark meetup会议资料分享》　　《杭州第三次Spark meetup会议

w397090770 10年前 (2015-05-15) 4852℃ 0评论3喜欢

Spark

Spark应用程序运行的日志存在哪里

　　如果你想知道Hadoop作业运行日志，可以查看这里《Hadoop日志存放路径详解》　　在很多情况下，我们需要查看driver和executors在运行Spark应用程序时候产生的日志，这些日志对于我们调试和查找问题是很重要的。　　Spark日志确切的存放路径和部署模式相关：　　（1）、如果是Spark Standalone模式，我们可以直接在Master UI界

w397090770 10年前 (2015-05-14) 39908℃ 6评论16喜欢

HTTP代理

高速免费HTTP代理IP（2015-05-13更新）

下面IP由于地区不同可能无法访问，请多试几个。国内高匿代理 IP PORT 匿名度类型位置响应速度最后验证时间 125.117.130.174 9000 高匿名 HTTP

w397090770 10年前 (2015-05-13) 46437℃ 0评论0喜欢

上一页
1
2
3
4
下一页
共 4 页