七月 – 2016 – 过往记忆-Page 2

Apache Kylin在美团数十亿数据OLAP场景下的实践

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理，略有删节。美团各业务线存在大量的OLAP分析场景，需要基于Hadoop数十亿级别的数据进行分析，直接响应分析师和城市BD等数千人的交互式访问请求，对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求，如何将Kylin应用到实际场景

w397090770 9年前 (2016-07-17) 9735℃ 0评论9喜欢

R

20个在机器学习和数据科学中最常用的R语言包

　　我们通过分析从2015年1月至5月下载次数最多的R包，列出了前20名流行的机器学习R包。　　大多数R包都深受Kagglers大神的最爱，也被资深的笔者所赞美，而这些包的使用率或评价高低不仅仅取决于其它的包对于这个　　这个包的依赖程度。还也取决于Crantastic.org并使用其众包能解决方案的用户。但是，用户评价太低以至于不

w397090770 9年前 (2016-07-17) 4224℃ 0评论5喜欢

Idea

　　近日，被誉为最好的Java开发工具IntelliJ IDEA发布了IntelliJ IDEA 2016.2版本，这是本年度第二个发行版本。此版本带来了许多新功能，本文将列举部分比较好的功能。调试器Debugger新版本的Idea将Watches和Variables面板合在一起。此外多行表达式(multiline expressions)功能现在在断点设置中支持Condition、Evaluate和log fields，并且在Data Type

w397090770 9年前 (2016-07-16) 6287℃ 0评论17喜欢

Spark

Spark 2.0介绍：在Spark SQL中定义查询优化规则

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770 9年前 (2016-07-14) 7684℃ 2评论4喜欢

Spark

Spark 2.0介绍：Spark SQL中的Time Window使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770 9年前 (2016-07-12) 9890℃ 4评论11喜欢

Spark

Spark中函数addFile和addJar函数介绍

　　我们在使用Spark的时候有时候需要将一些数据分发到计算节点中。一种方法是将这些文件上传到HDFS上，然后计算节点从HDFS上获取这些数据。当然我们也可以使用addFile函数来分发这些文件。addFile　　addFile方法可以接收本地文件（或者HDFS上的文件），甚至是文件夹（如果是文件夹，必须是HDFS路径），然后Spark的Driver和Exector

w397090770 9年前 (2016-07-11) 12764℃ 0评论13喜欢

前端框架

网站优化：图片异步加载

　　随着网站的文章越来越多，网站的图片也不知不觉的多了起来，图片多起来带来的问题就是访问的人多的时候会导致页面加载速度越来越慢，这严重影响了网站的用户体验，所以网站图片异步加载势在必行。　　图片异步加载就是图片只有在视野范围内才加载，没出现在范围内的图片就暂不加载，等用户滑动滚动条时再逐步

w397090770 9年前 (2016-07-08) 3536℃ 0评论7喜欢

CarbonData

Apache CarbonData集群模式使用指南

　　我们在《Apache CarbonData快速入门编程指南》文章中介绍了如何快速使用Apache CarbonData，为了简单起见，我们展示了如何在单机模式下使用Apache CarbonData。但是生产环境下一般都是使用集群模式，本文主要介绍如何在集群模式下使用Apache CarbonData。启动Spark shell这里以Spark shell模式进行介绍，master为yarn-client，启动Spark shell如下

w397090770 9年前 (2016-07-07) 2664℃ 1评论3喜欢

Spark

Spark 2.0介绍：Catalog API介绍和使用

《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列的介

w397090770 9年前 (2016-07-05) 9017℃ 0评论12喜欢

CarbonData

Apache CarbonData快速入门编程指南

　　CarbonData是由华为开发、开源并支持Apache Hadoop的列式存储文件格式，支持索引、压缩以及解编码等，其目的是为了实现同一份数据达到多种需求，而且能够实现更快的交互查询。目前该项目正处于Apache孵化过程中。详情参见《CarbonData：华为开发并支持Hadoop的列式文件格式》，本文是单机模式下使用CarbonData的，如果你需要集群模

w397090770 9年前 (2016-07-01) 8454℃ 3评论6喜欢

过往记忆

专注于大数据技术构架及应用，微信公众号:过往记忆大数据

2016年07月的内容

Apache Kylin在美团数十亿数据OLAP场景下的实践

20个在机器学习和数据科学中最常用的R语言包

IntelliJ IDEA 2016.2正式发布，功能提升

Spark 2.0介绍：在Spark SQL中定义查询优化规则

Spark 2.0介绍：Spark SQL中的Time Window使用

Spark中函数addFile和addJar函数介绍

网站优化：图片异步加载

Apache CarbonData集群模式使用指南

Spark 2.0介绍：Catalog API介绍和使用

Apache CarbonData快速入门编程指南