欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

2016年04月的内容

phantomjs

Linux平台下安装PhantomJS

Linux平台下安装PhantomJS
  PhantomJS是一个基于WebKit的服务器端JavaScript API,它基于BSD开源协议发布。PhantomJS无需浏览器即可实现对Web的支持,且原生支持各种Web标准,如DOM处理、JavaScript、CSS选择器、JSON、Canvas和可缩放矢量图形SVG。PhantomJS主要是通过JavaScript和CoffeeScript控制WebKit的CSS选择器、可缩放矢量图形SVG和HTTP网络等各个模块。PhantomJS主要支持Windows、M

w397090770   8年前 (2016-04-29) 4077℃ 0评论5喜欢

Flink

Flink:本地执行(Local Execution)

Flink:本地执行(Local Execution)
  Flink可以在单台机器上运行,甚至是单个Java虚拟机(Java Virtual Machine)。这种机制使得用户可以在本地测试或者调试Flink程序。本节主要概述Flink本地模式的运行机制。  本地环境和执行器(executors)运行你在本地的Java虚拟机上运行Flink程序,或者是在属于正在运行程序的如何Java虚拟机上。对于大部分示例程序而言,你只需简单

w397090770   8年前 (2016-04-27) 16311℃ 0评论19喜欢

Flink

Flink:Scala Shell使用指南

Flink:Scala Shell使用指南
  Flink内置支持交互式的Scala Shell,我们既可以在本地安装模式下或者集群模式下运行它。我们可以通过下面的命令在单机模式下启动Shell:[code lang="scala"]bin/start-scala-shell.sh local[/code]同样,我们可以通过启动Shell时指定remote参数,并提供JobManager的hostname和port等信息,如下:[code lang="scala"]bin/start-scala-shell.sh remote <hostnam

w397090770   8年前 (2016-04-26) 6255℃ 0评论4喜欢

Flink

Flink:Scala API函数扩展

Flink:Scala API函数扩展
  为了保存Scala和Java API之间的一致性,一些允许Scala使用高层次表达式的特性从批处理和流处理的标准API中删除。  如果你想体验Scala表达式的全部特性,你可以通过隐式转换(implicit conversions)来加强Scala API。  为了使用这些扩展,在DataSet API中,你仅仅需要引入下面类:[code lang="scala"]import org.apache.flink.api.scala.extensio

w397090770   8年前 (2016-04-25) 3728℃ 0评论3喜欢

Hive

Hive常用字符串函数

Hive常用字符串函数
Hive内部提供了很多操作字符串的相关函数,本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数,具体的用法可以参见本文的下半部分。返回类型函数名描述intascii(string str)返回str第一个字符串的数值stringbase64(binary bin)将二进制参数转换为base64字符串

w397090770   8年前 (2016-04-24) 115403℃ 86喜欢

Flink

Flink部署在Google计算引擎平台上

Flink部署在Google计算引擎平台上
  本文将介绍如何在Google Compute Engine(https://cloud.google.com/compute/)平台上基于 Hadoop 1 或者 Hadoop 2 自动部署 Flink 。借助 Google 的 bdutil(https://cloud.google.com/hadoop/bdutil) 工具可以启动一个集群并基于 Hadoop 部署 Flink 。根据下列步骤开始我们的Flink部署吧。要求(Prerequisites)安装(Google Cloud SDK)  请根据该指南了解如何安装 Google Cl

w397090770   8年前 (2016-04-21) 1749℃ 0评论3喜欢

Flink

Flink独立集群模式安装(Cluster Standalone)

Flink独立集群模式安装(Cluster Standalone)
在《Flink本地模式安装(Local Setup)》的文章中,我简单地介绍了如何本地模式安装(Local Setup)Flink,本文将介绍如何Flink集群模式安装,主要是Standalone方式。要求(Requirements)Flink可以在Linux, Mac OS X 以及Windows(通过Cygwin)等平台上运行。集群模式主要是由一个master节点和一个或者多个worker节点组成。在你启动集群的各个组件之前

w397090770   8年前 (2016-04-20) 11834℃ 0评论9喜欢

Spark

Spark会把数据都载入到内存么

Spark会把数据都载入到内存么
  本文是面向Spark初学者,有Spark有比较深入的理解同学可以忽略。前言很多初学者其实对Spark的编程模式还是RDD这个概念理解不到位,就会产生一些误解。比如,很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换,这很可能是受两个概念的误导:1、RDD的定义,RDD是一个分布式的不可变数据集合;

w397090770   8年前 (2016-04-20) 8332℃ 0评论33喜欢

Kafka

如何手动更新Kafka中某个Topic的偏移量

如何手动更新Kafka中某个Topic的偏移量
  本文将介绍如何手动更新Kafka存在Zookeeper中的偏移量。我们有时候需要手动将某个主题的偏移量设置成某个值,这时候我们就需要更新Zookeeper中的数据了。Kafka内置为我们提供了修改偏移量的类:kafka.tools.UpdateOffsetsInZK,我们可以通过它修改Zookeeper中某个主题的偏移量,具体操作如下:[code lang="bash"][iteblog@www.iteblog.com ~]$ bin/ka

w397090770   8年前 (2016-04-19) 15132℃ 0评论12喜欢

Flink

Flink本地模式安装(Local Setup)

Flink本地模式安装(Local Setup)
  本文将介绍如何在Local模式下安装和使用Flink集群。要求(Requirements)  Flink可以在Linux, Mac OS X 以及Windows等平台上运行。Local模式安装的唯一要求是安装Java 1.7.x或者更高版本。下面的操作假定是类UNIX环境,对于Windows可以参见本文的Flink on Windows章节。我们可以使用下面的命令来查看Java的版本:[code lang="bash"]java -versio

w397090770   8年前 (2016-04-19) 5290℃ 0评论3喜欢