欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

zz~~的文章

ElasticSearch

ElasticSearch系列文章:客户端

ElasticSearch系列文章:客户端
  有多个地方需要使用Java client:  1、在存在的集群中执行标准的index, get, delete和search  2、在集群中执行管理任务  3、当你要运行嵌套在你的应用程序中的Elasticsearch的时候或者当你要运行单元测试或者集合测试的时候,启动所有节点获得一个Client是非常容易的,最通用的步骤如下所示:  1、创建一个嵌套的

  5年前 (2016-10-02) 1069℃ 0评论1喜欢

ElasticSearch

23种非常有用的ElasticSearch查询例子(5)

23种非常有用的ElasticSearch查询例子(5)
  本系列文章将展示ElasticSearch中23种非常有用的查询使用方法。由于篇幅原因,本系列文章分为六篇,本文是此系列的第五篇文章。欢迎关注大数据技术博客微信公共账号:iteblog_hadoop。《23种非常有用的ElasticSearch查询例子(1)》《23种非常有用的ElasticSearch查询例子(2)》《23种非常有用的ElasticSearch查询例子(3)》《23种非常有用

  5年前 (2016-10-01) 3750℃ 0评论6喜欢

Hadoop

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍

Apache Hadoop 3.0.0-alpha1正式发布及其更新介绍
Apache Hadoop 3.0.0-alpha1相对于hadoop-2.x来说包含了许多重要的改进。这里介绍的是Hadoop 3.0.0的alpha版本,主要是便于检测和收集应用开发人员和其他用户的使用反馈。因为是alpha版本,所以本版本的API稳定性和质量没有保证,如果需要在正式开发中使用,请耐心等待稳定版的发布吧。本文将对Hadoop 3.0.0重要的改进进行介绍。Java最低

  5年前 (2016-09-22) 3226℃ 0评论7喜欢

ElasticSearch

ElasticSearch系列文章:搜索API

ElasticSearch系列文章:搜索API
搜索API允许开发者执行搜索查询,返回匹配查询的搜索结果。这既可以通过查询字符串也可以通过查询体实现。多索引多类型所有的搜索API都可以跨多个类型使用,也可以通过多索引语法跨索引使用。例如,我们可以搜索twitter索引的跨类型的所有文档。[code lang="java"]$ curl -XGET 'http://localhost:9200/twitter/_search?q=user:kimchy'[/

  5年前 (2016-09-22) 1572℃ 0评论2喜欢

Spark meetup

上海第十次Spark Meetup资料分享

上海第十次Spark Meetup资料分享
  Shanghai Apache Spark Meetup第十次聚会活动将于2016年09月10日12:30 至 17:20在四星级的上海通茂大酒店 (浦东新区陆家嘴金融区松林路357号)。分享主题1、中国电信在大数据领域上的创新与探索2、函数式编程与RDD3、社交网络中的信息传播4、大数据分析和机器学习5、分布式流式数据处理框架:功能对比以及性能评估详细主

  5年前 (2016-09-20) 1738℃ 0评论2喜欢

Kafka

为什么Spark Streaming + Kafka很难保证exactly once?

为什么Spark Streaming + Kafka很难保证exactly once?
Streaming job 的调度与执行  我们先来看看如下 job 调度执行流程图:如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop为什么很难保证 exactly once  上面这张流程图最主要想说明的就是,job 的提交执行是异步的,与 checkpoint 操作并不是原子操作。这样的机制会引起数据重复消费问题:

  5年前 (2016-09-08) 8489℃ 5评论12喜欢

Flink

Apache Flink 1.1.2正式发布

Apache Flink 1.1.2正式发布
  相关文章:《Apache Flink 1.1.0和1.1.1发布,支持SQL》  Apache Flink 1.1.2于2016年09月05日正式发布,此版本主要是修复一些小bug,推荐所有使用Apache Flink 1.1.0以及Apache Flink 1.1.1的用户升级到此版本,我们可以在pom.xml文件引入以下依赖:[code lang="xml"]<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</a

  5年前 (2016-09-06) 1278℃ 0评论1喜欢

ElasticSearch

ElasticSearch系列文章:数据操作

ElasticSearch系列文章:数据操作
样本数据集  现在我们对于基本的东西已经有了一些认识,现在让我们尝试使用一些更加贴近现实的数据集。我准备了一些假想的客户银行账户信息的JSON文档样本。文档具有以下的模式(schema):[code lang="java"]{ "account_number": 0, "balance": 16623, "firstname": "Bradshaw", "lastname": &quo

  5年前 (2016-09-04) 997℃ 0评论5喜欢

ElasticSearch

ElasticSearch系列文章:数据修改

ElasticSearch系列文章:数据修改
  Elasticsearch提供了近乎实时的数据操作和搜索功能。默认情况下,从你索引/更新/删除你的数据动作开始到它出现在你的搜索结果中,大概会有1秒钟的延迟。这和其它的SQL平台不同,它们的数据在一个事务完成之后就会立即可用。索引/替换文档  我们先前看到,怎样索引一个文档。现在我们再次调用那个命令:[code lan

  5年前 (2016-09-03) 1481℃ 0评论3喜欢

Spark

使用Spark处理存储于Hive中的Twitter数据的一些技巧

使用Spark处理存储于Hive中的Twitter数据的一些技巧
本文将介绍使用Spark batch作业处理存储于Hive中Twitter数据的一些实用技巧。首先我们需要引入一些依赖包,参考如下:[code lang="scala"]name := "Sentiment"version := "1.0"scalaVersion := "2.10.6"assemblyJarName in assembly := "sentiment.jar"libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "1.6.0&qu

  5年前 (2016-08-31) 3255℃ 0评论5喜欢