欢迎关注大数据技术架构与案例微信公众号:过往记忆大数据
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
过往记忆大数据

哎哟~404了~休息一下,下面的文章你可能很感兴趣:

资料分享

最新可用的免费手机归属地查询API收集

最新可用的免费手机归属地查询API收集
最近有个项目需要用到手机归属地信息,所有网上找到了一些免费的API。但是因为是免费的,所有很多都有限制,比如每天只能查询多少次等。本站提供的API地址: /api/mobile.php?mobile=13188888888参数:mobile ->手机号码(7位到11位)返回格式:JSON实例结果:[code lang="scala"]{ "ID": "18889", "prefix": &q

w397090770   8年前 (2016-08-02) 7956℃ 4评论16喜欢

CPP编程

再说C++模板类的一些使用技巧

再说C++模板类的一些使用技巧
C++允许为模板类中的类型参数指定为一个迷人类型,例如:我们可以将int赋予通用类Stack中的类型参数T,作为默认类型,如下所示:[code lang="CPP"]templateclass Stack{//other operator};[/code]现在我们就可以像如下代码一样使用默认类型来声明模板类对象了:[code lang="CPP"]Stack<> stack; //store int value[/code]但是需要注意

w397090770   11年前 (2013-04-04) 4057℃ 1评论0喜欢

Spark

[电子书]Mastering Apache Spark下载

[电子书]Mastering Apache Spark下载
  本书旨在通过教你如何扩展Spark的功能,将你对Spark的有限知识提升到一个新的水平。全书从Spark生态系统开始概述,您将学习如何使用MLlib创建一个完全的神经网络系统,然后您将了解如何调整流处理以获得最佳性能并确保并行处理。本书作者Mike Frampton,由Packt 于2015年09月出版,全书318页,通过本书你将学到以下知识:  (

w397090770   7年前 (2016-12-04) 3654℃ 0评论9喜欢

Apache Iceberg

一条数据在 Apache Iceberg 之旅:写过程分析

一条数据在 Apache Iceberg 之旅:写过程分析
本文基于 Apache Iceberg 0.9.0 最新分支,主要分析 Apache Iceberg 中使用 Spark 2.4.6 来写数据到 Iceberg 表中,也就是对应 iceberg-spark2 模块。当然,Apache Iceberg 也支持 Flink 来读写 Iceberg 表,其底层逻辑也 Spark 类似,感兴趣的同学可以去看看。使用 Spark2 将数据写到 Apache Iceberg在介绍下面文章之前,我们先来看下在 Apache Spark 2.4.6 中写数

w397090770   3年前 (2020-11-12) 5184℃ 0评论9喜欢

常用工具

如何在 mac 系统上安装 thrift

如何在 mac 系统上安装 thrift
Thrift 最初由Facebook开发,目前已经开源到Apache,已广泛应用于业界。Thrift 正如其官方主页介绍的,“是一种可扩展、跨语言的服务开发框架”。简而言之,它主要用于各个服务之间的RPC通信,其服务端和客户端可以用不同的语言来开发。只需要依照IDL(Interface Description Language)定义一次接口,Thrift工具就能自动生成 C++, Java, Python, PH

w397090770   2年前 (2022-03-29) 1582℃ 0评论0喜欢

Spark

[电子书]Learning PySpark PDF下载

[电子书]Learning PySpark PDF下载
本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统中。您将首先了解Spark 2.0的架构以及如何为Spark设置Python环境。通过本书,你将会使用Python操作RDD、DataFrames、MLlib以及GraphFrames等;在本书结束时,您将对Spark Python API有了全局的了解,并且学习到如何使用它来构建数据密集型应用程序。通过本书你将学习到以下的知识

zz~~   7年前 (2017-03-09) 10723℃ 0评论12喜欢

Web服务

Web服务非功能属性

Web服务非功能属性
  如今,互联网上存在大量功能相同的Web服务,但是它们的非功能属性(Quality of Service,QoS)一般相差很大,以至于用户在选择合适的Web服务时,把服务的QoS作为评判服务好坏的重要指标。QoS并不是在Web服务领域中产生的,它最先用在计算机网络和实时系统的非功能需求中,后来很多领域都引入了QoS指标,而且不同领域所用的QoS

w397090770   11年前 (2013-05-16) 3610℃ 0评论5喜欢

Hadoop

四种常见的MapReduce设计模式

四种常见的MapReduce设计模式
  使用MapReduce解决任何问题之前,我们需要考虑如何设计。并不是任何时候都需要map和reduce job。MapReduce设计模式(MapReduce Design Pattern)整个MapReduce作业的阶段主要可以分为以下四种:  1、Input-Map-Reduce-Output  2、Input-Map-Output  3、Input-Multiple Maps-Reduce-Output  4、Input-Map-Combiner-Reduce-Output下面我将一一介绍哪种

w397090770   8年前 (2016-09-01) 5623℃ 0评论16喜欢

Hadoop

Hadoop YARN公平调度(FairScheduler)介绍

Hadoop YARN公平调度(FairScheduler)介绍
一、介绍  FairScheduler是一个资源分配方式,在整个时间线上,所有的applications平均的获取资源。Hadoop NextGen能够调度多种类型的资源。默认情况下,FairScheduler只是对内存资源做公平的调度(分配)。当集群中只有一个application运行时,那么此application占用这个集群资源。当其他的applications提交后,那些释放的资源将会被分配给新的

w397090770   8年前 (2015-12-03) 11907℃ 12评论15喜欢

Java

Java8 收集器 - java.util.stream.Collectors

Java8 收集器 - java.util.stream.Collectors
Java 8 流的新类 java.util.stream.Collectors 实现了 java.util.stream.Collector 接口,同时又提供了大量的方法对流 ( stream ) 的元素执行 map and reduce 操作,或者统计操作。本章节,我们就来看看那些常用的方法,顺便写几个示例练练手。Collectors.averagingDouble()Collectors.averagingDouble() 方法将流中的所有元素视为 double 类型并计算他们的平均值

w397090770   2年前 (2022-03-31) 134℃ 0评论0喜欢

Spark

来自 Facebook 的 Spark 大作业调优经验

来自 Facebook 的 Spark 大作业调优经验
Facebook Spark 的使用情况在介绍下面文章之前我们来看看 Facebook 的 Spark 使用情况:如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoopSpark 是 Facebook 内部最大的 SQL 查询引擎(按 CPU 使用率计算)在存储计算分

w397090770   4年前 (2020-06-14) 1459℃ 0评论6喜欢

机器学习

奇虎360正式开源深度学习调度平台XLearning

奇虎360正式开源深度学习调度平台XLearning
本文系奇虎360系统部相关工程师投稿。近两年人工智能技术发展迅速,以Google开源的TensorFlow为代表的各种深度学习框架层出不穷。为了方便算法工程师使用各类深度学习技术,减少繁杂的诸如运行环境部署运维等工作,提升GPU等硬件资源利用率,节省硬件投入成本,奇虎360系统部大数据团队与人工智能研究院联合开发了深度学习

w397090770   6年前 (2017-12-08) 2661℃ 0评论15喜欢

Solr

Apache Solr 安装部署及索引创建

Apache Solr 安装部署及索引创建
Solr 介绍Apache Solr 是基于 Apache Lucene™ 构建的流行,快速,开源的企业搜索平台。Solr 具有高可靠性,可扩展性和容错性,可提供分布式索引,复制和负载均衡查询,自动故障转移和恢复以及集中配置等特性。 Solr 为世界上许多大型互联网站点提供搜索和导航功能。Solr 是用 Java 编写、运行在 Servlet 容器(如 Apache Tomcat 或Jetty)

w397090770   6年前 (2018-07-24) 2790℃ 0评论3喜欢

Spark

GraphFrames介绍:构建在DataFrame之上的图处理库

GraphFrames介绍:构建在DataFrame之上的图处理库
  由Databricks、UC Berkeley以及MIT联合为Apache Spark开发了一款图像处理类库,名为:GraphFrames,该类库是构建在DataFrame之上,它既能利用DataFrame良好的扩展性和强大的性能,同时也为Scala、Java和Python提供了统一的图处理API。什么是GraphFrames  与Apache Spark的GraphX类似,GraphFrames支持多种图处理功能,但得益于DataFrame因此GraphFrames与G

w397090770   8年前 (2016-04-09) 4658℃ 0评论6喜欢

数据结构

数据结构:胜者树与败者树

数据结构:胜者树与败者树
假设有k个称为顺串的有序序列,我们希望将他们归并到一个单独的有序序列中。每一个顺串包含一些记录,并且这些记录按照键值的大小,以非递减的顺序排列。令n为k个顺串中的所有记录的总数。并归的任务可以通过反复输出k个顺串中键值最小的记录来完成。键值最小的记录的选择有k种可能,它可能是任意有一个顺串中的第1个

w397090770   11年前 (2013-04-01) 6595℃ 2评论7喜欢

Hadoop

HDFS文件内容追加(Append)

HDFS文件内容追加(Append)
  HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参见https://issues.apache.org/jira/browse/HADOOP-8230。可以再看看http://www.quora.com/HDFS/Is-HDFS-an-append-only-file-

w397090770   10年前 (2014-01-03) 34196℃ 3评论20喜欢

Apache Impala

Impala在腾讯金融大数据场景中的应用

Impala在腾讯金融大数据场景中的应用
导读:在腾讯金融场景,我们每天都会产生大量的数据,为了提升分析的交互性,让决策更加敏捷,我们引入了Impala来解决我们的分析需求。所以,本文将和大家分享Impala在腾讯金融大数据场景中的应用架构,Impala的原理,落地过程的案例和优化以及总结思考。Impala的架构 首先介绍Impala的整体架构,帮助大家从宏观角度理

w397090770   2年前 (2021-10-28) 316℃ 0评论1喜欢

Presto

Presto 基本概念:Driver, Split 和 Pipeline

Presto 基本概念:Driver, Split 和 Pipeline
在使用 Presto 时,我们经常会听说 Query、Stage、Task 等概念,很多人会搞不清楚这些概念,所以会导致一些误解,本文将简单地介绍一下这些基本的概念是指StatementStatement语句。其实就是指我们输入的SQL语句。Presto支持需要ANSI标准的SQL语句。这种语句由子句(Clause)、表达式(Expression)和断言(Predicate)组成。Presto为什么将语句(S

w397090770   2年前 (2021-11-01) 1655℃ 0评论4喜欢

Hadoop

Hadoop面试题系列(3/11)

Hadoop面试题系列(3/11)
1. 集群多少台, 数据量多大, 吞吐量是多大, 每天处理多少G的数据?2. 我们的日志是不是除了apache的访问日志是不是还有其他的日志?3. 假设我们有其他的日志是不是可以对这个日志有其他的业务分析?这些业务分析都有什么?4. 你们的服务器有多少台?服务器的内存多大?5. 你们的服务器怎么分布的?(这里说地理位置

w397090770   8年前 (2016-08-26) 3409℃ 0评论4喜欢

Spark

Spark在Yarn上运行Wordcount程序

Spark在Yarn上运行Wordcount程序
  我们在接触Hadoop的时候,第一个列子一般是运行Wordcount程序,在Spark我们可以用Java代码写一个Wordcount程序并部署在Yarn上运行。我们知道,在Spark源码中就存在一个用Java编写好的JavaWordCount程序,源码如下:[code lang="JAVA"]package org.apache.spark.examples;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apac

w397090770   10年前 (2014-05-04) 28181℃ 1评论18喜欢

HBase

HBase 在人工智能场景的使用

HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点:大:数据量越大,对我们后面建模越会有好处;稀疏:每行

w397090770   5年前 (2018-11-22) 3241℃ 1评论10喜欢

Spark

Spark Task序列化代码分析

Spark Task序列化代码分析
  Spark的作业会通过DAGScheduler的处理生产许多的Task并构建成DAG图,而分割出的Task最终是需要经过网络分发到不同的Executor。在分发的时候,Task一般都会依赖一些文件和Jar包,这些依赖的文件和Jar会对增加分发的时间,所以Spark在分发Task的时候会将Task进行序列化,包括对依赖文件和Jar包的序列化。这个是通过spark.closure.serializer参数

w397090770   8年前 (2015-11-16) 6171℃ 0评论8喜欢

Scala

Scala编译器是如何解析for循环语句

Scala编译器是如何解析for循环语句
  你可能会在Scala中经常使用for循环已经,所以理解Scala编译器是如何解析for循环语句是非常重要的。我们记住以下四点规则即可:  1、对集合进行简单的for操作,Scala编译器会将它翻译成对集合进行foreach操作;  2、带有guard的for循环,编译器会将它翻译成一序列的withFilter操作,紧接着是foreach操作;  3、带有yield的for

w397090770   9年前 (2015-10-20) 3932℃ 0评论6喜欢

Web服务

Web服务的优点

Web服务的优点
  Web服务是一种新兴的应用模式,它很好地解决了互联网中跨平台软件的连接问题。Web服务是用来支持互联网中不同计算机之间操作性的软件系统,它定义了一种机器可读的接口(比如WSDL文档),其他软件系统可以通过SOAP消息和Web服务进行交互,交互通常用HTTP协议,而这些消息格式通常是基于XML的。和传统的应用程序不同的地

w397090770   11年前 (2013-06-20) 3942℃ 3评论3喜欢

Presto

Presto on Spark:通过 Spark 来扩展 Presto

Presto on Spark:通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织

w397090770   2年前 (2021-11-14) 1223℃ 0评论1喜欢

网站建设

过往记忆微信公共帐号自动回复升级啦

过往记忆微信公共帐号自动回复升级啦
为了提高本博客的用户体验,我于去年七月写了一份代码,将博客与微信公共帐号关联起来(可以参见本博客),用户可以在里面输入相关的关键字(比如new、rand、hot),但是那时候关键字有限制,只能对文章的分类进行搜索。不过,今天我修改了自动回复功能相关代码,目前支持对任意的关键字进行全文搜索,其结果相关与调用

w397090770   9年前 (2015-11-07) 2053℃ 0评论8喜欢

Apache Iceberg

Apache Iceberg 小文件合并原理及实践

Apache Iceberg 小文件合并原理及实践
在 《一条数据在 Apache Iceberg 之旅:写过程分析》 这篇文章中我们分析了 Apache Iceberg 写数据的源码。如下是我们使用 Spark 写两次数据到 Iceberg 表的数据目录布局(测试代码在 这里):[code lang="bash"]/data/hive/warehouse/default.db/iteblog├── data│   └── ts_year=2020│   ├── id_bucket=0│   │   ├── 00000-0-19603f5a-d38a

w397090770   3年前 (2020-11-20) 6113℃ 6评论8喜欢

Flink

Flink Forward 201809PPT资料下载

Flink Forward 201809PPT资料下载
这次整理的 PPT 来自于2018年09月03日至05日在 Berlin 进行的 flink forward 会议,这种性质的会议和大家熟知的Spark summit类似。本次会议的官方日程参见:https://berlin-2018.flink-forward.org/。本次会议共有超过350个 Flink 社区会员的人参与,因为原始的 PPT 是在 http://www.slideshare.net/ 网站,这个网站需要翻墙;为了学习交流的方便,本博客将这些 P

w397090770   6年前 (2018-09-19) 2574℃ 2评论5喜欢

Spark

Spark北京Meetup第五次活动(Streaming专题)

Spark北京Meetup第五次活动(Streaming专题)
活动时间  1月24日下午14:00活动地点  地址:海淀区中关村软件园二期,西北旺东路10号院东区,亚信大厦 一层会议室  地图:http://j.map.baidu.com/L_1hq  为了保证大家乘车方便,特提供活动大巴时间:13:20-13:40位置:http://j.map.baidu.com/SJOLy分享内容:  邵赛赛 Intel Spark Streaming driver high availability

w397090770   9年前 (2015-01-22) 15580℃ 0评论2喜欢

行业资讯

Bing搜索结果中加入实时代码编辑器

Bing搜索结果中加入实时代码编辑器
  微软的搜索引擎Bing和HackerRank合作,在Bing的搜索结果里面加入了实时代码编辑器,它为数以百万计的程序员提供了一种简单的方法来搜索结果,主要是允许程序员在搜索结果中直接编辑和执行代码示例,实时查看运行结果。  通常情况下,工程师需要到Stackoverflow, Stackexchange或者其他的博客搜索他们需要的答案。现在我们有

w397090770   8年前 (2016-04-11) 1635℃ 0评论2喜欢