最新发布第80页

过往记忆专注于大数据技术构架及应用，微信公众号:过往记忆大数据

最热排行榜

浏览 (139555)481喜欢
1Hive数据类型转换
浏览 (116271)90喜欢
2Hive常用字符串函数
浏览 (102319)70喜欢
3Hive insert into语句用法
浏览 (94132)183喜欢
4Hive常用函数大全一览
浏览 (92771)132喜欢
5Hive几种数据导入方式
浏览 (91098)78喜欢
6Apache Spark SQL自适应执行实践
浏览 (88084)297喜欢
7精心收集的Hadoop学习资料(持续更新)
浏览 (84885)72喜欢
8使用HttpClient通过post方式发送json数据
浏览 (84199)76喜欢
9Hive:ORC File Format存储格式详解
浏览 (84006)91喜欢
10Spark: sortBy和sortByKey函数详解

SparkSession：新的切入点

　　在Spark 1.x版本，我们收到了很多询问SparkContext, SQLContext和HiveContext之间关系的问题。当人们想使用DataFrame API的时候把HiveContext当做切入点的确有点奇怪。在Spark 2.0，引入了SparkSession，作为一个新的切入点并且包含了SQLContext和HiveContext的功能。为了向后兼容，SQLContext和HiveContext被保存下来。SparkSession拥有许多特性，下面将展示SparkS

w397090770 9年前 (2016-05-26) 14057℃ 0评论13喜欢

Spark

Spark 2.0技术预览版正式发布下载

　　在过去Spark社区创建了Spark 2.0的技术预览版，经过几天的投票，目前该技术预览版今天正式公布。《Spark 2.0技术预览：更容易、更快速、更智能》文章中详细介绍了Spark 2.0给我们带来的新功能，总体上Spark 2.0提升了下面三点：　　1. 对标准的SQL支持，统一DataFrame和Dataset API。现在已经可以运行TPC-DS所有的99个查询，这99个查

w397090770 9年前 (2016-05-25) 2645℃ 0评论3喜欢

Kafka

Apache Kafka 0.10.0.0稳定版发布及其新特性介绍

Apache Kafka 0.10.0.0于美国时间2016年5月24日正式发布。Apache Kafka 0.10.0.0是Apache Kafka的主要版本，此版本带来了一系列的新特性和功能加强。本文将对此版本的重要点进行说明。Kafka StreamsKafka Streams在几个月前由Confluent Platform首先在其平台的技术预览中行提出，目前已经在Apache Kafka 0.10.0.0上可用了。Kafka Streams其实是一套类库，它使

w397090770 9年前 (2016-05-25) 12411℃ 0评论25喜欢

Spark

《Apache Spark 2.0: Faster, Easier, and Smarter》ppt下载

《Spark 2.0技术预览：更容易、更快速、更智能》文章介绍了Spark的三大新特性，本文是Reynold Xin在2016年5月5日的演讲，视频可以到这里看：http://go.databricks.com/apache-spark-2.0-presented-by-databricks-co-founder-reynold-xinPPT下载地址见下面。

w397090770 9年前 (2016-05-24) 3304℃ 0评论4喜欢

Spark

Spark 2.0介绍：从RDD API迁移到DataSet API

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展方向奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一

w397090770 9年前 (2016-05-24) 13097℃ 0评论26喜欢

Spark

Spark 2.0介绍：Dataset介绍和使用

　　《Spark 2.0技术预览：更容易、更快速、更智能》文章中简单地介绍了Spark 2.0带来的新技术等。Spark 2.0是Apache Spark的下一个主要版本。此版本在架构抽象、API以及平台的类库方面带来了很大的变化，为该框架明年的发展奠定了方向，所以了解Spark 2.0的一些特性对我们能够使用它有着非常重要的作用。本博客将对Spark 2.0进行一序列

w397090770 9年前 (2016-05-23) 22167℃ 0评论27喜欢

Spark

Spark 2.0介绍：SparkSession创建和使用相关API

w397090770 9年前 (2016-05-19) 21008℃ 1评论32喜欢

Zookeeper

Zookeeper四字命令

　　ZooKeeper 支持某些特定的四字命令(The Four Letter Words)与其进行交互。它们大多是查询命令，用来获取 ZooKeeper 服务的当前状态及相关信息。用户在客户端可以通过 telnet 或 nc 向 ZooKeeper 提交相应的命令。 ZooKeeper 常用四字命令主要如下： ZooKeeper四字命令功能描述conf3.3.0版本引入的。打印出服务相关配置的详细信息。cons3.3.0

w397090770 9年前 (2016-05-18) 4272℃ 0评论5喜欢

Spark

Spark性能优化：shuffle调优

《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spark性能优化：shuffle调优》shuffle调优调优概述　　大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对sh

w397090770 9年前 (2016-05-15) 22590℃ 2评论52喜欢

Spark

Spark性能优化：数据倾斜调优

《Spark性能优化：开发调优篇》《Spark性能优化：资源调优篇》《Spark性能优化：数据倾斜调优》《Spark性能优化：shuffle调优》前言　　继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析

w397090770 9年前 (2016-05-14) 15694℃ 0评论30喜欢

上一页
1
···
75
76
77
78
79
80
81
82
83
84
85
...
140
下一页
共 140 页