欢迎关注Hadoop、Spark、Flink、Hive、Hbase、Flume等大数据资料分享微信公共账号:iteblog_hadoop
  1. 文章总数:961
  2. 浏览总数:11,480,571
  3. 评论:3873
  4. 分类目录:103 个
  5. 注册用户数:5841
  6. 最后更新:2018年10月17日
过往记忆博客公众号iteblog_hadoop
欢迎关注微信公众号:
iteblog_hadoop
大数据技术博客公众号bigdata_ai
大数据猿:
bigdata_ai

 分类:Python

使用 Python 编写 Hive UDF 环境问题

使用 Python 编写 Hive UDF 环境问题
在 《使用Python编写Hive UDF》 文章中,我简单的谈到了如何使用 Python 编写 Hive UDF 解决实际的问题。我们那个例子里面仅仅是一个很简单的示例,里面仅仅引入了 Python 的 sys 包,而这个包是 Python 内置的,所有我们不需要担心 Hadoop 集群中的 Python 没有这个包;但是问题来了,如果我们现在需要使用到 numpy 中的一些函数呢?假设我们

w397090770   9个月前 (01-25) 2049℃ 3评论17喜欢

使用Python编写Hive UDF

使用Python编写Hive UDF
Hive 内置为我们提供了大量的常用函数用于日常的分析,但是总有些情况这些函数还是无法满足我们的需求;值得高兴的是,Hive 允许用户自定义一些函数,用于扩展 HiveQL 的功能,这类函数叫做 UDF(用户自定义函数)。使用 Java 编写 UDF 是最常见的方法,但是本文介绍的是如何使用 Python 来编写 Hive 的 UDF 函数。如果想及时了解S

w397090770   9个月前 (01-24) 3415℃ 0评论11喜欢

Python中ImportError: No module named的解决

Python中ImportError: No module named的解决
有时候我们会自己编写一些 Python 内置中没有的 module ,比如下面我自定义了一个名为 matrix 的 module ,然后直接在命令行中引入则会出现下面的错误:[code lang="python"][iteblog@www.iteblog.com ~]$ pythonPython 2.7.3 (default, Aug 4 2016, 21:49:57) [GCC 4.4.7 20120313 (Red Hat 4.4.7-16)] on linux2Type "help", "copyright", "credits" or "license&

w397090770   1年前 (2017-06-25) 9403℃ 0评论10喜欢

Spark Python API函数学习:pyspark API(4)

Spark Python API函数学习:pyspark API(4)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   3年前 (2015-07-04) 17836℃ 0评论17喜欢

Spark Python API函数学习:pyspark API(3)

Spark Python API函数学习:pyspark API(3)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   3年前 (2015-07-04) 10506℃ 1评论12喜欢

Spark Python API函数学习:pyspark API(2)

Spark Python API函数学习:pyspark API(2)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   3年前 (2015-06-28) 15269℃ 1评论16喜欢

Spark Python API函数学习:pyspark API(1)

Spark Python API函数学习:pyspark API(1)
  《Spark Python API函数学习:pyspark API(1)》  《Spark Python API函数学习:pyspark API(2)》  《Spark Python API函数学习:pyspark API(3)》  《Spark Python API函数学习:pyspark API(4)》  Spark支持Scala、Java以及Python语言,本文将通过图片和简单例子来学习pyspark API。.wp-caption img{ max-width: 100%; height: auto;}如果想

w397090770   3年前 (2015-06-28) 28036℃ 0评论72喜欢

Spark1.4中DataFrame功能加强,新增科学和数学函数

Spark1.4中DataFrame功能加强,新增科学和数学函数
  社区在Spark 1.3中开始引入了DataFrames,使得Apache Spark更加容易被使用。受R和Python中的data frames激发,Spark中的DataFrames提供了一些API,这些API在外部看起来像是操作单机的数据一样,而数据科学家对这些API非常地熟悉。统计是日常数据科学的一个重要组成部分。在即将发布的Spark 1.4中改进支持统计函数和数学函数(statistical and mathem

w397090770   3年前 (2015-06-03) 12652℃ 2评论3喜欢

使用Spark读写CSV格式文件

使用Spark读写CSV格式文件
  CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符

w397090770   3年前 (2015-06-01) 46501℃ 2评论20喜欢

Newspaper: 新闻文章元数据抽取的开源Python库

Newspaper: 新闻文章元数据抽取的开源Python库
  来自于requests的灵感,因为它很简单;并且由lxml驱动,因为它速度很快。  Newspaper是一个惊人的新闻、全文以及文章元数据抽取开源的Python类库,这个类库支持10多种语言,所有的东西都是用unicode编码的。我们可以使用下面命令查看:[code lang="python"]/** * User: 过往记忆 * Date: 2015-05-20 * Time: 下午23:14 * bolg: http://www.ite

w397090770   3年前 (2015-05-20) 1769℃ 0评论0喜欢