Apache SystemML：为大数据优化的声明式机器学习平台

Apache SystemML 是由 IBM 开发并开源的优化大数据机器学习平台，为使用大数据的机器学习提供了最佳的工作场所。它可以在 Apache Spark上运行，会自动缩放数据，逐行确定代码是否应在驱动程序或 Apache Spark 群集上运行。

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

SystemML 是声明式机器学习 (DML)，包含线性代数原语，统计功能和 ML 指定结构，可以更容易也更原生的表达 ML 算法。算法通过 R 类型或者 Python 类型的语法进行表达。DML 通过提供灵活的定制分析表达和独立于底层输入格式和物理数据表示的数据显著提升数据科学的生产力。

其次，SystemML 提供自动优化功能，通过数据和集群特性保证高效和可伸缩。SystemML 可以在 MapReduce 或者 Spark 环境运行。

如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop

Apache SystemML 目前支持的机器学习算法有：

描述性统计 Descriptive Statistics
该类中的算法用于描述数据集的主要特征。它们提供了对不同观察或数据记录计算的有意义的摘要收集在研究中。这些摘要通常构成初步数据探索的基础，作为其中的一部分更广泛的统计分析。
- 单变量统计 Univariate Statistics
- 双变量统计 Bivariate Statistics
- 分层双变量统计 Stratified Bivariate Statistics
分类 Classification
该类中的算法用于基于一些预定义的类或对象对数据进行分组。这是监督学习的特点。分类算法的一个例子是将社交媒体的评论分为正面评价，负面评价或中立评价。
- 多项 Logistic 回归 Multinomial Logistic Regression
- 支持向量机 Support Vector Machines
  - 二进制类支持向量机 Binary-Class Support Vector Machines
  - 多类支持向量机 Multi-Class Support Vector Machines
- 朴素贝叶斯 Naive Bayes
- 决策树 Decision Trees
- 随机森林 Random Forests
聚类 Clustering
聚类是一种无监督的学习类算法。数据集中没有预定义的类 -
算法在数据中找到关系。聚类算法将数据排列或聚类成若干数量的逻辑组。例如，确定商店客户的购买模式。
- K 均值聚类 K-Means Clustering
回归 Regression
回归是另一类监督学习算法。该数据集中的目标变量是连续的。股票市场预测是回归算法的一个例子。这里的股票价格是目标变量，或者是我们想预测的，而且每天都有变化。
- 线性回归 Linear Regression
- 逐步线性回归 Stepwise Linear Regression
- 广义线性模型 Generalized Linear Models
- 逐步广义线性回归 Stepwise Generalized Linear Regression
- 回归计分与预测 Regression Scoring and Prediction
矩阵分解 Matrix Factorization
矩阵分解算法用于发现嵌入在不同实体之间的交互中的潜在特征。它们利用多个矩阵，当它们相乘时，生成一个类似于原先矩阵的新矩阵。亚马逊和 Netflix 使用矩阵因式分解算法来提出产品建议。例如每行代表您的一个客户，每列表示您的一个产品，矩阵是大而稀疏的。因此，每个单元代表由特定客户购买的特定产品。该矩阵首先填充历史数据，然后将原始矩阵分解为"产品因素"和"客户因素"两个因素。通过将这两个因子相乘在一起，我们产生添加到矩阵中的新的非零值。这些新的非零值表示产品建议。
- 主成分分析 Principal Component Analysis
- 通过交替最小化完成矩阵 Matrix Completion via Alternating Minimizations
生存分析 Survival Analysis
生存分析检查感兴趣的特定事件发生所需的时间。换句话说，它们用于估计生存概率。
例如，在医学研究中，原型的这种事件是患者的死亡，但是该方法可以应用于其他应用领域，例如在心理实验中完成个人的任务或者在工程中的电气部件的故障。
- Kaplan-Meier 生存分析 Kaplan-Meier Survival Analysis
- Cox 比例风险回归模型 Cox Proportional Hazard Regression Model