Spark mllib API- regression

spark 在回归模块提供的算法有：LinearRegressionWithSGD，RidgeRegressionWithSGD，LassoWithSGD，IsotonicRegression，StreamingLinearRegressionWithSGD

LinearRegression 是寻找线性关系 h(X) = BX，使得 Y-h(X)【损失函数】尽可能小。求解最优解的算法有很多，spark 主要提供了随机梯度下降算法（SGD）。
线性回归同样可以采用正则化手段，其主要目的就是防止过拟合。当采用 L1 正则化时，则变成了 Lasso Regresion；当采用 L2 正则化时，则变成了 Ridge Regression。
此外，spark 还提供了 IsotonicRegression，这是一种保序回归，具有分段回归的效果。

最后，结合 spark 的特性，官方还提供了基于流的 StreamingLinearRegressionWithSGD 算法。

##LabeledPoint
由于回归是有监督学习，因此需要一个数据结构来表示（label，features），LabeledPoint 正是这样一个数据结构。虽然 LabeledPoint 属于 regression 包，但是广泛在有监督学习中使用。

类： pyspark.mllib.regression.LabeledPoint(label, features)
- label：样本的 label 值
- feature：样本的特征向量

##LinearRegression
使用非规则化的数据，训练线性回归模型。使用随机梯度下降寻找最优解。
最小二乘回归公式为：

    f(weights) = 1/n ||A weights-y||^2^

类：pyspark.mllib.regression.LinearRegressionWithSGD
- 方法：
  train(data, iterations=100, step=1.0, miniBatchFraction=1.0, initialWeights=None, regParam=0.0, regType=None, intercept=False, validateData=True, convergenceTol=0.001)
  - data：结构为 LabeledPoint 的 RDD 数据集
  - iterations：迭代次数，默认为 100
  - step：SGD 的步长，默认为 1.0。
  - miniBatchFraction：用于每次 SGD 迭代的数据，默认 1.0。
  - initialWeights：初始权值，默认 None。
  - regParam：规则化参数，默认 0.0。
  - regType：：用于训练模型的规则化类型，可选为 l1（Lasso）或 l2（Ridge），在线性回归默认为 None。
  - intercept：布尔值，表示是否使用增强表现来训练数据，默认 False。
  - validateData：布尔值，表示算法是否在训练前检验数据，默认 True。
  - convergenceTol：终止迭代的收敛值，默认 0.001。

类： pyspark.mllib.regression.LinearRegressionModel(weights, intercept)
- 属性：
  - weights：每个特征的权值
  - intercept：该模型的截距
- 方法： load(sc, path)
  从指定路径加载模型
- 方法： save(sc, path)
  将模型保存到指定路径
- 方法： predict(x)
  预测，输入可以为单个 LabeledPoint 或整个 RDD

##RidgeRegression
使用 L2 规则化的数据，训练线性回归模型。使用随机梯度下降寻找最优解。
最小二乘回归公式为：

    f(weights) = 1/2n ||A weights-y||^2^ + regParam/2 ||weights||^2^

类： pyspark.mllib.regression.LinearRegressionWithSGD
- 方法：
  train(data, iterations=100, step=1.0, regParam=0.01, miniBatchFraction=1.0, initialWeights=None, intercept=False, validateData=True, convergenceTol=0.001)
  - data：结构为 LabeledPoint 的 RDD 数据集
  - iterations：迭代次数，默认为 100
  - step：SGD 的步长，默认为 1.0。
  - miniBatchFraction：用于每次 SGD 迭代的数据，默认 1.0。
  - initialWeights：初始权值，默认 None。
  - regParam：规则化参数，默认 0.01。
  - intercept：布尔值，表示是否使用增强表现来训练数据，默认 False。
  - validateData：布尔值，表示算法是否在训练前检验数据，默认 True。
  - convergenceTol：终止迭代的收敛值，默认 0.001。

类：pyspark.mllib.regression.RidgeRegressionModel(weights, intercept)
- 属性：
  - weights：每个特征的权值
  - intercept：该模型的截距
- 方法： load(sc, path)
  从指定路径加载模型
- 方法： save(sc, path)
  将模型保存到指定路径
- 方法： predict(x)
  预测，输入可以为单个 LabeledPoint 或整个 RDD

##Lasso
使用 L2 规则化的数据，训练线性回归模型。使用随机梯度下降寻找最优解。
最小二乘回归公式为：

    f(weights) = 1/2n ||A weights-y||^2^ + regParam ||weights||_1

类：pyspark.mllib.regression.LassoWithSGD
- 方法：
  train(data, iterations=100, step=1.0, regParam=0.01, miniBatchFraction=1.0, initialWeights=None, intercept=False, validateData=True, convergenceTol=0.001)
  - data：结构为 LabeledPoint 的 RDD 数据集
  - iterations：迭代次数，默认为 100
  - step：SGD 的步长，默认为 1.0。
  - miniBatchFraction：用于每次 SGD 迭代的数据，默认 1.0。
  - initialWeights：初始权值，默认 None。
  - regParam：规则化参数，默认 0.01。
  - intercept：布尔值，表示是否使用增强表现来训练数据，默认 False。
  - validateData：布尔值，表示算法是否在训练前检验数据，默认 True。
  - convergenceTol：终止迭代的收敛值，默认 0.001。

类：pyspark.mllib.regression.LassoModel(weights, intercept)
- 属性：
  - weights：每个特征的权值
  - intercept：该模型的截距
- 方法： load(sc, path)
  从指定路径加载模型
- 方法： save(sc, path)
  将模型保存到指定路径
- 方法： predict(x)
  预测，输入可以为单个 LabeledPoint 或整个 RDD

##IsotonicRegression

【这一块没学明白，后续再把这个坑填上吧】

类：pyspark.mllib.regression.IsotonicRegression
- 方法：train(data, isotonic=True)
  - data：（label，feature，weight）三元组组成的 rdd
  - isotonic：布尔值，保序或非保序

类：pyspark.mllib.regression.IsotonicRegressionModel(boundaries, predictions, isotonic)

Spark mllib API- classification

Apark mllib API 的翻译 - 分类篇。对官方文档进行翻译的同时加入了一些常识性知识。更多分类的相关知识可以查看我的另外一篇博客[链接] Spark 当前提供 LogisticRegression、SVM、NaiveBayes。 ##LogisticRegression 逻辑回归 ###背景知识 Lin ..

聚类分析 -- 层次聚类

层次聚类算法，分为两个方向，自顶向下（分裂的）或自底向上（凝聚的），通过定义簇的临近性概念来逐步进行聚类。关键性问题：临近性度量单链，两个簇中任意两点之间的最短距离（最大相似度），擅于处理非椭圆形的簇，但对噪声和离群点敏感全链，两个簇中任意两点之间的最长距离（最小相似度），对噪声和离群点不敏感，但是可能使大的簇破 ..

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

姓名：分数：一、选择题（48 分） 1、以下两种描述分别对应哪两种对分类算法的评价标准？ ( ) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision C. Precision, R ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Spark mllib API- regression

相关帖子

百度地图坐标拾取系统设置默认显示位置

WIN10 设置默认浏览器

symphony上传头像不同步了

Spark mllib API- classification

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

欢迎来到这里！

近期热议

推荐标签标签

最新标签

Spark mllib API- regression

相关帖子

百度地图坐标拾取系统设置 默认显示位置

WIN10 设置默认浏览器

symphony上传头像不同步了

Spark mllib API- classification

在线数据挖掘工具 tipdm 部署流程

聚类分析 -- 层次聚类

我们公司的统计与数据挖掘考试，考试时间是 1 个小时，满分 100 分

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

百度地图坐标拾取系统设置默认显示位置

推荐标签标签