0x00 逻辑回归(Logistic Regression) 逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。 Logistic 回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种, ..

机器学习 (3)——逻辑回归

本贴最后更新于 373 天前,其中的信息可能已经时移世改

0x00 逻辑回归(Logistic Regression)

逻辑回归就是这样的一个过程:面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。

Logistic 回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别)

回归模型中,y 是一个定性变量,比如 y=0 或 1,logistic 方法主要应用于研究某些事件发生的概率。

0x01 逻辑回归模型

它的核心思想是,如果线性回归的结果输出是一个连续值,而值的范围是无法限定的,那我们有没有办法把这个结果值映射为可以帮助我们判断的结果呢。而如果输出结果是 (0,1) 的一个概率值,这个问题就很清楚了。

在数学上有 sigmoid 函数可以帮助我们实现这一思想。

sigmoid 函数表达式:

二元逻辑回归时,将 t 换成 ax+b,可以得到二元逻辑回归模型的参数形式:

sigmoid 函数图形:

其中,如果是二元回归时,我们 P(x)的值可以理解为某一分类概率的大小,如果 P(x)值为 0.6,代表输出为 1 的概率是 60% ,补集部分是输出为 0 的概率 40% 。

此时 P(x)的值越小,而分类为 0 的的概率越高,反之,值越大的话分类为 1 的的概率越高。如果靠近临界点即靠近 0.6 时,分类准确率会下降。

0x02 决策边界(decision boundary)

决策边界就是能够把样本正确分类的一条边界,从图像上可以直观的看到

如线性决策边界:

非线性决策边界:

在上面二元逻辑回归的例子中,我们用 y 表示输出的离散值 0 或 1,写为函数形式为:

然后我们逻辑函数 g 要做到,在输入大于等于零时,输出大于等于 0.6;在输入小于零时,输出小于等于 0.6。即:

决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。

0x03 成本函数(Cost Function)

线性回归中也说过成本函数,也叫代价函数,在逻辑回归中,我们也需要定义成本函数对其取值的好坏进行评估。

而逻辑回归如果取用和线性回归一样的方式计算成本函数,那么图形是“非凸”的。

这样就会产生很多个局部最小值,无法使用梯度下降算法。所以我们需要一个新的成本函数。

在逻辑回归中,损失函数是用来估计预测值(y^(i))与期望输出值(y(i))之间的差异。

统计学习中常用的损失函数有以下几种:

(1) 0-1 损失函数(0-1 loss function):

(2) 平方损失函数(quadratic loss function)

(3) 绝对损失函数(absolute loss function)

(4) 对数损失函数(logarithmic loss function) 或对数似然损失函数(log-likelihood loss function)

损失函数越小,模型就越好。

所以在逻辑回归中,为了保证全局收敛,我们采用对数似然损失函数。

也就是说,如下两个情况:

如果是正确答案为 y=1 的情况:

当 y=1, 则 Cost=0,也就是预测的值和真实的值完全相等的时候成本为 0;但是如果 y=0,Cost 接近无穷大,也就是说此时成本会非常大。

如果是正确答案为 y=0 的情况:

当 y=0, 则 Cost=0,也就是预测的值和真实的值完全相等的时候成本为 0;但是如果 y=1,Cost 接近无穷大,也就是说此时成本会非常大。

0x04 简化成本函数

在上面式子中,由于 y 只能等于 0 或 1,所以可以将逻辑回归中的 Cost function 的两个公式合并可以将我们的成本函数的两个条件案例压缩成一个案例:

当 y 等于 1 时,第二项(1-y)log(1- h θ(x))将为零,并且不会影响结果。如果 y 等于 0,则所述第一术语-ylog(1-h θ(X))将为零,且不会影响结果。

所以最终整个逻辑回归的成本函数如下:

0x05 梯度下降

与线性回归相似,这里我们同样采用梯度下降算法来学习参数

迭代函数

算法就是迭代这个公式每次更新参数值,上篇已经详细说过

0x06 优化(Advanced Optimization)

优化算法除了梯度下降算法外,还包括:

后二者由拟牛顿法引申出来,与梯度下降算法相比,这些算法的优点是:

因为算法太过复杂,我们不需要手动编写代码,只需要在库中调用相关的函数即可。

0x07 多分类问题(Multiclass Classification: One-vs-all)

我们大多时候遇到的分类并不止两类,这个时候就产生了多分类问题。

首先,二分类问题时候图形如下:

那么多分类问题的图形就如下:

对于多分类问题,我们可以将其先看成二分类问题,保留一类之后剩余的划作另一类。

对上面的三类问题,我们需要三次划分,如图:

最终的 One-vs-all 方法:

也就是说,如果输入一个 x,此时分类器 A 概率为 0.3,分类器 B 概率为 0.4,分类器 C 概率为 0.5,那么他就属于 C 这个分类。

  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    54 引用 • 20 回帖
回帖
请输入回帖内容...