逻辑回归

是什么逻辑回归?

Logistic回归与多效能的线形的回归在世界上有很多平等的之处,最大的辨别是非是它们的他变数意见分歧。,另独身根本平等的。。正由于一概如此,这两种回归可以引起完整一样家族,广泛的线形的典范(广泛的线形的典范) 典范)。

如此日常的的典范根本确认。,辨别是由于变量是意见分歧的。。

  • 倘若是延续的,执意多效能的线形的回归;
  • 倘若是两个散布,执意Logistic回归;
  • 倘若是泊松散布,执意Poisson回归;
  • 倘若它是负二散布,执意负二项回归。

Logistic回归的他变数可以是二归类的,它也可以是独身多归类。,但这两种归类更为经用。,它也更轻易解说。。因而现实中最经用的执意二归类的Logistic回归。

Logistic回归的次要用途:

  • 寻觅双骰子游戏要素:发展一种某种具体疾病的双骰子游戏要素,依此类推。;
  • 预测:由于典范,预测是在意见分歧的孤独变量的机遇下停止的。,某种具体疾病或机遇的概率是多少?;
  • 判别:确实,这颇类似地预测。,它同样由于典范的,决定独身人害病或在一种机遇下的能够性。,这执意如此人的能够性。。

Logistic回归次要在流行病学中服用较多,独身更共有的的机遇是摸索独身某种具体疾病的双骰子游戏要素。,由于双骰子游戏要素的某种具体疾病概率预测,依此类推。拿 … 来说,胃癌发作的双骰子游戏要素根究,你可以选择两组人,一组为胃癌组,一组为非胃癌组,两组人不得已有意见分歧的标记和生活。。此处的他变数是胃癌。,那是是或批评,幅角可以包罗很多,拿 … 来说,年纪、性特点、饮食习惯、幽门螺杆菌传染等。。幅角可以是延续变量。,它也可以被归类。。

例行程序测度

回归成绩的有规律的测度是:

  1. 寻觅H有或起作用(即假定);
  2. 确认J有或起作用(失去有或起作用);
  3. 想办法使得J有或起作用最小并求得回归参量(θ)

作曲预测有或起作用H

Logistic回归纵然名字里带“回归”,但在世界上这是一种归类方式。,它次要用于两个归类成绩(也执意说,要不是T)。,辨别是非代表两个类别),合乎逻辑的推论是,应用Logistic有或起作用(或S型有或起作用)。,有或起作用电视节目的总安排为:

Sigmoid 效能是独身非常赞许地标致的S形。,如次图所示(是人维基百科):

 

在左边的涌现是独身线形的方针决策边地的。,右图是独身非线形的方针决策边地的。。


发生着的线形的边地的的侦查,边地的的电视节目的总安排如次:

作曲预测有或起作用:


有或起作用牺牲具有特别的意思,它表现取1的果实的概率。,合乎逻辑的推论是,将输出X归类为类别1和类别0的概率。:


作曲失去有或起作用J

本钱有或起作用和J有或起作用如次,它们是在极大似然推断的根据导出的。。



上面是引出课程的独有的代表。:

(1)可以写成表格。:

取似然有或起作用为:


对数似然有或起作用:


最大似然推断是资格变憔悴θ,确实,梯度法可以用来处理如此成绩。,所接收的θ是所需的最适度参量。。已经,在安得烈 在NG课程中把它作为下独身,即:


由于负系数- 1 / m乘以,因而采取最小的θ是必要的最适度参量。

梯度下斜法的最小的

θ花样翻新课程:

theta花样翻新课程可以写成:

 

数字化矢数字化

矢数字化采取矩阵运算替代圆运算。,理想化计算课程,繁殖效率。

如上式,是一项以知识为基础(…)是独身加在一起的课程。,很显然,必要独身for句子来圆M次。,合乎逻辑的推论是没完整如愿以偿矢数字化。。

矢数字化课程的代表:

商定的拖裾知识的矩阵电视节目的总安排如次,X的每个行动的锻炼范本,每个列的值意见分歧。:

G(a)的参量A是列航向。,合乎逻辑的推论是,当G有或起作用时,列航向应被证实作为参量。,复回列航向。从上可知可由一次计算。

θ花样翻新课程可以更顶替:


归纳起来,θ花样翻新后的矢数字化测度如次:

(1)追求

(2)追求

(3)追求

有规律的化有规律的化

过适宜的成绩

属于线形的回归或逻辑回归的失去有或起作用指派的典范,能够有很多效能的量。,有些分量很小。,致使越过适宜的(越过适宜的锻炼知识),繁殖典范的复杂的事物,泛化性能差(预测未知知识的性能)。

上面的左图被低估了,中间物图形的恰当适宜的,右图是过适宜的。


成绩的次要原因

越过适宜的的成绩时而来源于这样的特点。。

处理方式

1)举起特点定量。,纵然如此特点是晴朗的选择的。

2)有规律的化(当特点较多时更无效)

有规律的化方式

有规律的化是作曲风险最小量谋略的如愿以偿,在体验风险中举起了独身有规律的化项或惩办项。。有规律的化项普通是C典范的减轻递加有或起作用。,典范越复杂,有规律的化项越大。

从房价预测成绩谈起,这次采取的是多词学名的回归。左图遵从的适宜的,右图是过适宜的。


目镜视域,倘若人们想处理如此样板打中过适宜的成绩,最好能淘汰产生,也执意说,让。假定人们是对的停止惩办,使它很小,独身复杂的处理办法是对原始本钱有或起作用加两个小惩办。,拿 … 来说:


这是最小量本钱有或起作用的时辰。,

任命可以采取意见分歧的电视节目的总安排。,在回归成绩中取平方失去,独身参量的L2规范,也可以采取L1规范。当平方失去时,典范的失去有或起作用被改变为:


λ是独身有规律的项系数:

  • 倘若它是独身巨万的牺牲,对典范复杂的事物的代表是独身巨万的惩办。,适宜的知识放弃的惩办很小,因而它无能力的超越知识,锻炼知识的抵消较大。,未知知识的小方差,但能够会涌现一种不合宜的景象。;
  • 倘若它的牺牲很小,解说更注意锻炼知识的适宜的,锻炼知识的抵消会很小。,但这能够会致使越过适宜的。。

有规律的化后梯度下斜算法的花样翻新:


有规律的化后的线形的回归的Normal 方程的表情是:


另一个最佳化算法

  • Conjugate gradient 方式(共轭的梯度法)
  • Quasi-Newton 方式(拟牛顿法)
  • BFGS method
  • L-BFGS(Limited-memory BFGS)

后两个用拟牛顿方式使通俗化。,与梯度下斜算法关系上地,这些算法的优点是:

  • 优先,无手工生产选择测度;
  • 以第二位,通常比梯度下斜算法快;

已经缺陷更复杂。。

多类归类成绩

属于多类归类成绩,可以将其看做成二类归类成绩:保存在监狱里独身,剩的是另独身班。

每堂课 i 锻炼独身逻辑回归典范的归类器,预测Y = i的概率;属于独身新的输出变量x, 每个类辨别是非停止预测。,取概率最大的多么类作为归类果实:


发表评论

电子邮件地址不会被公开。 必填项已用*标注