Logistic Regression的一些常见误区

Introduction

之所以要花时间写这么一个东西是因为我发现很多非统计专业的人很容易被一些网站上关于logistic regression和linear regression的对比的说明所误导。比如说下面这个非常出名的网站

NCSU, Dave Garson 有这么一段说明:

“Unlike OLS regression, however, logistic regression does not assume linearity of relationship between the independent variables and the dependent, does not require normally distributed variables, does not assume homoscedasticity, and in general has less stringent requirements. It does, however, require that observations be independent and that the independent variables be linearly related to the logit of the dependent.”

我可以负责任的说,上面这段话完全是在误导初学者。

  1. 它给人一个印象,就是LR比OLS要更加”nonparametric”, 也就是说假设少。其实这完全是错误的认识。LR是general linear model的一种,它基于一个严格的parametric model,本质上仍然是线性的,只不过是这个线性假设被一个非线性的link function, logit transformation 给藏起来了。 我举一个稍微简单一点的类比,有时候数据拿来了我们要做log transformation对吧?做完log transformation之后我们再做OLS, 我们也可以给它取个漂亮的名字比如说LOLSR (log ordinary least square regression),那么按照上面那个网站的说法,我们一样可以说LOLSR “does not assume linearity of relationship between the independent variables and the dependent, does not require normally distributed variables, does not assume homoscedasticity”.
  2. 这些误导性的说法造成了初学者这么一个映像,只要Y是binary的,那么就用LR, 是连续的,就用OLS regression。特别是LR压根没有模型假设,更不用做goodness of fit 检验。
  3. 那么正确的说法是什么?我觉得应该像这样: “Unlike OLS regression, LR (或者我生造出来的那个LOLSR) assumes a transformed linear relationship between the independent and dependent variables; is based on a hidden normal model, and assumes homoscedasticity in a not-so-apparent way.” “In general, it is as much parametric as an OLS model, just in a different way.”
  4. 还有一些小一点的错误,比如说 “the independent variables be linearly related to the logit of the dependent.”, 其实应该是X linearly related to logit of the probability of the dependent variable being in the “event” category”. 另外我没有提到的一点,上面的网站还说LR 的参数不能直接解释。这也是不对的,β1 有一个非常直观的几何解释,我下面会谈到。

The hidden Gaussian model of Logistic Regression

上面我说LR基于一个hidden normal model, 下面我就详细的说一下这个model. 我觉得对于初学者来讲,用这个角度来看LR比较直观。

假设我们现在对一般的人群测量体重(X, the only independent variable)。当然我们知道,男性和女性的平均体重不大一样,所以我们也记录个体的性别。性别是个binary variable, 我们可以定义 Y=0为女性,Y=1为男性。

对于这样的一个问题我们可以做一个简单的,基于正态分布的模型如下:
f(X|Y=0) \sim N(\mu_{0}, \sigma^{2}); \quad f(X|Y=1) \sim N(\mu_{1}, \sigma^{2}).
这里我们假设了:

  1. 男性体重和女性体重都为正态分布;
  2. 两者的方差相等(homoscedasticity assumption);
  3. 两者的均值不等。

套用统计术语,这是一个非常简单的mixture model. 好了,现在假设说我们观察到了一个人的体重X=x,但不知道他/她的性别Y。有没有什么办法基于 x 来估计 Y=0 或者 Y=1 的概率?答案是贝叶斯公式。

E(Y|X=x) = P(Y=1|X=x) = p(x)  =\frac{\pi_{1}f_{1}(x)}{\pi_{0} f_{0}(x) + \pi_{1}f_{1}(x)},

\frac{p(x)}{1-p(x)} = \frac{\pi_{1}f_{1}(x)}{\pi_{0}f_{0}(x)} = \frac{\pi_{1}}{\pi_{0}} \exp\left( \frac{2(\mu_{1}-\mu_{2})x -\mu_{1}^{2}+\mu_{2}^{2}} {2\sigma^{2}} \right),

\mathrm{logit}(p(x)) = \beta_{0} + \beta_{1}x.

这里 p(x)=P(Y=1|X=x) 指的是在 X=x 下这个人是男性的条件概率, \pi_{0}, \pi_{1} 指的是人群中女性/男性的比例。 两个逻辑回归系数的具体形式是 \beta_{0} = \log \pi_{1} - \log \pi_{0} + \frac{\mu_{2}^{2} - \mu_{1}^{2}}{2\sigma^{2}}\beta_{1} = \frac{\mu_{1} - \mu_{2}}{\sigma^{2}}.

换一句话说,LR 正好就相当于这么一件事:知道了某些(正态分布并且等方差的)连续的变量,如何用非线性回归来估计这些个体的两个 “类”。

同样的,multinomial regression一样有以上的解释,只不过类的个数变成大于2了。 Ordinal regression 稍微复杂一些,我们还要假设个体属于这些类的概率有一定的关系,但大体思路仍然如此。

The Intrinsic Symmetry of Logistic Regression

这一小节稍微抽象一点,但你花点时间看明白了会对你理解各种各样的回归有更加深刻的理解,总之时间不会白花 :-)

很多回归问题都有内在的对称性。首先看看OLS regression, Y = \beta_0 + \beta_1 X. 这个公式在仿射变换群作用下不变(… is equivariant under the affine group)。这里的意思是这样的:假设我们对 X 做一个仿射变换 X' = a + bX, 那么有一个很简单的一一对应的反变换能求出 Y 相对于 X' 的回归系数 \beta'_0\beta'_1. 尤其是新的斜率系数非常简单,就等于 \beta'_1 = \beta_1/b. 基于这种对称性,我们可以找到一个”标准回归”,只要对它进行回归或者解释就行了。严格来讲这里的标准,指的是仿射变换下的不变量。比如说我们可以取作一个z-transformation之后的X, 也就是说 X'_i = \frac{X_i - EX}{\sigma(X)}. 拿 Y 和 X'_i 来做回归本质上等价于之前的老的回归。

套用上面的例子,LR也有内在对称性,而且也是对于仿射变换对称。这一点都不奇怪,因为本质上,LR或者任何一个别的generalized linear model还是一个线性模型。所以说LR的标准回归也是基于z-transformation之后的回归。

根据我们上面的模型,X'_i = \frac{X_i - EX}{\sigma(X)} 服从混合正态分布,男性/女性的单独分布都是正态而且方差为1. 这两个分布中点之间的距离为 d = \frac{\mu_0 - \mu_1}{\sigma}. 而新的 \beta'_1 =  \sigma \beta_1  = \frac{\mu_{1} - \mu_{2}}{\sigma^{2}} 恰好就等于 d. 也就是说, 标准化之后的LR生成的 \beta' 有明确的几何意义,那就是两个正态分布中点的距离。

https://qiuxing.files.wordpress.com/2011/03/wpid-logistic1.png

在这幅图上,两个正态分布分别对应于标准化后的两个类;双峰之间的距离为 d = \beta', 那条蓝色虚线代表了一个具体的观测到的(标准化后) X'=3.0 ,红色/黑色三角分别对应于 f(X'=3.0|Y=0)f(X'=3.0|Y=1). Odds ratio就是这两个值的ratio。

,

  1. #1 by 小雨 on 三月 31, 2011 - 6:52 下午

    其实我觉得,他那一段话不能够算真正的误导初学者,因为他说其实都是对的。
    美国这里对于数学和统计的理解,因为没有像中国学生那样有很坚实的数学基础,都是尽量简化的。
    举一个最简单的例子,我们学习probability density function的时候强调又强调,continuous variable的pdf不是一个概率,而是一个极限;这跟categorical variable的pdf是有本质区别的。但是当我在课堂上这样给学生讲的时候,他们就非常非常的迷惑。当他们一再把一个连续变量的pdf写成概率而被我扣分的时候,我们系的教授却出来说,他们这样写虽然不对,但是可以帮助他们理解这个概念,是可以原谅的。我彻底无语。
    还有一点,关于你的第四点,他并没有说错。线性关系是针对logit的,不是“logit of odds ratio”——logit的本身就是log of odds的意思。

  2. #2 by qiuxing on 四月 1, 2011 - 5:14 上午

    谢谢评论。我说他误导而没直接说他错,就是因为他列的那几点完全看逻辑没问题,但那样写非常容易让人得出一种logistic regression的model assumption少的错误的结论。其实GLM,还有categorical analysis的模型化假设并不比线性回归少。

    另外谢谢你指出的我第四点那个小错误,那是一个笔误。我本来的意思是想说明LR的精髓在于估计的目标并不是dependent的一个”近似值”,而是它的一个概率。这个区别从应用的角度来讲是相当,相当重要的。当然,你要从GLM的理论来讲到反而不那么重要,因为这里这个P(Y=1)正好就是E(Y|X)。但在实践当中一个正态的条件均值和一个binary r.v.的条件均值的解释差远了去了。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s

%d 博主赞过: