首页百科金融统计文章详细

logistic回归

外汇网2021-06-19 00:08:46 161
简述

logistic回归又称logistic回归分析,首要在大疫情学中应用较多,比较常用的情形是探索某疾病的危险原因,依据危险原因预期某疾病发生的几率,等等。比如,想探讨胃癌发生的危险原因,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是能否胃癌,即“是”或“否”,为两分类变量,自变量就可以包含很多了,比如年纪、性别、饮食习惯、幽门螺杆菌受染等。自变量既可以是接连的,也可以是分类的。通过logistic回归分析,就可以大差不差了解见底哪些原因是胃癌的危险原因。

logistic回归与多重线性回归事实上有很多相同之处,最大的区别就在于他们的因变量不同,其余的基本都差不多,正是由于这样,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式差不多都差不多,不同的就是因变量不同,假使是接连的,就是多重线性回归,假使是二项分布,就是logistic回归,假使是poisson分布,就是poisson回归,假使是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。

logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也愈加容易解释。所以事实中最为常用的就是二分类的logistic回归。logistic回归的首要用途

一是寻求危险原因

正如上面所说的寻求某一疾病的危险原因等。

二是预期

假使已经建立了logistic回归模型,则可以依据模型,预期在不同的自变量情形下,发生某病或某种情形的几率有多大。

三是判别

事实上跟预期有些相似,也是依据logistic模型,分析某人属于某病或属于某种情形的几率有多大,也就是看一下这个人有多大的机会性是属于某病。

这是logistic回归最常用的三个用途,事实中的logistic回归用途是极为大量的,logistic回归差不多已经成了大疫情学和医学中最常用的分析方法,由于它与多重线性回归对比有很多的优势,这些优势将于以后的文章中一一介绍。本篇文章首要是先让大家对logistic回归有一个初步的了解,以后将对该方法执行详细的阐述。案例分析

有关富士康跳楼曲线的Logistic回归分析 来源: 黄睿昆无上界的日志 今天一早的流力课上,发现富士康11连跳了。

正常人都能知道这绝对不是偶然,至于这后面有什么?我一开始也不甚清楚。

然后一篇突如其来的实验数据被发还给我,然后看着我亲手绘制的磁滞回线。有了主意。

首先,我查到了有记载以来,所有富士康雇员自杀的日期:

列出如下表格:(以07年6月18号,第一例自杀案例为原点,迄今(10年5月25号)1072日)

(自杀时间x/d) 0 75 272 758 794 950 997 1003 1015 1023 1024 1024 1053 1061 1072

(总计自杀人数y)1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

在MATLAB中容易作出散点图:

可见这是一个对数上涨的曲线。

对此我觉得自杀和大疫情一样,自杀也是一种病,而且是一种可以传染的疾病。

所以其上涨曲线与对数上涨很靠近。

对其做对数函数拟合:

General model Exp2:

f(x) = a*exp(b*x) + c*exp(d*x)

Coefficients (with 95% confidence bounds):

a = 7.569e-007 (-6.561e-006, 8.075e-006)

b = 0.01529 (0.006473, 0.0241)

c = 1.782 (0.5788, 2.984)

d = 0.001075 (2.37e-005, 0.002125)

Goodness of fit:

SSE: 8.846

R-square: 0.9684

Adjusted R-square: 0.9598

RMSE: 0.8968

可见有关度0.96也是非常高的。

但是和所有疾病一样,一旦其事件引起了民众的关注,则各方的反馈作用,将障碍其继续上升。

所以,和很多大疫情分析一样,该曲线很有机会呈S型。对于该曲线的分析,运用Logistic回归。

首先我们如果Logis(B,x)=F(x),当中B为参数数组,则由经验和或许的微分方程关系,回归曲线应当为

S(x)=m*Logis(B,x+t)/(n+Logis(B,x+t))格式

受于当Logis(B,x)较小时S(x)=Logis(B,x),则可以觉得f(x)的参数可以直接引入S(x)作为一种近似,而对于m,n的确定,我以1为间隔,画出m*n=40*20的所有曲线,

选出其中最相符的的一条(m=22 n=20 t=50):

富士康跳楼曲线

自此可以见,富士康的跳楼人数最终会平稳在在22人左右。。。自此依然不会胜过全国平均跳楼率。

对此曲线的分析,我们借鉴微生物生长曲线的方法,将其分为:

迟缓期,对数期,平稳期,衰亡期

迟缓期,富士康雇员尽管承受很大的工作阻力,可是其本身的心理并没有崩溃,所以跳楼该种事件发生频率很少,而且呈线性关系,表明没有跳楼者承受别的跳楼者的影响。

对数期,富士康雇员受于承受工厂重大的工作阻力,以及来自社会各方的阻力,甚至加之上级的欺压,心理防线逐渐崩溃,无处发泄。而一旦有想不开者跳楼,则为其给予了一个发泄的模板,该种情形下,很容易有相同历经的雇员收到跳楼者的影响,进而一个接一个的跳楼自杀。当前的富士康正处在此期间

平稳期,受于社会、媒体各方面的关注,以及社会,广大人民对工厂的阻力,工厂必须作出更改,雇员的心理阻力逐渐得到放出,进而雇员跳楼亲生频率会迅速下滑。

衰亡期,这个。。。受于资料长期保存,不小心遗失;或者某机关的辟谣;或者所有人的健忘,致使跳楼人数被修正,被降低。

其实,社会处在这个核心期间,该种事情的发生不可避免,然而,我们应当引起充足的重视,对于跳楼者,迄今没有一个公开的调查结果。对事件也没有一个认定。各方都在推卸责任。我相信跳楼者中不仅只有爱情受挫的人。也不仅只有工作阻力太大的人。他们也许有人导致为了引起充足的重视,让我们把目光转向他们,转向富士康,转向如此的大型生产力密集型企业,然后问问:这究竟是怎么一回事?

标签:

随机快审展示
加入快审,优先展示

加入VIP