正态分布
正态分布的由来
normal distribution一种几率分布。正态分布是具有两个参数μ和σ2的接连型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。 服从正态分布的随机变量的几率规律为取与μ邻近的值的几率大 ,而取离μ越远的值的几率越小;σ越小,分布越汇聚在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:有关μ对称,在μ处高达最大值,在正(负)无穷远处取值为0,在μ±σ处有转折点。它的形状是中间高两边低 ,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有相似的几率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,比如,多元正态分布的边沿分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从其他角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的几率分布都可以近似地用正态分布来描述。比如,在生产条件不变的情形下,产品的强力、抗压力度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的进展分量,等等。一般来看,假使一个量是由很多微小的独立随机原因影响的结果,那就可以觉得这个量具有正态分布(见中心极限定理)。从理论向上瞧,正态分布具有很多不错的性质 ,很多几率分布可以用它来近似;仍有一部分常用的几率分布是由它直接导出的,比如对数正态分布、t分布、F分布等。
正态分布应用最大量的接连几率分布,其特质是“钟”形曲线。
附:该种分布的几率密度函数为:(如右图)
正态分布
1.正态分布:若已知的密度函数(频率曲线)为正态函数(曲线)则称已知曲线服从正态分布,记号 ~ 。其中μ、σ2 是两个不确定常数,是正态分布的参数,不同的μ、不同的σ2对应不同的正态分布。
正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
2.正态分布的特质:服从正态分布的变量的频数分布由μ、σ完全决定。
(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。
(2)σ描述正态分布资料报告分布的离散程度,σ越大,报告分布越分散,σ越小,报告分布越集中。 也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
正态曲线下面积分布
1.事实工作中,正态曲线下横轴上一定区间的面积反应该区间的例数占总例数的百分比,或变量值落在该区间的几率(几率分布)。不同 规模内正态曲线下的面积可用公式计算。
2.几个重要的面积比例轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
标准正态曲线
1.标准正态分布是一种特殊的正态分布,标准正态分布的μ和σ2为0和1,一般用ξ(或Z)表明服从标准正态分布的变量,记为 Z~N(0,1)。
2.标准化变换:此变换有特性:若原分布服从正态分布 ,则Z=(x-μ)/σ ~ N(0,1) 就服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的几率值。故该变换被称为标准化变换。
3. 标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(目前值)规模内的面积比例 。
一般正态分布与标准正态分布的转化
受于一般的正态总的 其图像不一定有关y轴对称,对于任一正态总的 ,其取值差于x的几率 。只要会用它求正态总的 在某个特定区间的几率即可。 “小几率事件”和如果检验的基本思想“小几率事件”一般指发生的几率差于5%的事件,觉得在一次试验中该事件是差不多不或许发生的。该种认识便是执行推断的出发点。有关这一点我们要有下方两个方面的认识:一是这里的“差不多不或许发生”是针对“一次试验”来看的,由于试验次数多了,该事件诚然是很或许发生的;二是当我们运用“小几率事件差不多不或许发生的原理”执行推断时,我们也有5%的犯错误的机会。
一般正态分布与标准正态分布的区别与联系
正态分布也叫常态分布,是接连随机变量几率分布的一种,自然界、人类社会、心理和教育中大批现象均按正态形式分布,比如能力的高低,学生成绩的好坏等都属于正态分布。标准正态分布是正态分布的一种,具有正态分布的所有特质。所有正态分布都可以通过Z分数公式转换成标准正态分布。
两者特点比较:
(1)正态分布的形式是对称的,对称轴是经历平均数点的垂线。
(2)中央点最高,然后渐渐向两侧下滑,曲线的形式是先向内弯,再向外弯。
(3)正态曲线下的面积为1。正态分布是一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。标准正态分布是正态分布的一种,其平均数和标准差均为固定的,平均数为0,标准差为1。
(4)正态分布曲线下标准差与几率面积有固定数量关系。所有正态分布都可以通过Z分数公式转换成标准正态分布。首要特质
1、集中性:正态曲线的高峰位于正中央,即均数所处的位置。
2、对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧渐渐均匀下滑。
4、正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
5、u变换:为了便于描述和应用,常将正态变量作报告转换。发展
正态分布是最重要的一种几率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年第一次提出的,但受于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,他使正态分布同期有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。在高斯刚做出这个发现之初,也许民众还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯迅速得知高斯的工作,并即将将其与他发现的中心极限定理联系起来,为此,他在望将发表的一篇文章(发表于1810年)上加之了一点补充,表示如若误差可看成很多量的再加上,依据他的中心极限定理,误差理应有高斯分布。这是有记录以来首次提及所谓“元误差学说”——误差是由大批的、由种种原因造成的元误差再加上而成。后到达1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。
其实,他提出的形式有很大大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差” 之和,每只取两值,其几率均为1/2,自此出发,按狄莫佛的中心极限定理,立刻就得出误差(近似地)服从正态分布。拉普拉斯所表示的这一点有巨大的意义,在于他给误差的正态理论一个更自然合理、更让人信服的解释。由于,高斯的说法有一点循环论证的气味:受于算术平均是优良的,推出误差务必服从正态分布;倒过来,由后一结论又推出算术平均及最小二乘预期的优良性,故务必认定这二者之一(算术平均的优良性,误差的正态性) 为出发点。但算术平均见底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理论把这断裂的一环连接起来,使之形成一个和谐的整体,实有着极巨大的意义。应用
总括
1. 预期频数分布 一个服从正态分布的变量只要知道其均数与标准差就可依据公式即可预期任意取值规模内频数比例。
2. 策划参考值规模
(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
3. 质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,以 作为上、下控制值。如此做的根据是:正常情形下测量(或实验)误差服从正态分布。
4. 正态分布是很多统计方法的理论基础。 检验、方差分析、有关和回归分析等多种统计方法均要求分析的指标服从正态分布。很多统计方法尽管不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因此大样本时这些统计推断方法也是以正态分布为理论基础的。
预期正态分布资料的频数分布
例1.10 某地1993年抽样调查了100位18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①预期该地18岁男大学生身高在168cm下方者占该地18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s规模内18岁男大学生占该地18岁男大学生总数的事实百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量
n较大,按式(3.1)用样本均数X和标准差
S分别代替μ和σ,求得
u值,
u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧寻到-1.1,表的上方寻到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm下方者,约占总数12.10%。其它计算结果见表3。
表3 100位18岁男大学生身高的事实分布与理论分布
| 分布
x+-s |
身高规模(cm) |
事实分布
人数 |
事实分布
百分数(%) |
理论分布(%) |
| X+-1s |
168.69~176.71 |
67 |
67.00 |
68.27 |
| X +-1.96s |
164.84~180.56 |
95 |
95.00 |
95.00 |
| X+-2.58s |
162.35~183.05 |
99 |
99.00 |
99.00 |
策划医学参考值规模
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经报告转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
医学参考值规模亦称医学正常值规模。它是指所谓“正常人”的解剖、生理、生化等指标的波动规模。策划正常值规模时,首先要确定一批样本含量充足大的“正常人”,所谓“正常人”不是指“健康人”,而是指消除了影响所研究指标的疾病和相关原因的同质人群;其次需依据研究目的和运用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;依据指标的事实用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。此外,还要依据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:X+-u(u)^S单侧上界:X+u(u)^S,或单侧下界:X-u(u)^S
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1[X(lgx)+-u(u)S(lgx)];单侧上界:lg-1[X(lgx)+u(u)S(lgx)],或单侧下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用
u值可依据要求由表4查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:
P2.5和
P97.5;单侧上界:
P95,或单侧下界:
P5。
表4常用
u值表
| 参考值规模(%) |
单侧 |
双侧 |
| 80 |
0.842 |
1.282 |
| 90 |
1.282 |
1.645 |
| 95 |
1.645 |
1.960 |
| 99 |
2.326 |
2.576 |
统计方法的理论基础
如t分布、F分布、分布均为在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。另外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。
几率论中最重要的分布
正态分布有极其大量的事实背景,生产与科学实验中很多随机变量的几率分布都可以近似地用正态分布来描述。比如,在生产条件不变的情形下,产品的强力、抗压力度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的进展分量,等等。一般来看,假使一个量是由很多微小的独立随机原因影响的结果,那就可以觉得这个量具有正态分布(见中心极限定理)。从理论向上瞧,正态分布具有很多不错的性质 ,很多几率分布可以用它来近似;仍有一部分常用的几率分布是由它直接导出的,比如对数正态分布、t分布、F分布等。
首要内涵
在联系自然、社会和思维的实践环境下,我们以正态分布的本质为基础,以正态分布曲线及面积分布图为表征(以后谈到正态分布及正态分布论就要显现此图),执行抽象与提高,抓住其中的首要哲学内涵,归纳正态分布论(正态哲学)的首要内涵如下:
整体论
正态分布启示我们,要用整体的看法来说事物。“系统的整体观念或总的观念是系统概念的精髓。” 正态分布曲线及面积分布图由基区、负区、正区三个区构成,各区比重不一样。用整体来说事物才可看清楚事物的本来面貌,才可得出事物的根本特性。不能只见树木不见森林,也不能以偏概全。另外整体大于部分之和,在分析各部分、各层次的基础上,还要从整体看事物,这是由于整体有不同于各部分的特点。用整体观来说世界,就是要立足在基区,放眼负区和正区。要目睹首要方面,还要目睹次要方面,既要目睹积极的方面还要目睹事物消极的一面,目睹事物前进的一面还要目睹落后的一面。片面看事物必然目睹的是偏态或者是变态的事物,不是真实的事物自身。
着重论
正态分布曲线及面积分布图非常清晰的展示了着重,那就是基区占68.27%,是主体,要着重抓,另外95%,99%则展示了正态的全面性。认识世界和改造世界一定要住住着重,由于着重就是事物的首要冲突,它对事物的成长起首要的、支配性的作用。抓住了着重才可一举其纲,万目皆张。事物和现象纷繁复杂,在千头万绪中不抓住首要冲突,就会深陷无限琐碎当中。受于我们时间和精力的相对有限性,出于效率的追求,我们更应当抓住着重。在正态分布中,基区占据主体和着重。假使我们结合20/80法则,我们更可以大胆的把正区也可以看做是着重。
发展论
联系和发展是事物发展改变的基本规律。任何事物都有其造成、发展和灭亡的历史,假使我们把正态分布看做是任何一个系统或者事物的成长过程的话,我们显著的目睹这个过程历经着从负区到基区再到正区的过程。无论是自然、社会依旧人类的思维都显著的遵循这如此一个过程。精准的把握事物或者事件所处的历史过程和阶段极大的有利于掌握我们对事物、事件的特质和性质,是我们分析困难,采取对策和处理困难的重要基础和根据。发展的阶段不同,性质和特质也不同,分析和处理困难的办法要与此相适应,这就是具体困难具体分析,也是解放思想、实事求是、与时俱乐进的精髓。正态发展的特点还启示我们,事物发展大均为渐进的和累积的,走渐进发展的道路是事物发展的常态。比如,遗传是常态,变异是非常态。
总之,正态分布论是科学的世界观,也是科学的方法论,是我们认识和改造世界的最重要和最根本的工具之一,对我们的理论和实践有重要的指导意义。以正态哲学认识世界,能更好的认识和把握世界的本质和规律,以正态哲学来改造世界,能更好的在尊重和利用客观规律,更有效的改造世界。研究过程
正态分布的概念及特质:
一、正态分布的概念
由一般分布的频数表资料所绘制的直方图,图(1)可以看出,高峰位于中部,左右两侧大差不差对称。我们设想,假使观察例数渐渐增多,组段持续分细,直方图顶端的连线就会渐渐形成一条高峰位于中央(均数所在处),两侧渐渐减弱且左右对称,不与横轴相交的光滑曲线图(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。受于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
为了应用方便,常对正态分布变量
X作变量变换。
该变换使以前的正态分布转化为标准正态分布 (standard normal distribution),亦称
u分布。
u被称为标准正态变量或标准正态离差(standard normal deviate)。二、正态分布的特质:
1.正态曲线(normal curve)在横轴上方均数处最高。
2.正态分布以均数为中心,左右对称。
3.正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。一般用N~(μ,σ2)表明均数为μ,方差为σ2的正态分布。用N(0,1)表明标准正态分布。
4.正态曲线下面积的分布有一定规律。事实工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便预期该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的几率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布做出概约预期。
查附表1应注意:①表中曲线下面积为-∞到
u的左侧总计面积;②当已知μ、σ和
X时先按式u=(X-μ)/σ求得
u值,再查表,当μ、σ未知且样本含量
n充足大时,可用样本均数X1和标准差
S分别代替μ和σ,按u=(X-X1)/S式求得
u值,再查表;③曲线下对称于0的区域面积相等,如区间(-∞,-1.96)与区间(1.96,∞)的面积相等,④曲线下横轴上的总面积为100%或1。
图2 正态曲线与标准正态曲线的面积分布
第二节 正态分布的应用某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经报告变换后可形成正态或近似正态分布,故可按正态分布规律处理。
考试成绩及学生综合素质研究
教育统计学 统计规律显示,学生的智力水平,包含学习能力,事实动手能力等呈正态分布。因此正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准觉得:考生成绩分布情形直方图,基本呈正态曲线状,属于好,假使略呈正(负)态状,属于中等,假使呈严重偏态或无规律,就是差的。 生产与科学实验中很多随机变量的几率分布都可以近似地用正态分布来描述。
从几率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是务必考虑人与物的本质不同,以及教育的有所作为可以使“随机”承受干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。当下很多教育专家(如上海顾泠沅 、美国布鲁姆等)已经通过实践论证,教育是值得大有作为的,可以做到大部分学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期承受“中间高、两头低”标准的影响,制约了教师的作为,压抑了多数学生能够学好的信心。这是很大的误会。 一般正态曲线有一条对称轴。当某个分数(或分数段)的考生人数最多时,对应曲线的最高位,是曲线的顶点。该分数值在横轴上的对应点与顶点连接的线段就是该正态曲线的对称轴。考生人数最多的值是最大值。我们注意到,成绩曲线或直方图事实上很少对称的,称之为峰线更合适。