首页百科金融统计文章详细

箱线图

外汇网2021-06-19 12:38:17 195
简介

箱线图(Box plot) (又称盒形图、箱图、盒子图)

简单箱线图图形

简单箱线图由五部分构成,分别是最小值、中位数、最大值和两个四分位数。

目录

1 箱线图简述

2 箱线图的绘制步骤

3 箱线图的功能

4 箱线图应用举例绘制步骤

1、画数轴,度量单位大小和报告批的单位统一,起点比最小值稍小,长度比此数据批的全距稍长。

2、画一个矩形盒,两端边的位置分别对应报告批的上下四分位数(Q1和Q3)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。

3、在Q3+1.5IQR(四分位距)和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在F+3IQR和F-3IQR处画两条线段,称其为外限。处在内限以外位置的点表明的报告均为异常值,其中以内限与外限之间的异常值为平和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。

4、从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表明该批报告正常值的分布区间。

5、用“〇”标出平和的异常值,用“*”标出极端的异常值。相同值的报告点并列标出在与一报告线位置上,不同值的报告点标在不同报告线位置上。至此一批报告的箱线图便绘出了。统计软件绘制的箱线图一般没有标出内限和外限。功能

箱线图作为描述统计的工具之一,其功能有独特之处,首要有下方几点:

1.直观明了地识别报告批中的异常值

一批报告中的异常值值得关注,忽略异常值的存在是十分危险的,不加刨去地把异常值包含进报告的计算分析过程中,对结果会导致不良影响;重视异常值的显现,分析其造成的原因,常常形成发现困难从而改进决策的节骨眼。箱线图为我们给予了识别异常值的一个标准:异常值被定义为差于Q1-1.5IQR或大于Q3+1.5IQR的值。尽管该种标准稍微任意性,但它来因为经验分析,经验显示它在处理需要特别注意的报告方面表现不错。这与识别异常值的经典方法有些不同。众所周知,基于正态分布的3σ法则或z分数方法是以假定报告服从正态分布为前提的,但事实报告往往并没有严格服从正态分布。它们分析异常值的标准是以计算报告批的均值和标准差为基础的,而均值和标准差的耐抗性极小,异常值自身将对它们造成较大影响,如此造成的异常值个数不会多于总数0.7%。显然,应用该种方法于非正态分布报告中分析异常值,其有效性是有限的。箱线图的绘制依靠事实报告,不需要事先假定报告服从特定的分布形式,没有对报告作任何制约性要求,它导致真实直观地表现报告形状的本来面貌;另一面,箱线图分析异常值的标准以四分位数和四分位距为基础,四分位数具有适当的耐抗性,多达25%的报告可以变得任意远而不会很大地扰动四分位数,所以异常值不能对这个标准施加影响,箱线图识别异常值的结果比较客观。自此可见,箱线图在识别异常值方面有适当的优越性。

2.利用箱线图分析报告批的偏态和尾重

比较标准正态分布、不同自由度的t分布和非对称分布报告的箱线图的特质,可以发现:对于标准正态分布的大样本,只有 0.7%的值是异常值,中位数位于上下四分位数的中央,箱线图的方盒有关中位线对称。选取不同自由度的t分布的大样本,代表对称重尾分布,当t分布的自由度越小,尾部越重,就有越大的几率观察到异常值。以卡方分布作为非对称分布的例子执行分析,发现当卡方分布的自由度越小,异常值显现于一侧的几率越大,中位数也越偏离上下四分位数的中心位置,分布偏态性越强。异常值汇聚在较小值一侧,则分布呈现左偏态;;异常值汇聚在较大值一侧,则分布呈现右偏态。下表列出了几种分布的样本报告箱线图的特质(样本报告由SAS的随机数生成函数自动生成),验证了上述规律。这个规律揭示了报告批分布偏态和尾重的部分信息,即使它们不能给出偏态和尾重程度的精确度量,但可作为我们粗略预期的根据。

3.利用箱线图比较几批报告的形状

同一数轴上,几批报告的箱线图并行排列,几批报告的中位数、尾长、异常值、分布区间等形状信息便昭然若揭。在一批报告中,哪几个报告点出类拔萃,哪些报告点表现差于一般,该数据点放在与类其它群体中处在什么位置,可以通过比较各箱线图的异常值看出。各批报告的四分位距大小,正常值的分布是集中依旧分散,观察各方盒和线段的长短便可明了。每批报告分布的偏态如何,分析中位线和异常值的位置也可预期出来。仍有一部分箱线图的变种,使报告批间的比较愈加直观明白。比如有一种可变宽度的箱线图,使箱的宽度正比于批量的平方根,进而使批量大的报告批有面积大的箱,面积大的箱有适当的视觉效果。假使对同类群体的几批报告的箱线图执行比较,分析评价,便是常模参照解释方法的可视图示;假使把受测者报告批的箱线图与外在效标报告批的箱线图比较分析,便是效标参照解释的可视图示。箱线图结合这些分析方法用于质量管理、人事测评、探索性报告分析等统计分析活动中去,有利于分析过程的简便快捷,其作用显而易见。应用举例

现有某直销中心30位雇员的薪资测算报告两批,第一批为薪资调整前的报告,第二批为薪资调整后的报告,绘出它们的箱线图(如下图),执行比较,可以很容易地得出:薪资调整前,总的水平在752元左右,四分位距为307.5,没有异常值。经历调整后,箱线图表明,第2、29、10、24、27号为平和的异常值,第26、30、28号为极端的异常值。为何会显现异常值呢?经历更深一步分析知道,第2、29、10、24号雇员受于技能强、工龄长、积攒贡献大、表现较好,劳苦功高,理应得到较高的报酬;第27、26、30、28号职工则由于技能偏低、工龄短、积攒贡献小且表现较差,得到的薪资较低,甚至连正常水准也很难高达。这体现了薪资调整的奖优罚劣原则。此外,调整后薪资总的水平比调整前高出270元,四分位距为106,薪资分布比调整前愈加集中,在合适的规模内既拉开了差距,又不至于差距太悬殊,还针对特殊情形执行了特殊处理。该种薪资分布具有激励作用,可以说薪资调整高达预期目的。

箱线图中美不足之处在于它不能供应有关报告分布偏态和尾重程度的精确度量;对于批量较大的报告批,箱线图反应的形状信息愈加模糊;用中位数代表总的平均水准有适当的局限性等等。所以,应用箱线图最好结合其它描述统计工具如均值、标准差、偏度、分布函数等来描述报告批的分布形状。

标签:

随机快审展示
加入快审,优先展示

加入VIP