统计描述

统计描述

它研究如何用科学的方法去搜集、整理、分析经济和社会发展的事实报告，并通过统计所特有的统计指标和指标体系，显示所研究的社会经济现象的范围、水平、速度、比例和效益，以反应社会经济现象发展规律在一定时间、地点、条件下的作用，描述社会经济现象数量之间的关系和变动规律，也是更深一步学习其余有关学科的基础。计量资料统计描述的内容

首要包含平均指标和变异指标的计算、资料分布形态（或特质）的图形表现等。达到描述性统计功能的几个过程

描述性统计指标的计算

描述性统计指标的计算可以用四个不同的过程来达到，它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能规模和具体的操作方法上存在适当的差别，下面我们大约了解一下它们的异同点。

相同点：

他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏报告和有效报告个数等，均可应用by语句将样本分割为若干个更小的样本，以便分别执行分析。 不同点：

（1）means过程、summary过程、univariate过程可以计算样本的偏度（skewness）和峰度（kurtosis），而tabulate过程不计算这些统计量；

（2）univariate过程可以计算出样本的众数（mode），其它三个过程不计算众数；

（3）summary过程实施后不会自动给出分析的结果，须引用output语句和print过程来表明分析结果，而其它三个过程则会自动表明分析的结果；

（4）univariate过程具有统计制图的功能，其它三个过程则没有；

（5）tabulate过程不造成输出资料文件（存储各种输出报告的文件），其它三个均造成输出资料文件。

以上是它们的首要异同点，其它更为具体的异同点需要在事实应用中去体会。掌握了各种过程的异同点，就可以依据具体需要选择最佳的过程执行工作。

统计制图的过程

统计制图的过程均可以达到对样本分布特质的图形表明，一般情形下可以运用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’（代表graph）的差别，其实它们之间（只差一个字母g的过程之间）的统计描述功能是相同的，区别仅在于绘制出的图形的复杂和美观程度。

chart过程和plot过程绘制的图形相似于我们用文本字符堆积起来的图形，只能概括地反应出资料分布的大体形状，事实上这两个过程绘制的图形并没有能称之为图形，由于他根本就没有涉及一般意义上图形的任何一种元素（如颜色、分辨率等）。

而gchart过程和gplot过程给出的是真正意义上的图形，可以用很多的语句和选项来控制图形的各方面的性质和特质。

chart和gchart与plot和gplot的区别则体当下不同的作图功能，前两个过程可以绘制出的图形首要有条形图（包含横条和竖条）、圆图、环形图和星形图等，后两个过程一般用一个记录中的两个变量值表明点的坐标来绘制图形，如散点图和线图等。描述性统计过程的一般格式

means过程的一般格式

width="476" align="">proc means 选项列表； width="476" align=""> by 变量名称（分组变量）； width="476" align=""> class 变量名称（分组变量）； width="476" align=""> freq变量名称（数值变量，用以表明相应记录显现的频数） width="476" align=""> weight变量名称（数值变量，用以表明相应记录的权重系数） width="476" align=""> var 变量名称（待分析的数值变量）； width="476" align="">run；

Proc means 语句后的选项首要用来指定所要计算的统计量，默认情形下，Means过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。class语句所指定的分组变量用来执行分组，而by语句所指定的分组变量是用来将报告分为若干个更小的样本，以便SAS分别在各小样本内执行各自独立的处理。freq语句和weight语句分别引导代表记录显现频数和权重系数的数值变量。var语句引导所要执行分析的所有变量的列表，SAS会对var语句所引导的所有变量分别执行描述性统计分析。

summary过程的一般格式

width="476" align="">proc summary 选项列表； width="476" align=""> by 变量名称（分组变量）； width="476" align=""> class 变量名称（分组变量）； width="476" align=""> freq变量名称（数值变量，用以表明相应记录显现的频数） width="476" align=""> weight变量名称（数值变量，用以表明相应记录的权重系数） width="476" align=""> output <统计量核心字=自定义变量名> width="476" align=""> var 变量名称（待分析的数值变量）； width="476" align="">run；

summary过程的格式和means过程可以说是完全相同的，各条语句和选项的含义也是相同的，包含在means过程中未列出的output语句也可以应用于means过程，导致此语句在summary过程应用较多（如此才可将分析结果表明出来），所以才将其列为一般格式中。output语句用来对分析结果输出为报告文件执行控制，其后的选项可有可无，若无则SAS依照默认方式执行。“out=报告集名”用来定义输出报告文件的文件名称，文件名的格式和报告步中报告文件名相同。“统计量核心字=自定义变量名”用来自定义输出报告文件中各种统计量的变量名称，前者是系统定义的（和proc语句后选项中的统计量核心字完全相同），务必正确无误，后者可自行定义。默认状态下输出统计量只有频数、均数、标准差、最大值和最小值，在默认状态不能满足需要时这一选项则是必需的。

univariate过程的一般格式

width="476" align="">proc univariate 选项列表； width="476" align=""> by 变量名称（分组变量）； width="476" align=""> class 变量名称（分组变量）； width="476" align=""> freq变量名称（数值变量，用以表明相应记录显现的频数） width="476" align=""> weight变量名称（数值变量，用以表明相应记录的权重系数） width="476" align=""> histogram 变量名称/选项列表 width="476" align=""> output <统计量核心字=自定义变量名> width="476" align=""> var 变量名称（待分析的数值变量）； width="476" align="">run；

univariate过程和以上两个过程的格式非常类似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在univariate过程中计算（如众数），以及univariate过程中所具有的绘图功能。histogram语句即用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）。

tabulate过程的一般格式

width="592" align="">proc tabulate 选项列表； width="592" align=""> by 变量名称（分组变量）； width="592" align=""> class 变量名称（分组变量）； width="592" align=""> freq变量名称（数值变量，用以表明相应记录显现的频数） width="592" align=""> weight变量名称（数值变量，用以表明相应记录的权重系数） width="592" align=""> table <<页变量表达式>，<行变量表达式>，<列变量表达式>> width="592" align=""> var 变量名称（待分析的数值变量，统计量列为相应的表单元格）； width="592" align="">run；

tabulate过程和上述几个过程的格式也基本类似，相同的语句和选项也代表相同的含义。最大的不同也是tabulate过程中最为重要的是table语句，他用来定义表格的具体格式以及表格中所要包含的统计量。

gchart过程的一般格式

width="592" align="">proc gchart 选项列表； width="592" align=""> 图形核心词变量名称/选项列表 width="592" align="">run；

此过程格式简单，复杂的地方在于图形核心字（每个图形核心字对应一种图形类型）所引导的语句，这里是控制图形类型及图形要素的地方，涉及到大量的核心字和选项。gchart过程可以运用的图形核心字及其所绘制的图形类型见下表（表2.1）。

表2.1 gchart过程可以运用的图形核心字及其所绘制的图形类型

width="163" align="">图形核心字 width="163" align="">绘制的图形类型 width="163" align="">图形核心字 width="163" align="">绘制的图形类型 width="163" align="">block width="163" align="">方块图 width="163" align="">pie width="163" align="">圆图 width="163" align="">hbar width="163" align="">水平的条形图 width="163" align="">pie3d width="163" align="">三维圆图 width="163" align="">hbar3d width="163" align="">水平的三维条形图 width="163" align="">donut width="163" align="">环形图 width="163" align="">vbar width="163" align="">竖立的条形图 width="163" align="">star width="163" align="">星形图 width="163" align="">vbar3d width="163" align="">竖立的三维条形图

图形核心字后的变量名用以指定执行图形描述时的分组变量，可以是数值型的（此时以各组的组中值为分组的标志），也可以是字符型的。其后的选项比较重要的有：

（1）type=统计量核心字，表明以图形对变量（sumvar所指定的变量）的哪一种统计量执行描述，比如频数（freq）、均数（mean）、总计（sum）、频数百分比（pctn）等；

（2）subgroup=变量名（分组变量），指定要执行分组（各组段内再分组）的变量；

（3）sumvar=变量名（数值变量），指定要执行统计计算的变量，也就是“type=统计量核心字”选项中统计量的计算所根据的变量。其它的选项较少用到或系统默认值即可基本满足要求，这里依旧少罗嗦，以后用到再说。

gplot过程的一般格式

width="592" align="">proc gplot 选项列表； width="592" align=""> bubble 散点图表达式 width="592" align=""> bubble2 散点图表达式 width="592" align=""> plot散点图表达式 width="592" align=""> plot2散点图表达式 width="592" align="">run；

从gplot过程的一般格式中我们就可看出，此过程只能绘制两种类型的图形，bubble语句指示SAS绘制泡状散点图，plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在与一区域内（bubble2和bubble在与一区域，plot2和plot在与一区域）绘制第二个图形，两者的横坐标相同（同一变量），纵坐标分别位于左右两侧（可以是同一变量，也可以是两个不同的变量）。

散点图表达式的一般形式为：

（1）bubble和bubble2语句：纵坐标变量名*横坐标变量名=泡尺寸变量名（变量值以泡的大小表明），三者均应为数值变量；

（2）plot和plot2语句：纵坐标变量名*横坐标变量名<=n/分类变量名>，此处等号及其后的部分可以省略，此时SAS以默认的散点类型绘制散点图；若等号后为n（n为正整数，是散点类型的编号），SAS则以指定的编号对应的散点类型绘制散点图；若等号后为分类变量名（可为字符型或数值型，为数值型时作为离散型变量处理，每一个值将被当作一个类别），此变量的具体值（或与每个具体值对应的图形）将被作为散点用来绘制散点图。

chart过程和plot过程的一般格式及各选项运用方法分别与gchart过程和gplot过程是基本相同的，不同之处仅在于后两者中涉及到相关三维和图形元素（颜色等）的语句和选项在前两者中是无效的。比如vbar3d语句在chart过程中无效，bubble语句在plot过程中无效。其余的语句和选项运用方法完全相同，所以在掌握了gchart过程和gplot过程后，chart过程和plot过程你会不学自通。描述性统计核心字及其含义

SAS中可计算的描述性统计量多达二十余种，多部分可在以上介绍的前四个过程中计算，个别统计量在某些过程中不能计算，大家需要注意，要不然系统表明错误信息时还不晓得是怎么回事。

我经常遇到该种情形，系统提示错误（此类提示信息表明在log窗口中）时总是摸不着头脑，费半天劲才可搞明白。没办法，摸着石头过河嘛！然而如此也并不是一无是处，最起码可以积攒很多运用经验。

下表（表2.2）列出SAS中可以计算的所有描述性统计量核心字及其含义，供大家运用时参考。

表2.2 SAS中可以计算的描述性统计量核心字及其含义

width="141" align="">核心字 width="363" align="">所代表的含义 width="141" align="">n width="363" align="">有效报告记录数 width="141" align="">nmiss width="363" align="">缺失报告记录数 width="141" align="">mean width="363" align="">均数 width="141" align="">std width="363" align="">标准差 width="141" align="">stderr width="363" align="">标准误 width="141" align="">var width="363" align="">方差 width="141" align="">median width="363" align="">中位数 width="141" align="">mode width="363" align="">众数 width="141" align="">cv width="363" align="">变异系数 width="141" align="">max width="363" align="">最大值 width="141" align="">min width="363" align="">最小值 width="141" align="">range width="363" align="">全距 width="141" align="">sum width="363" align="">总计 width="141" align="">sumwgt width="363" align="">加权值总计 width="141" align="">css width="363" align="">校正的离均差平方和 width="141" align="">uss width="363" align="">未校正的离均差平方和 width="141" align="">clm width="363" align="">可信限（上下界值） width="141" align="">lclm width="363" align="">可信限下侧界值 width="141" align="">uclm width="363" align="">可信限上侧界值 width="141" align="">skew（skewness） width="363" align="">偏度 width="141" align="">kurt（kurtosis） width="363" align="">峰度 width="141" align="">t width="363" align="">分布位置如果检验之t统计量 width="141" align="">probt width="363" align="">上述t统计量对应的几率值 width="141" align="">q1 width="363" align="">第一四分位数 width="141" align="">q3 width="363" align="">第三四分位数 width="141" align="">qrange width="363" align="">四分位数间距 width="141" align="">p1 width="363" align="">第一百分位数 width="141" align="">p5 width="363" align="">第五百分位数 width="141" align="">p10 width="363" align="">第十百分位数 width="141" align="">p90 width="363" align="">第九十百分位数 width="141" align="">p95 width="363" align="">第九十五百分位数 width="141" align="">p99 width="363" align="">第九十九百分位数