条件期望

条件分布函数

§3.6 条件分布函数与条件期望、回归与第二类回归

在前一章中，对离散型随机变量，我们曾经研究了在已知发生的条件下的分布困难，并称P(=x| =y )为条件分布开，相似的困难对接连型随机变量也存在。

由于接连型随机变量取单点值的几率为零，所以用分布函数P (x)=P ( x)来代替离散型时的分布列P(=a ),在这里也同样以P( <x| =y)来代替离散型时的P(=x| =y )，而且称P(=x| =y )为已知(=y)发生的条件下的条件分布函数,并记作F (x|y)。数学分布中的“不定式”

当下的困难是，假使已知的联合分布函数F(x, y)或它的密度函数p(x, y)，如何来条件分布函数F (x|y)。由条件几率的定义读者会想到应当有

P (x|y)= P( <x| =y)=

但是，由于对接连型随机变量来看，P( <x,=y)=0, P(=y)=0，上述等式中的右端是，也就是数学分布中的“不定式”，这并没有处理困难。

在数学分析中已知也是的不定式，为处理这个冲突，先考虑有限增量时的比值，然后再令，并定义

自此得到启发，我们采取同样的思想渠道定义

P (x|y)= P( <x| =y)

= （3.86）

由于是接连型随机变量，若其密度函数为p(x, y)，则上式可以写成

P (x|y)= P( <x| =y)

= （3.87）

若太是接连函数，又，则有

P (x|y)=

= （3.88）

显然，这时P (x|y)有关x的导数存在，且有

P (x|y)=F (x | y) = （3.89）

我们称P (x|y)为在已知发生的条件下的条件几率密度。完全相似地可以定义F (x|y)及P ( y|x)，读者还可以比较一下条件几率密度与离散型时的条件分布列：

P ( x | y )=

它们之间是多么的类似!

例6.18（略）条件数学期望

条件分布函数F ( y|x)或条件密度函数P ( y|x)描写了随机变量在已知(=y)发生的条件下的统计规律，同样离散型情形一样，还可以求在(=y)发生的条件下的数学期望，也就是条件数学期望，于是有下述定义。

定义5.1 假使随机变量在已知(=y)发生的条件下的条件密度函数为P ( y|x)，若

则称

E ( )= （3.90）

为 在( =y)发生的条件下的数学期望，或简称为条件期望。

同离散型情形相同，接连型随机变量的条件期望也具有下述性质：

（1）若a≤ ≤b，则a≤E ( )≤b；

（2）若是、两个常数，又E ( )（i=1, 2）存在，则有

E ( )= E ( )+ E ( )

更深一步还可以把E ( )看成是的函数，当时这个函数取值为E ( )，记这个函数为E ( )，它是一个随机变量，可以对它求数学期望，仍与离散型相同，有

（3）E (E )=E 。在近代几率论中的作用

条件数学期望在近代几率论中有着基本重要的作用，在事实困难中也有很大用处。在两个互有影响的随机变量、中，假使已知其中一个随机变量的取值=y，要据此去预期或预期其他随机变量的取值，如此的困难在事实应用中经常会碰到。民众称它为“预期困难”。由上述讨论可知，条件数学期望E ( )是在已知(=y)发生的条件下，对的一个颇为“合理”的预期。

例6.18（略）

一般觉得，人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚印长的预期式：

E ( )=

假使把画在平面的直角坐标系中，它是一条直线，这条直线在一定程度上描写了身高依靠于的关系，常常称为是回归直线。在一般情形下，由

E ( ，y) （3.94）

或

{x，E ( )} （3.94 ）

可以得到平面上的两条曲线，它们称为是回归曲线或简称为回归，

前面曾经表示，把E ( )作为在已知(=y)发生的条件下，对的预期或预期，在直觉上是“合理”的，究竟它合理在什么地方？这个预期或预期具有那些“优良”的性质值得引起民众的注意呢？这是下面要更深一步研究的困难。预期或预期“优良”的性质

我们已经知道E ( )是的函数，当下不妨假定有别的的函数g( )可以作为对的预期或预期，我们诚然要求该种预期或预期的误差| |要尽或许地小，但| |是随机变量，一般就要求它的平均值

E [ ]=min

但是绝对运算在数学上处理并没有方便，回忆在数学分析中提及过的最小的二乘方法以及第二章中有关方差的讨论，读者能够想到，可以要求

E [ ] =min

假使的密度函数为p(x,y)，就有

E [ ] =

由方差的性质( 3.74)，当g(y)=E ( )时，能使

高达最小，进而当g(y)=E ( )时也使E[ ] 到最小。所以，在已知(=y)发生的条件下，用E ( )作为对的预期或预期是最佳的，这时均方差E{[ ] |=y }高达最小，这里证明的是接连型的情形，对离散型也可以相似地证明这个结论。第二类回归

当下我们已经知道用E ( )作为对执行预期或预期具有很有的性质。在的任意函数中，它的平均方差为最小，但是在某些场合，譬如密度函数p(x,y)为未知，或者E ( )过分复杂等原因，这时可以减弱一部分要求寻求此外的预期，这当中一个常用的预期是，只要求所得到的预期在的线性函数类L（）=a +b中能使均方差高达最小，也就是要确定a与b常数，使

=E [ ] =min

为此，只要令

上述方程组等价于

（3.95）

解此方程组可以求得

（3.96）

一般称上式为线性回归或第二类回归，并称(3.94)或给出的一般情形的回归为第一类回归。第二娄回归的性质比第一类回归要差一部分，但是在求第二类回归时，不必知道联合密度函数而只要求知道、的期望、方差与协方差就够了，而且第二类回归得到的总是一个线性函数，因此第二类回归有便于应用的优点。余下方差

仍有一点应当表示的是，对于用得最大量的正态分布来看，可以从例3.27知道，两类回归正好是统一的。这一事实显示，就正态分布来说，最佳线性预期就是最佳预期。诚然，这里“最佳”的意思是指均方差最小

由(3.96)式还可得到最佳线性预期的均方误差为

E [ ] =E [ ]

这个均方误差常常称为余下方差。由上式可知，当与间的有关系数| |=1时，余下方差为零。这时，可以用(3.96)式来精准预期，也就是说与之间存在着线性关系。于是我们又一次证明了有关系数是随机变量间线性相依程度的反应。

推荐文章

热门文章

推荐文章

热门文章