主页 > 家电热点 >初等的机率论(8)随机变数及其种种性质(Random Var >


初等的机率论(8)随机变数及其种种性质(Random Var

发表于2020-06-19


连结:初等的机率论(7)独立事件的概念

摘要:本文分别介绍「离散型」与「连续型」机率分布(probability distribution)中几个重要的分布:「二项分布(binomial distribution)」、「Poisson分布」、「常态分布(normal distribution)」,进而导出其期望值与变异数。并将「Markov不等式」与「Chebyshev不等式」以机率的语言重述之。

一个随机实验做下来,就有初等机率空间 $$(\Omega,\mathfrak{A},P)$$,这是精炼随机实验所得到的原始机率资料。然而,我们有兴趣观测的往往是某个变量 $$X$$,定义在 $$\Omega$$ 上的一个实值函数 $$X:\Omega\rightarrow\mathbb{R}$$。这就是随机变数的概念,在统计学上又叫做统计变量。$$X$$ 将 $$(\Omega,\mathfrak{A},P)$$ 上的机率资料,重新改订成方便于使用的资讯。例如丢两个骰子,我们要观测「点数和」是多少。在每一赌局中,赌徒要观察输赢额。

透过随机变数才能挖掘出深刻而有意义的事件。例如大数法则与中央极限定理里所涉及的美妙事件。

甲、随机变数

【定义 5】任何一个定义在样本空间 $$\Omega$$ 上的实值函数 $$X:\Omega\to\mathbb{R}$$,就叫做一个随机变数(random variable)。对于任意实数的子集 $$E\subset \mathbb{R}$$,事件 $$\{X\in E\}$$ 定义为 $$\{\omega\in\Omega:X(\omega)\in E\}$$。我们也将机率 $$P(\{X\in E\})$$ 简写为 $$P(X\in E)$$。

【注】一个有趣的观察是,根据这个定义,随机变数「既不随机也不是变数」,有点儿禅味。因为它是一个函数,并且也不涉及机率。之所以採用随机变数之名有其历史的约定俗成理由。

【例14】考虑丢两个铜板的随机实验,样本空间为 $$\Omega=\{HH,HT,TH,TT\}$$。

令 $$X:\Omega\rightarrow\mathbb{R}$$ 定义为 $$X(HH)=2,~~X(HT)=X(TH)=1,~~X(TT)=0$$

则 $$X$$ 表示出现正面次数的随机变数。

乙、机率分布

因为我们的 $$\Omega=\{\omega_1,\omega_2,\dots,\omega_N\}$$ 是有限集,

所以随机变数 $$X$$ 也只取有限数值 $$\{x_1,x_2,\dots,x_m\}$$

使得 $$f(x_k)\equiv P\{X=x_k\}$$ 皆为正数并且 $$\sum\limits_{k=1}^m f(x_k)=1$$

这种 $$X$$ 叫做「离散型且取有限个值」的随机变数。

定义如上的离散函数 $$f:\{x_1,x_2,\dots,x_m\}\rightarrow[0,1]$$

我们称之为随机变数 $$X$$ 的机率分布(probability distribution)或者机率密度函数(probability density function)。

$$(1)$$ 离散型且有限个取值的机率分布

若离散函数 $$f$$,在有限个点取值,满足下列两个条件,那幺 $$f$$ 就是某个随机变数 $$X$$的机率分布:

$$(\mathrm{i})~~~0\le f(x_k)\le 1,~k=1,2,\cdots,m$$
$$(\mathrm{ii})~\sum\limits^m_{k=1}f(x_k)=1$$

【习题】试造一个机率空间与随机变数使得具有上述的机率分布。

【例15】(二项分布)

考虑丢一个铜板,

出现正面 $$H$$ 的机率为 $$p,~~0

(当 $$p=1/2$$ 时,就是一个公正铜板(a fair coin))。

因为我们要点算出现正面的次数,所以定义随机变数 $$\xi$$ 为:

当出现正面 $$H$$,$$\xi(H)=1$$,机率为 $$p$$
当出现反面 $$T$$,$$\xi(T)=0$$,机率为 $$q$$

今将此铜板在相同条件下独立地丢 $$n$$ 次,我们要来观测出现正面的次数。

首先是建立机率模型。这就是三合一的古典机率空间 $$(\Omega_n,\mathfrak{A}_n,P_n)$$:

样本空间 $$\Omega_n=\{\omega=(\omega_1,\omega_2,\cdots,\omega_n):\omega_k=H~or~T,~k=1,2,\cdots,n\}$$

事件的全体 $$\mathcal{A}_n=2^{\Omega_n}$$,$$\Omega_n$$ 的羃集(power set)

对于样本点 $$\omega_n\in\Omega$$ 如何指定机率?

如果在 $$\{\omega_1,\omega_2,\dots,\omega_n\}$$ 中含有 $$r$$ 个 $$H$$ 且 $${n}-r$$ 个 $$T$$,

那幺就定义 $$P_n(\{\omega\})=p^rq^{n-r}$$,并且 $$P_n(A)=\sum\limits_{\omega\in A}P_n(\omega)$$

再考虑随机变数 $$\xi_{k}:\Omega_n\rightarrow\{0,1\}$$

$$\xi_k(\omega)=\left\{\begin{array}{ll}1,&\mathrm{if}~\omega_k=H\\0,&\mathrm{if}~\omega_k=T\end{array}\right.~~~~~~k=1,2,\cdots,n$$

这是观测第 $$k$$ 次丢铜板的状况。我们就得到一列独立且具有相同分布 $$\mathrm{(i.i.d)}$$ 的随机变数 $$(\xi_k)_{k=1,2,\cdots,n}$$,叫做铜板序列(a coin tossing sequence)。

最后定义随机变数 $$S_{n}:\Omega_n\rightarrow\{0,1,2,…,n\}$$ 为

$$S_n=\xi_1+\xi_2+\cdots+\xi_n$$

那幺 $$S_n$$的机率分布为

$$P(S_n=k)=C^n_kp^kq^{n-k},~~~k=0,1,2,\cdots,n$$

这叫做二项分布,因为它涉及二项定理:

$$1=(p+q)^n=\displaystyle\sum^n_{k=1}C^n_kp^kq^{n-k}$$

【定义 6】(二项分布)

如果一个随机变数 $$X:\Omega\to\{0,1,2,3,\cdots,n\}$$ 具有如下的离散型之机率分布:

$$f:\{0,1,2,\cdots,n\}\to[0,1]$$

$$f(k)=C^n_kp^kq^{n-k},~~~k=0,1,2,\cdots,n$$

则称 $$X$$ 为具有二项分布(binomial distribution),记为 $$X\sim B(n,p)$$。

二项分布是整个古典机率论的出发点(参见后述),由此出发可以一路探索机率法则(laws of chance),例如大数法则与中央极限定理,成果非常丰硕。

【例16】若 $$X\sim B(10,1/2)$$,即独立丢一个公正铜板 $$10$$ 次,$$X$$ 表示出现正面次数的随机变数。在下图中,我们作出 $$X$$ 的机率分布函数图,为方便起见,我们将 $$y$$ 轴放大 $$1024$$ 倍。

初等的机率论(8)随机变数及其种种性质(Random Var

$$(2)$$ 离散型且无限个取值的机率分布

若离散函数 $$f$$,取值于可列个(countable)无限点,满足下列两个条件,那幺 $$f$$ 就是某个随机变数 $$X$$ 的机率分布:

$$(\mathrm{i})~~~0\le f(x_k)\le 1,~k=1,2,\cdots,n,\cdots$$
$$(\mathrm{ii})~\sum\limits^\infty_{k=1}f(x_k)=1$$

若 $$f(x_k)>0$$,则 $$x_k$$ 称为 $$X$$ 的可能值(a possible value)。

【注】若 $$X$$ 的可能值为可列无穷,则不能每个值的机会均等。

【习题】试造一个机率空间与随机变数使得具有上述的机率分布。

【定义 7】(Poisson 分布)

如果一个随机变数 $$X:\Omega\to\{0,1,2,3,\cdots,k,\cdots\}$$ 具有如下的机率分布:

$$\displaystyle f(k)=\frac{e^{-\lambda}\lambda^k}{k!\ },~~~k=0,1,2,3,\cdots,n,\cdots$$,其中 $$\lambda>0$$

则称 $$X$$ 具有 Poisson 分布,以 $$\lambda$$ 为参数,记成 $$X\sim P(\lambda)$$

这里我们要用到一点儿微积分的极限与级数概念:

$$\displaystyle e=\lim_{n\to\infty}\left(1+\frac{1}{n}\right)^n\approx 2.718281828$$

以及 $$\displaystyle e^\lambda=1+\lambda+\frac{\lambda^2}{2!\ }+\frac{\lambda^3}{3!\ }+\cdots+\frac{\lambda^k}{k!\ }+\cdots$$

从而 $$\displaystyle\sum^\infty_{k=0}\frac{e^{-\lambda}\lambda^k}{k!\ }=1$$

对于离散型的机率分布,我们可以这样想像:数量为 $$1$$ 的一桶机率水,如下雨般分布到 $$X$$ 的值域的每一点上面。

二项分布与Poisson分布是离散型分布中最重要的两个机率分布。

$$(3)$$ (绝对)连续型机率分布

在更高等的机率论中,我们会遇到随机变数 $$X$$ 连续取值于实数系的情形。它的机率分布就是(绝对)连续型的机率分布((absolutely)continuous probability distribution)。

此时一定要用到微积分。在微积分中有离散的差和分与连续的微积分之平行类推:

差分$$\Delta$$,不定和分$$\sum$$,定合分$$\sum\limits^n_m\longleftrightarrow$$ 微分$$d$$,不定积分$$\int$$,定积分$$\int^b_a$$

下面我们就来施展这个类推。

如果 $$f$$ 是一个可积分函数,取值于实数系 $$\mathbb{R}$$,满足下列两个条件,那幺 $$f$$ 就是某个随机变数 $$X$$ 的机率分布:

$$(\mathrm{i})~~~f(x)\ge 0,~~\forall x\in\mathbb{R}$$
$$(\mathrm{ii})~\displaystyle\int^\infty_{-\infty}f(x)~dx=1$$

并且随机变数 $$X$$ 取值于 $$A\subset\mathbb{R}$$的机率为 $$P(A)=\int_{A}f(x)dx$$。我们称 $$X$$ 为一个(绝对)连续型随机变数,而 $$f(x)$$ 叫做 $$X$$ 的机率分布机率密度函数

在机率论与统计学中,最重要的(绝对)连续型分布就是正规分布(normal distribution),又叫做常态分布

【定义 8】(正规分布或常态分布)

设 $$\mu\in\mathbb{R}$$,$$\sigma>0$$。如果一个随机变数 $$X$$ 取值于 $$\mathbb{R}$$,具有如下的机率分布:

$$\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma^2},~~~\forall x\in\mathbb{R}~~~~~~~~~(1)$$

则称 $$X$$ 具有正规分布或常态分布,以 $$\mu$$ 与 $$\sigma^2$$ 为参数,记成 $$X\sim N(\mu,\sigma^2)$$

当 $$\mu=0,~\sigma=1$$ 时,机率分布函数为:

$$\displaystyle f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2},~~~\forall x\in\mathbb{R}~~~~~~~~~(2)$$

叫做标準正规分布(或标準常态分布)(standard normal distribution),记成 $$X\sim N(0,1)$$

【注意】$$(1)$$ 与 $$(2)$$ 式的 $$f(x)$$ 都具有:$$(\mathrm{i})~f(x)\ge 0,\forall x\in\mathbb{R}$$,$$(\mathrm{ii})~\int\limits^{\infty}_{-\infty}f(x)dx=1$$ 的性质,这恰是 $$f(x)$$ 成为机率密度函数的条件。

丙、期望值与变异数

【定义 9】(数学期望值,简称期望值,又叫做平均值)

$$(\mathrm{i})$$ 如果 $$X$$ 为离散型随机变数,取值 $$x_1,x_2,x_3,\cdots$$,并且具有机率密度函数 $$f(x_k)$$,则 $$X$$ 的期望值(expectation)定义为

$$E(X)=\displaystyle\sum_k x_kf(x_k)$$ (Lebesgue式的和分)

 $$(\mathrm{ii})$$ 如果 $$X$$ 为连续型随机变数,取值 $$\mathbb{R}$$,并且具有机率密度函数 $$f(x)$$,则 $$X$$ 的期望值定义为

$$E(X)=\displaystyle\int_{-\infty}^{\infty}xf(x)dx$$

但必须这个积分存在。

我们经常用$$\mu$$ 来代表期望值,即 $$\mu\equiv{E(X)}$$,这方便于我们定义变异数与标準偏差。

【定义 10】(变异数与标準偏差)

随机变数 $$X$$ 的变异数 $$var(X)$$ 定义为 $$var(X)=E[(X-\mu)^2]\equiv \sigma^2$$

对于离散型随机变数

$$var(X)=E[(X-\mu)^2]=\sum\limits_k(x_k-\mu)^2f(x_k)$$

对于连续型随机变数

$$var(X)=E[(X-\mu)^2]=\int\limits^{\infty}_{-\infty}(x-\mu)^2f(x)dx$$

【注】变异数的计算经常按下面的公式:

$$\begin{array}{ll}var(X)&=E[X-E(X)]^2=E[X^2-2XE(X)+(E(X))^2]\\&=E(X^2)-2E(X)E(X)+[E(X)]^2=E(X^2)-[E(X)]^2\end{array}$$

【例17】若随机变数$$X\sim B(n,p)$$,即二项分布,则 $$E(X)=np$$,$$var(X)=npq$$

【解答】期望值

$$\begin{array}{ll}E(X)&=\displaystyle\sum^n_{k=0}kC^n_kp^kq^{n-k}=\sum^n_{k=0}k\frac{n!\ }{k!\ (n-k)!\ }p^kq^{n-k}\\&\displaystyle=np\sum^n_{k=0}k\frac{(n-1)!\ }{(k-1)!\ [(n-1)-(k-1)]!\ }p^{k-1}q^{(n-1)-(k-1)},~~~i=k-1\\&\displaystyle=np\sum^n_{i=0}k\frac{(n-1)!\ }{i!\ [(n-1)-i]!\ }p^iq^{(n-1)-i}=np\end{array}$$

同理可算得 $$E(X^2)=np[(n-1)p+1]$$。

从而变异数为 $$var(X)=E(X^2)-[E(X)]^{2}=np[(n-1)p+1]-(np)^2=npq$$

【例18】若随机变数 $$X$$~$$P(\lambda)$$,则 $$E(X)=\lambda$$,$$var(X)=\lambda$$。

Poisson分布的期望值与变异数相同,皆为 $$\lambda$$,这是奇妙的。

【解答】

先算期望值

$$\begin{array}{ll}E(X)&=\displaystyle \sum^{\infty}_{k=0}k\frac{e^{-\lambda}\lambda^k}{k!\ }=\lambda\sum^{\infty}_{k=1}\frac{e^{-\lambda}\lambda^{k-1}}{(k-1)!\ }\\&\displaystyle=\lambda e^{-\lambda}\sum^{\infty}_{k=1}\frac{\lambda^{k-1}}{(k-1)!\ }=\lambda e^{-\lambda}\sum^{\infty}_{k=0}\frac{\lambda^k}{k!\ }\\&=\lambda e^{-\lambda}e^{\lambda}=\lambda\end{array}$$

再计算 $$E(X^2)$$:

$$\begin{array}{ll}E(X^2)&=\displaystyle\sum^{\infty}_{k=0}k^2\frac{e^{-\lambda}\lambda^k}{k!\ }=\lambda\sum^{\infty}_{k=1}\frac{ke^{-\lambda}\lambda^{k-1}}{(k-1)!\ }\\&=\displaystyle \lambda\sum^{\infty}_{k=0}\frac{(k+1)e^{-\lambda}\lambda^k}{k!\ }=\lambda\left[\sum^{\infty}_{k=0}\frac{ke^{-\lambda}\lambda^k}{k!\ }+\sum^{\infty}_{k=0}\frac{e^{-\lambda}\lambda^k}{k!\ }\right]\\&=\lambda(\lambda+1)\end{array}$$

于是变异数为 $$var(X)=E(X^2)-E(X)^2=\lambda(\lambda+1)-\lambda^2=\lambda$$

【例19】若随机变数$$X\sim N(\mu,\sigma^{2})$$,则$$E(X)=\mu$$,$$var(X)=\sigma^2$$

【解答】

期望值 $$E(X)=\frac{1}{\sqrt{2\pi}\sigma}\int\limits^{\infty}_{-\infty}xe^{-(x-\mu)^2/2\sigma^2}dx$$。用 $$(x-\mu)+\mu$$ 替换 $$x$$ 得到

$$\displaystyle E(x)=\frac{1}{\sqrt{2\pi}\sigma}\int^{\infty}_{-\infty}(x-\mu)e^{-(x-\mu)^2/2\sigma^2}dx+\mu\frac{1}{\sqrt{2\pi}\sigma}\int^{\infty}_{-\infty}e^{-(x-\mu)^2/2\sigma^2}dx$$

令 $$y=x-\mu$$,则得

$$\displaystyle E(x)=\frac{1}{\sqrt{2\pi}\sigma}\int^{\infty}_{-\infty}ye^{-y^2/2\sigma^2}dy+\mu\frac{1}{\sqrt{2\pi}\sigma}\int^{\infty}_{-\infty}e^{-(x-\mu)^2/2\sigma^2}dx$$

第一项的被积分函数为奇函数,故第一项为 $$0$$,于是 $$E(X)=\mu$$。

变异数为 $$\displaystyle var(X)=\frac{1}{\sqrt{2\pi}\sigma}\int^{\infty}_{-\infty}(x-\mu)^2e^{-(x-\mu)^2/2\sigma^2}dx$$

作变数代换 $$y=(x-\mu)/\sigma$$,则得 $$\displaystyle var(X)=\frac{1}{\sqrt{2\pi}}\int^{\infty}_{-\infty}y^2e^{-y^2/2}dy$$,

利用分部积分法 $$\displaystyle=\frac{\sigma^2}{\sqrt{2\pi}}\left[-ye^{-y^2/2}\Big|^{\infty}_{-\infty}+\int^{\infty}_{\infty}e^{-y^2/2}dy\right]\\=\displaystyle \sigma^2\frac{1}{\sqrt{2\pi}}\int^{\infty}_{-\infty}e^{-y^2/2}dy=\sigma^2$$

期望值就是和分或积分,故具有加性(additivity):

设 $$X$$ 与 $$Y$$ 为两个随机变数,则有

$$E(X+Y)=E(X)+E(Y)$$

进一步,设 $$X_1,X_2,\cdots,X_n$$ 为 $$n$$ 个随机变数,则有

$$E(X_1+X_2+\cdots+X_n)=E(X_1)+E(X_2)+\cdots+E(X_n)$$

对于变异数的计算,因为涉及平方,所以就没有单纯的加性,必须要有额外的独立性条件,加性才会成立。

但是对于係数乘积却有:$$var(\alpha X)=\alpha^2var(X)$$,其中 $$\alpha$$ 为一个常数。

因为

$$\begin{array}{ll}var(\alpha X)&=E[(\alpha X)^2]-[E(\alpha X)]^2\\&=\alpha^2E(X)^2-[\alpha E(X)]^2\\&=\alpha^2[E(X)^2-[E(X)]^2]\\&=\alpha^2var(X)\end{array}$$

【定义 10】(随机变数的独立性)

$$(\mathrm{i})$$ 假设 $$X$$ 与 $$Y$$ 为两个随机变数,如果对于任何两个实数子集 $$A$$ 与 $$B$$ 都有

$$P(X\in A,~Y\in B)=P(X\in A)P(Y\in B)$$

则称 $$X$$ 与 $$Y$$ 是独立的(independent)。

$$(\mathrm{ii})$$ 假设 $$X_1,X_2,\cdots,X_n$$ 为 $$n$$ 个随机变数,如果对于任何实数子集 $$A_1,A_2,\cdots,A_n$$ 下式都成立:

$$\displaystyle P(X_1\in A_1,~X_2\in A_2,\cdots,~X_n\in A_n)=\prod^n_{k=1}P(X_k\in A_k)$$

则称 $$X_1,X_2,\cdots,X_n$$ 是独立的(independent)。

【定理 7】(变异数的加性)

假设 $$X_1,X_2,\cdots,X_n$$ 为 $$n$$ 个独立的随机变数,则有

$$var(X_1+X_2+\cdots+X_n)=var(X_1)+var(X_2)+\cdots+var(X_n)$$

丁、Markov不等式

在记述统计里(见定理1),我们已介绍过Markov不等式,它是直观显明的,其重要性是作为推导 Chebyshev 不等式的基础,而 Chebyshev 不等式又是推导弱大数法则的根据。现在我们用机率语言来重述。

【定理 8】(Markov 不等式)

假设 $$X\ge 0$$ 为一个随机变数,则对任意 $$\varepsilon>0$$,恆有

$$\displaystyle P(X\ge\varepsilon)\le \frac{E(X)}{\varepsilon}~~~~~~~~~(3)$$

【证明】我们只证离散的情形

$$\begin{array}{ll}E(X)&=\sum\limits_{x_k\ge\varepsilon}x_kf(x_k)+\sum\limits_{x_k<\varepsilon}x_kf(x_k)\\&\ge\sum\limits_{x_k\ge\varepsilon}x_kf(x_k)\\&\ge\sum\limits_{x_k\ge\varepsilon}\varepsilon f(x_k)=\sum\limits_{x_k\ge\varepsilon}\varepsilon f(x_k)=\varepsilon P(X\ge \varepsilon)\end{array}$$

两边除以 $$\varepsilon$$ 就得 $$(3)$$ 式。连续的情形同理可证。

【注】$$(3)$$ 式表示期望值可以控制尾巴事件 $$(X\geq\varepsilon)$$ 的机率。

戊、Chebyshev不等式

【定理 9】(Chebyshev 不等式)

假设 $$X$$ 为一个随机变数,另 $$\mu=E(X)$$、$$\sigma^2=var(X)$$,则对任意 $$\varepsilon>0$$,恆有

$$\displaystyle P(|X-\mu|\ge\varepsilon)\le\frac{\sigma^2}{\varepsilon^2}~~~~~~~~~(4)$$

【证明】

$$P(|X-\mu|\ge\varepsilon)=P[(X-\mu)^2\ge\varepsilon^2]$$ (简单代数)

$$\le\displaystyle\frac{E(X-\mu)^2}{\varepsilon^2}=\frac{\sigma^2}{\varepsilon^2}$$ (由 Markov 不等式)

$$=\displaystyle\frac{\sigma^2}{\varepsilon^2}$$ ($$var(X)$$ 的定义)

连结:初等的机率论(9)什幺是机率与机率法则?

参考书目:

注:通常要讲述机率论必须用到「测度积分论」的数学工具,或至少要用到微积分。因此要为一般读者介绍机率论的读物诚属不容易。上述八本书尽量压低要用到的数学工具,大部分只需排列与组合,只有少部份要用到一点儿微积分。

从科学方法论的观点来看,机率论与统计学是一体的两面,机率论是「演绎法」,统计学是「归纳法」。因此,本文的主题虽然是机率论,但是也顺便介绍一点点统计学的概念。

上一篇:
下一篇: