# 随机变量及概率分布

# 一维随机变量

# 随机变量的概念

随机变量就是"其值随机会而定"的变量,正如随机事件是"其发生与否会随机而定"的事件

比如掷骰子,结果需要掷了骰子以后才知道

随机变量的反面是所谓的"确定性变量",即其取值遵循某种严格规律的变量


考虑打靶试验,命中的坐标由(X,Y)(X,Y)表示,X,YX,Y都是随机变量,而(X,Y)(X,Y)则称为一个二维随机变量.多维随机变量由此推广

随机变量按其可能取值的全体的性质区分为两大类

  • 离散型
    特征只能是取有限个值,或虽然能在理论上取无限个值,但是这些值都能毫无遗漏的一一列举出来
  • 连续性
    这种变量的全部可能取值不仅是无穷多个,并且还不能无一遗漏的逐一排列

XX为离散型随机变量,其全部可能值为a1,a2,{a_1,a_2,\cdots} ,则

pi=P(X=ai),i=1,2,pi0,p1+p2+=1 \begin{align} & p_i = P(X = a_i),i=1,2,\cdots \\ & p_i \ge 0 ,p_1 + p_2 + \cdots = 1 \end{align}

# 离散型随机变量的分布及重要例子

XX为一随机变量,则函数

P(Xx)=F(x),<x< P(X\le x) = F(x), -\infty < x < \infty

称为XX的分布函数(这里并未限制XX为离散型)

若知道概率函数 如 pi=P(X=ai),i=1,2,p_i = P(X = a_i),i=1,2,\cdots

F(x)=P(Xx)={i:aix}piF(x) = P(X\le x) = \sum_{\{i:a_i\le x\}}p_i

对于任意随机变量XX,其分布函数F(x)F(x)具有下面的一般性质

  • (x1<x2)(x_1 < x_2)F(x1)F(x2)F(x_1) \le F(x_2)

  • xx\to \infty, F(x)1F(x)\to 1,当xx\to -\infty,F(x)0F(x)\to 0

# 二项分布

pi=b(i;n,p)=(ni)pi(1p)ni,i=0,1,,n p_i = b(i;n,p) = \begin{pmatrix} n \\ i \end{pmatrix}p^i(1-p)^{n-i},i = 0,1,\cdots,n

XX所遵从的概率分布称为二项分布,并常记为B(n,p)B(n,p),以后,当随机变量服从某种分布FF时,我们用XFX\sim F来 表达这一点,如,XX服从二项分布就记为XB(n,p)X\sim B(n,p)

二项分布的两个重要条件:

  • 各次试验的条件是稳定的,保证了事件AA的概率pp的各次试验中保持不变
  • 各次试验都是独立的

考虑抽奖,有N的产品,废品率是pp,从中抽取nn个,如果每次抽奖放回,且保证每个产品有同等的1/N1/N的机会被抽出,则这nn个产品中所含废品数XX就遵从二项分布B(n,p)B(n,p),如果不放回,下次抽中的概率就变了,不符合二项分布,除非NN远大于 nn,仍可以把XX近似看成二项分布

# 泊松分布

P(X=i)=eλλii!i=0P(X=i)=eλi=0λii!=eλeλ=1 P(X = i) = \frac{e^{-\lambda}\lambda^i}{i!} \\\\ \sum_{i=0}^{\infty}P(X=i) = e^{-\lambda}\sum_{i=0}^{\infty}\frac{\lambda^i}{i!} = e^{-\lambda}e^{\lambda} = 1

泊松分布可以看做是二项分布的极限得出的

对于二项分布B(n,λn)B(n,\frac{\lambda}{n})

P(X=i)=(ni)(λn)i(1λn)ni P(X = i) = \begin{pmatrix}n\\i\end{pmatrix}(\frac{\lambda}{n})^i(1-\frac{\lambda}{n})^{n-i}

nn\to \infty

(ni)ni1i!(1λn)neλ(ni)(λn)i(1λn)niλieλi! \begin{align} \frac{\begin{pmatrix}n\\i\end{pmatrix}}{n^i}&\to \frac{1}{i!}\\ (1-\frac{\lambda}{n})^n&\to e^{-\lambda} \\ \begin{pmatrix}n\\i\end{pmatrix}(\frac{\lambda}{n})^i(1-\frac{\lambda}{n})^{n-i}&\to \frac{\lambda^i e^{-\lambda}}{i!} \end{align}

针对

limn(1λn)n\lim_{n\to\infty}(1-\frac{\lambda}{n})^n
的推导

已知limn(11n)n=1elimn(1λn)n=limn((11nλ)nλ)λ=(1e)λ=eλ 已知 \lim_{n\to\infty}(1-\frac{1}{n})^n = \frac{1}{e} \\ \lim_{n\to\infty}(1-\frac{\lambda}{n})^n = lim_{n\to\infty}((1-\frac{1}{\frac{n}{\lambda}})^{\frac{n}{\lambda}})^\lambda = (\frac{1}{e})^{\lambda} = e^{-\lambda}

# 连续型随机变量的分布及重要例子

连续型随机变量XX有概率分布函数F(x)F(x),则F(x)F(x)的导数f(x)=F(x)f(x) = F^{\prime}(x),称为XX的概率密度函数

连续型随机变量XX的概率密度函数f(x)f(x)都具有下列三条基本性质

  • f(x)0f(x) \ge 0
  • f(x)dx=1\int_{-\infty}^{\infty}f(x)dx = 1
  • 对于任何常数a<ba<bP(aXb)=F(b)F(a)=abf(x)dxP(a\le X \le b) = F(b) - F(a) = \int_a^bf(x)dx

# 正态分布

n

XN(μ,σ2)X\sim N(\mu,\sigma^2)

f(x)=(2πσ)1e(xμ)2/2σ2,<x< f(x) = (\sqrt{2\pi}\sigma)^{-1}e^{-(x-\mu)^2/2\sigma^2}, -\infty < x < \infty
推导概率密度函数积分
R2e(x2+y2)dxdy=Der2rdrdθ=02πdθ0+rer2dr=2π0+rer2dr=2π12er20+=0(π)=π其中R2=(,+)×(,+)D={(r,θ)0r<+,0θ2π}π=R2e(x2+y2)dxdy=dxe(x2+y2)dy=dxex2ey2dy=ex2dxey2dy=(ex2dx)2+ex2dx=πf(x)=(2πσ)1e(xu)2/2σ2=(2πσ)1e(xu2σ)2+f(x)=+(2πσ)1e(xu2σ)2dx=12πσ+e(xu2σ)2dx=12πσ+2σe(xu2σ)2dxu2σ=1π+e(xu2σ)2dxu2σ=1ππ=1 \begin{align} & \begin{align} \iint\limits_{\bold{R^2}} e^{-(x^2 + y^2)}dxdy & = \iint\limits_{D} e^{-r^2}rdrd\theta \\ & = \int_0^{2\pi}d\theta\int_0^{+\infty}re^{-r^2}dr \\ & = 2\pi \int_0^{+\infty} re^{-r^2}dr \\ & = 2\pi \left.\cfrac{-1}{2}e^{-r^2}\right|_0^{+\infty} \\ & = 0 - (-\pi) \\ & = \pi \end{align} \\ & 其中 \\ & \bold{R^2} = (-\infty , + \infty) \times (-\infty , + \infty) \\ & D = \{(r,\theta) | 0\le r < +\infty, 0 \le \theta \le 2\pi \} \\ & \begin{align} \pi & = \iint\limits_{\bold{R^2}} e^{-(x^2+y^2)}dxdy \\ & = \int_{-\infty}^{\infty}dx \int_{-\infty}^{\infty} e^{-(x^2+y^2)}dy \\ & = \int_{-\infty}^{\infty} dx \int_{-\infty}^{\infty} e^{-x^2}e^{-y^2}dy \\ & = \int_{-\infty}^{\infty} e^{-x^2} dx \int_{-\infty}^{\infty} e^{-y^2}dy \\ & = (\int_{-\infty}^{\infty} e^{-x^2} dx)^2 \\ \end{align}\\ & \therefore \int_{-\infty}^{+\infty} e^{-x^2}dx = \sqrt{\pi} \\ & \begin{align} f(x) &= (\sqrt{2\pi}\sigma)^{-1} e^{-(x-u)^2/2\sigma^2} \\ &= (\sqrt{2\pi}\sigma)^{-1} e^{-(\cfrac{x-u}{\sqrt{2}\sigma})^2} \\ \int_{-\infty}^{+\infty} f(x) &= \int_{-\infty}^{+\infty} (\sqrt{2\pi}\sigma)^{-1} e^{-(\cfrac{x-u}{\sqrt{2}\sigma})^2} dx \\ &= \cfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infty} e^{-(\cfrac{x-u}{\sqrt{2}\sigma})^2} dx \\ &= \cfrac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{+\infty} \sqrt{2}\sigma e^{-(\cfrac{x-u}{\sqrt{2}\sigma})^2} d\cfrac{x-u}{\sqrt{2}\sigma} \\ &= \cfrac{1}{\sqrt{\pi}} \int_{-\infty}^{+\infty} e^{-(\cfrac{x-u}{\sqrt{2}\sigma})^2} d\cfrac{x-u}{\sqrt{2}\sigma} \\ &= \cfrac{1}{\sqrt{\pi}} \sqrt{\pi} = 1 \\ \end{align} \end{align}

μ=0,σ2=1\mu = 0, \sigma ^2 = 1 时,

f(x)=ex2/22π f(x) = \frac{e^{-x^2/2}}{\sqrt{2\pi}}

N(0,1)N(0,1) 称为标准正态分布

任意正态分布到标准正态分布的转换
XN(μ,σ2),则Y=(Xμ)/σN(0,1) 若 X \thicksim N(\mu,\sigma^2) ,则 Y = (X -\mu) / \sigma \thicksim N(0,1)

证明:

P(Yx)=P((Xμ)/σx)=P(xμ+σx)=12πσμ+σxe(xμ)2/2σ2dx=12πμ+σxe(xμσ)2/21σdxu=xμσ应用第一类换元法设f(x)为可积函数,g=g(x)为连续且可导函数,有αβf(g)gdx=g(α)g(β)f(g)dgu=xμσ看做是g(x)12πμ+σxe(xμσ)2/21σdx=12πμ+σxeu2/21σdx=12πμ+(xμσ)σeu2/2du=12πxeu2/2du12πxeu2/2du的导数是12πex2/2,即Y的密度函数正好等于标准正态分布的概率密度函数 \begin{align} P(Y \le x) &= P((X - \mu)/\sigma \le x) = P(x\le \mu + \sigma x) \\ & = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{\mu + \sigma x} e^{-(x-\mu)^2/2\sigma^2} dx \\ & = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\mu + \sigma x} e^{-(\frac{x-\mu}{\sigma})^2/2} \frac{1}{\sigma} dx \\ \end{align} \\ \begin{align} & 令 u = \frac{x -\mu}{\sigma} \\ & 应用第一类换元法 设 f(x) 为可积函数,g = g(x) 为连续且可导函数,有 \\ & \int_{\alpha}^{\beta} f(g)g^{\prime}dx = \int_{g(\alpha)}^{g(\beta)} f(g)dg \\ & 把 u = \frac{x - \mu}{\sigma} 看做是 g(x) \\ & 则 \\ \end{align} \\ \begin{align} \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\mu + \sigma x} e^{-(\frac{x-\mu}{\sigma})^2/2} \frac{1}{\sigma} dx &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\mu + \sigma x} e^{-u^2/2} \frac{1}{\sigma} dx \\ &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\mu + (\frac{x-\mu}{\sigma})\sigma} e^{-u^2/2} du \\ &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-u^2/2} du \\ \end{align} \\\\ \begin{align} \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-u^2/2} du 的导数是 \frac{1}{\sqrt{2\pi}} e^{-x^2/2} ,即 Y 的密度函数 正好等于 标准正态分布的概率密度函数 \end{align}

例题:XN(1.5,22)X\thicksim N(1.5,2^2) ,求计算P(1X2)P(-1\le X \le 2)

解:(X1.5)/2N(0,1)P(1X2)=P(11.52X1.5221.52)=P(1.25X1.520.25)=Φ(0.25)Φ(1.25)=Φ(0.25)(1Φ(1.25))=0.4931Φ为标准正态分布 \begin{align} & 解: \\ & \because (X - 1.5) / 2 \thicksim N(0,1) \\ & \begin{align} \therefore P(-1 \le X \le 2) &= P(\frac{-1 - 1.5}{2} \le \frac{X -1.5}{2} \le \frac{2 - 1.5}{2}) \\ & =P (-1.25 \le \frac{X - 1.5}{2} \le 0.25) \\ & = \Phi(0.25) - \Phi(-1.25) \\ & = \Phi(0.25) - (1 - \Phi(1.25)) \\ & = 0.4931 \end{align} \\\\ & \Phi 为标准正态分布 \end{align}

# 多维随机变量

# 离散型随向量的分布

随机向量X=(X1,,Xn)X=(X_1,\cdots,X_n) ,如果其中每一个分量XiX_i都是一维离散型随机变量,则称XX为离散型的

定义

{ai1,ai2,}记为Xi的全部可能值p(j1,j2,,jn)=P(X1=a1j1,X2=a2j2,,Xn=anjn)称为随机向量X=(X1,,Xn)的概率函数概率函数满足的条件:p(j1,j2,,jn)0,jnj2j1p(j1,j2,,jn)=1 \begin{align} & \{a_{i1},a_{i2},\cdots\}记为 X_i的全部可能值 \\\\ & p(j_1,j_2,\cdots,j_n) = P(X_1 = a_{1j_1},X_2 = a_{2j_2},\cdots,X_n = a_{nj_n}) \\\\ & 称为随机向量X = (X_1,\cdots,X_n) 的概率函数 \\\\ & 概率函数满足的条件: \\\\ & p(j_1,j_2,\cdots,j_n)\ge 0 ,\sum_{j_n}\cdots\sum_{j_2}\sum_{j_1}p(j_1,j_2,\cdots,j_n) = 1 \end{align}

# 多项分布

A1,A2,,AnA_1,A_2,\cdots,A_n是某一试验下的完备事件群,即事件A1,,AnA_1,\cdots,A_n两两互斥,其和为必然事件(每次试验,事件A1,,AnA_1,\cdots,A_n必发生一个且只发生一个),分别以p1,p2,,pnp_1,p_2,\cdots,p_n记事件A1,A2,,AnA_1,A_2,\cdots,A_n的概率,则pi0,p1++pn=1p_i\ge 0,p_1+\cdots+p_n = 1

将试验独立地重复NN次,以XiX_i记在这NN次试验中事件AiA_i发生的次数。
X=(X1,X2,,Xn)X = (X_1,X_2,\cdots,X_n)的概率分布就叫做多项分布,记为M(N;p1,,pn)M(N;p_1,\cdots,p_n)

计算事件B={X1=k1,,Xi=ki,Xn=kn}B = \{X_1 = k_1,\cdots,X_i = k_i, \cdots X_n = k_n\}的概率

P(X1=k1,X2=k2,,Xn=kn)=N!k1!k2!kn!p1k1p2k2pnkn \begin{align} & P(X_1 = k_1 ,X_2 = k_2 , \cdots , X_n = k_n ) \\ & = \frac{N!}{k_1!k_2!\cdots k_n!}p_1^{k_1}p_2^{k_2}\cdots p_n^{k_n} \ \end{align}

# 连续型随机向量的分布

f(x1,,xn)f(x_1,\cdots,x_n)是定义在 Rn\Bbb R^n上的非负函数,使对Rn\Bbb R^n中的任何集合AA,有

P(XA)=Af(x1,,xn)dx1dxn P(X\in A) = \int_A\cdots\int f(x_1,\cdots,x_n)dx_1\cdots dx_n

则称 ffXX的概率密度函数

若把AA取成全空间Rn\Bbb R^n,则{XA}\{X\in A\}为必然事件,概率为1,有

f(x1,,xn)dx1dxn=1 \int_{-\infty}^{\infty}\cdots\int f(x_1,\cdots,x_n)dx_1\cdots dx_n = 1

例:向一个无限平面射击,设命中点X=(x1,x2)X = (x_1,x_2)有概率密度 f(x1,x2)=π1(1+x12+x22)2f(x_1,x_2) = \pi ^{-1} (1+ x_1^2 + x_2^2)^{-2},验证概率密度函数是否正确

验证:
f(x1,x2)dx1dx2=02πdθ0π1(1+r2)2rdr=2ππ10(1+r2)2rdr=20(1+r2)2rdr=20(1+t)2dt/2=10(1+t)2dt=111+t0=1(0(1))=1 \begin{align} \iint_{-\infty}^{\infty} f(x_1,x_2)dx_1dx_2 &= \int_0^{2\pi}d\theta \int_0^{\infty} \pi^{-1}(1+r^2)^{-2}rdr \\ &= 2\pi\cdot\pi^{-1}\int_0^{\infty}(1+r^2)^{-2}rdr \\ &= 2\int_0^{\infty}(1+r^2)^{-2}rdr \\ &= 2\int_0^{\infty}(1+t)^{-2}dt/2 \\ &= 1\int_0^{\infty}(1+t)^{-2}dt \\ &= 1\cdot \left|-\frac{1}{1+t}\right|_0^{\infty} = 1\cdot(0 - (-1)) = 1\\ \end{align}

命中点与靶心距离不超过 r0r_0 这个事件的概率为

x12+x22r02f(x1,x2)dx1dx2=02πdθ0r0π1(1+r2)2rdr=r021+r02 \begin{align} \iint\limits_{x_1^2 + x_2^2 \le r_0^2} f(x_1,x_2)dx_1dx_2 &= \int_0^{2\pi}d\theta\int_0^{r_0}\pi^{-1}(1+r^2)^{-2}rdr \\ &= \frac{r_0^2}{1+r_0^2} \end{align}

# 二维正态分布

概率密度函数

f(x1,x2)=(2πσ1σ21ρ2)1exp(12(1ρ2)((x1a)2σ122ρ(x1a)(x2b)σ1σ2+(x2b)2σ22)) f(x_1,x_2) = \left(2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}\right)^{-1}\exp\left( -\frac{1}{2(1-\rho^2)}\left( \frac{(x_1-a)^2}{\sigma_1^2} - \frac{2\rho(x_1-a)(x_2-b)}{\sigma_1\sigma_2} + \frac{(x_2-b)^2}{\sigma_2^2} \right) \right)
常数 取值范围
a <a<-\infty < a < \infty
b <a<-\infty < a < \infty
σ1\sigma_1 σ1>0\sigma_1 > 0
σ2\sigma_2 σ2>0\sigma_2 > 0
ρ\rho 1<ρ<1-1<\rho <1

二维正态分布记作N(a,b,σ12,σ22,ρ)N(a,b,\sigma_1^2,\sigma_2^2,\rho)

二维

二维正态分布概率密度函数验证

二维正态分布概率密度函数验证

# 边缘分布

# 离散型边缘分布

P(X1=a1k)=j2,,jnp(k,j2,,jn),k=1,2, P(X_1 = a_{1k}) = \sum_{j_2,\cdots,j_n}p(k,j_2,\cdots,j_n) , k = 1,2,\cdots

多项分布的边缘分布是二项分布

证明

# 连续型边缘分布

f1(x1)=f(x1,x2,,xn)dx2dxn f_1(x_1) = \int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}f(x_1,x_2,\cdots,x_n)dx_2\cdots dx_n

二维正态分布的边缘分布是一维正态分布
证明

# 条件概率分布与随机变量的独立性

# 条件概率分布的概念

一个随机变量XX的条件概率分布,就是在某中给定的条件下,XX的概率分布

此处的条件分布,是在试验中所规定的“基本”条件之外再附加的条件。它一般采取如下的形式:设有两个随机变量X,YX,Y,在给定了YY取值的条件下,去求XX的条件分布

# 离散型随机变量的条件分布

(X1,X2,,Xn)(X_1,X_2,\cdots,X_n)服从多项分布M(N;p1,,pn)M(N;p_1,\cdots,p_n) , 计算在X2=k2X_2=k_2的条件下,X1X_1的条件分布

P(X1=k1X2=k2)=P(X1=k1,X2=k2)/P(X2=k2)P(X_1 = k_1 | X_2 = k_2) = P(X_1 = k_1, X_2 = k_2)/P(X_2 = k_2)

1️⃣根据边缘分布

P(X2=K2)=N!(Nk2)!p2kk2!(1p2)Nk2 P(X_2 = K_2) = \frac{N!}{(N-k_2)!}\frac{p_2^k}{k_2!}(1-p_2)^{N-k_2}

2️⃣求P(X1=k1,X2=k2)P(X_1 = k_1, X_2 = k_2)

P(X1=k1,X2=k2)=k3,,knN!k1!k2!k3!kn!p1k1p2k2p3k3pnkn P(X_1 = k_1, X_2 = k_2) = {\sum_{k_3,\cdots,k_n}}^{\prime} \frac{N!}{k_1!k_2!k_3!\cdots k_n!}p_1^{k_1}p_2^{k_2}p_3^{k_3}\cdots p_n^{k_n}

k3,,kn{\sum_{k_3,\cdots,k_n}}^{\prime} 表示求和范围为k3,,knk_3,\cdots,k_n,显然k3++kn=N(k1+k2)k_3 + \cdots + k_n = N - (k_1+k_2)

3️⃣ 令 pi=pi/(1p1p2)p_i^{\prime} = p_i / (1-p_1 -p_2)

P(X1=k1,X2=k2)=N!k1!k2!(Nk1k2)!p1k1p2k2(1p1p2)Nk1k2CC=k3,,kn(Nk1k2)!k3!kn!=1p3k3pnkn \begin{align} & P(X_1 = k_1,X_2 = k_2 ) = \frac{N!}{k_1!k_2!(N-k_1-k_2)!}\cdot p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{N-k_1-k_2}\cdot C \\\\ & C = {\sum_{k_3,\cdots,k_n}}^{\prime} \frac{(N-k_1-k_2)!}{k_3!\cdots k_n!} = 1 {p^{\prime}}_3^{k_3} \cdots {p^{\prime}}_n^{k_n} \end{align}

4️⃣ 所以

P(X1=k1X2=k2)=P(X1=k1,X2=k2)/P(X2=k2)=N!k1!k2!(Nk1k2)!p1k1p2k2(1p1p2)Nk1k2/N!(Nk2)!p2kk2!(1p2)Nk2=(Nk2)!k1!(Nk1k2)p1k1(1p1p2)Nk1k2(1p2)Nk2=(Nk2)!k1!(Nk1k2)p1k1(1p1p2)Nk1k2(1p2)Nk1(1p2)Nk1k2=(Nk2)!k1!(Nk1k2)(p11p2)k1(1p11p2)Nk1k2=b(k1;Nk2,p1/(1p2)),k=0,1,,Nk2 \begin{align} P(X_1 = k_1 | X_2 = k_2) &= P(X_1 = k_1,X_2 = k_2) / P(X_2 = k_2) \\\\ &= {\frac{N!}{k_1!k_2!(N-k_1-k_2)!}\cdot p_1^{k_1}p_2^{k_2}(1-p_1-p_2)^{N-k_1-k_2}} /{ \frac{N!}{(N-k_2)!}\frac{p_2^k}{k_2!}(1-p_2)^{N-k_2} } \\\\ &= \frac{(N-k_2)!}{k_1!(N-k_1-k_2)} \frac{p_1^{k_1}(1-p_1-p_2)^{N-k_1-k_2}}{(1-p_2)^{N-k_2}}\\\\ &= \frac{(N-k_2)!}{k_1!(N-k_1-k_2)} \frac{p_1^{k_1}(1-p_1-p_2)^{N-k_1-k_2}}{(1-p_2)^{N-k_1}\cdot(1-p_2)^{N-k_1-k_2}}\\\\ &= \frac{(N-k_2)!}{k_1!(N-k_1-k_2)}(\frac{p_1}{1-p_2})^{k_1}(1-\frac{p_1}{1-p_2})^{N-k_1-k_2} \\\\ &= b(k_1;N-k_2,p_1/(1-p_2)),k=0,1,\cdots,N-k_2 \end{align}

# 连续型随机变量的条件分布

假设二维随机向量X=(X1,X2)X = (X_1 ,X_2) 有概率密度函数f(x1,x2)f(x_1,x_2) , 在限定ax2ba\le x_2 \le b的条件下,X1X_1的条件分布有

P(X1x1aX2b)=P(X1x1,aX2b)/P(aX2b) P(X_1 \le x_1 | a \le X_2 \le b) = P(X_1 \le x_1, a\le X_2 \le b) / P(a\le X_2 \le b)
P(X1x1,aX2b)=x1dt1abf(t1,t2)dt2 P(X_1 \le x_1, a\le X_2 \le b) = \int_{\infty}^{x_1} dt_1\int_a^b f(t_1,t_2)dt_2
P(aX2b)=abf2(t2)dt2(f2X2的边缘分布密度函数) P(a\le X_2 \le b) = \int_a^bf_2(t_2)dt_2 \quad{(f_2为X_2的边缘分布密度函数)}

X1X_1 的条件分布函数

P(X1x1aX2b)=x1dt1abf(t1,t2)dt2/abf2(t2)dt2 P(X_1 \le x_1 | a \le X_2 \le b) = \int_{\infty}^{x_1} dt_1\int_a^b f(t_1,t_2)dt_2 \bigg/ \int_a^bf_2(t_2)dt_2

X1X_1的条件分布函数的x1x_1求导倒数,得到条件密度函数f1f_1

f1(x1aX2b)=abf(x1,t2)dt2/abf2(t2)dt2 f_1 (x_1 | a\le X_2 \le b) = \int_a^b f(x_1 ,t_2)dt_2 \bigg/ \int_a^b f_2 (t_2)dt_2

a=ba=b

f1(x1X2=x2)=limh0f1(x1x2X2x2+h)=limh01ht2x2+hf(x1,t2)dt2/limh01hx2x2+hf2(t2)dt2=f(x1,x2)/f2(x2) \begin{align} f_1 ( x_1 | X_2 = x_2) &= \lim_{h\to 0}f_1 (x_1 | x_2 \le X_2 \le x_2 +h) \\ &= \lim_{h\to 0 }\frac{1}{h}\int_{t_2}^{x_2+h}f(x_1,t_2)dt_2 \bigg/ \lim_{h\to 0}\frac{1}{h}\int_{x_2}^{x_2+h} f_2(t_2)dt_2 \\ &= f(x_1,x_2) / f_2(x_2) \end{align}

改写上式,得到

f(x1,x2)=f2(x2)f1(x1x2) f(x_1,x_2) = f_2(x_2)f_1(x_1|x_2)

即:两个随机变量X1X_1X2X_2联合概率密度,等于其中之一的概率密度乘以在给定这一之下另外一个的条件概率密度.这个公式相应于条件概率的公式P(AB)=P(B)P(AB)P(AB) = P(B)P(A|B)

同理也有

f(x1,x2)=f1(x1)f2(x2x1) f(x_1,x_2) = f_1(x_1)f_2(x_2|x_1)

推广到nn维随机向量(X1,,Xn)(X_1,\cdots,X_n),其概率密度函数为f(x1,,xn)f(x_1,\cdots,x_n)

f(x1,,xn)=g(x1,,xk)h(xk+1,,xnx1,,xk) f(x_1,\cdots,x_n) = g(x_1,\cdots,x_k)h(x_{k+1},\cdots,x_n|x_1,\cdots,x_k)

其中gg(X1,,Xk)(X_1,\cdots,X_k)的概率密度,而hh则是在给定了X1=x1,,Xk=xkX_1=x_1,\cdots,X_k=x_k条件下,Xk+1,,XnX_{k+1},\cdots,X_n的条件概率密度