文章

三大概率分布(一)

三大概率分布关于正态分布的内容

三大概率分布(一)

今天我们开始学习三大分布,首先是正态分布。正态分布是概率论与数理统计中最重要的一个分布,我将通过详细探讨一下它的概念、性质、与其他分布的关系,并结合一个实例来加深理解。

正态分布 (Normal Distribution)

正态分布,也称为高斯分布 (Gaussian Distribution),是一个在自然界、社会科学和工程领域中都极为常见的连续概率分布。它的图形呈钟形,两头低,中间高,左右对称,因此常被称为“钟形曲线”。

1. 概念与定义

如果一个随机变量 $X$ 的概率密度函数 (PDF) 为: \(f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) 其中 $-\infty < x < +\infty$,则称 $X$ 服从正态分布,记作 $X \sim N(\mu, \sigma^2)$。

这个公式看起来复杂,但它只由两个参数控制:

  • $\mu$ (均值):决定了分布的中心位置。曲线的对称轴就是 $x=\mu$。
  • $\sigma^2$ (方差):决定了分布的“胖瘦”或离散程度。$\sigma$ (标准差) 越大,曲线越“矮胖”,表示数据越分散;$\sigma$ 越小,曲线越“高瘦”,表示数据越集中。

2. 重要性质

  • 对称性:概率密度曲线关于均值 $\mu$ 对称。
  • 集中性:均值 $\mu$ 处是曲线的最高点,也是众数和中位数所在地。
  • 总面积为1:曲线与x轴之间的总面积等于1,这是所有概率密度函数的共性。
  • 3$\sigma$法则 (或 68-95-99.7 法则):这是一个非常有用的经验法则:
    • 68.3% 的数值落在距均值1个标准差的范围内,即 $(\mu-\sigma, \mu+\sigma)$。
    • 95.4% 的数值落在距均值2个标准差的范围内,即 $(\mu-2\sigma, \mu+2\sigma)$。
    • 99.7% 的数值落在距均值3个标准差的范围内,即 $(\mu-3\sigma, \mu+3\sigma)$。

3. 标准正态分布 (Standard Normal Distribution)

当 $\mu=0, \sigma^2=1$ 时的正态分布称为标准正态分布,记作 $Z \sim N(0, 1)$。它的概率密度函数通常用 $\phi(z)$ 表示。

标准化:任何一个服从 $N(\mu, \sigma^2)$ 的随机变量 $X$,都可以通过以下变换转化为标准正态分布变量 $Z$: \(Z = \frac{X - \mu}{\sigma}\) 这个过程称为标准化,得到的 $Z$ 值称为Z-score。标准化的意义在于,我们不需要为每一种 $\mu$ 和 $\sigma$ 的组合都计算一次概率,只需要一张标准正态分布表(Z表)就可以查询所有正态分布的概率问题。


与其他分布的关系

正态分布在概率论中处于中心地位,许多其他分布在特定条件下都会趋近于它。

  1. 中心极限定理 (Central Limit Theorem, CLT) 这是正态分布最重要的“关系”。该定理指出:任意一个群体的大量独立同分布的随机变量,它们的均值(或和)的分布近似于正态分布,无论原始群体的分布是什么样的。
    • 意义:这就是为什么正态分布如此普遍的原因。许多宏观现象(如身高、测量误差)都是由大量微观随机因素叠加影响而成,根据中心极限定理,这些现象的分布自然就趋向于正态分布。
  2. 正态分布近似二项分布 当二项分布 $B(n, p)$ 中的试验次数 $n$ 很大,且 $p$ 不太接近0或1时(通常要求 $np \ge 5$ 且 $n(1-p) \ge 5$),二项分布可以用正态分布 $N(np, np(1-p))$ 来近似。

  3. 正态分布近似泊松分布 当泊松分布 $P(\lambda)$ 的参数 $\lambda$ 很大时(通常 $\lambda \ge 20$),泊松分布可以用正态分布 $N(\lambda, \lambda)$ 来近似。

  4. 与卡方分布 ($\chi^2$)、t分布、F分布的关系 这三个统计学中的重要抽样分布都与正态分布密切相关:
    • 卡方分布:$n$ 个独立的标准正态分布变量的平方和,服从自由度为 $n$ 的卡方分布。
    • t分布:当总体方差未知时,用样本方差代替来对正态总体的均值进行估计和检验时使用的分布。当样本量 $n \to \infty$ 时,t分布趋近于标准正态分布。
    • F分布:两个独立的卡方分布变量除以各自自由度的比值,服从F分布,常用于方差分析。

例题讲解

问题:假设某校高三学生的数学考试成绩服从正态分布,平均成绩为105分,标准差为10分。随机抽取一名学生,求他的成绩在105分到120分之间的概率是多少?

分析

  • 随机变量 $X$ 为学生成绩, $X \sim N(105, 10^2)$。
  • 均值 $\mu = 105$,标准差 $\sigma = 10$。
  • 我们要求解的概率是 $P(105 < X < 120)$。

解答步骤

  1. 标准化 我们需要将 $X=105$ 和 $X=120$ 这两个点都转换为标准正态分布下的Z-score。
    • 对于 $X_1 = 105$: $Z_1 = \frac{X_1 - \mu}{\sigma} = \frac{105 - 105}{10} = 0$
    • 对于 $X_2 = 120$: $Z_2 = \frac{X_2 - \mu}{\sigma} = \frac{120 - 105}{10} = \frac{15}{10} = 1.5$
  2. 转化概率 因此,原问题 $P(105 < X < 120)$ 就等价于求标准正态分布下 $P(0 < Z < 1.5)$。 \(P(0 < Z < 1.5) = P(Z < 1.5) - P(Z < 0)\)

  3. 查标准正态分布表 (Z-table) 标准正态分布表通常给出 $P(Z < z)$ 的值,这个值也常用 $\Phi(z)$ 表示。
    • 查表可知,标准正态分布的均值为0,中位数也为0,所以 $P(Z < 0) = \Phi(0) = 0.5$。
    • 查表可得,$P(Z < 1.5) = \Phi(1.5) \approx 0.9332$。
  4. 计算最终概率 \(P(0 < Z < 1.5) = 0.9332 - 0.5 = 0.4332\)

结论:随机抽取一名学生,他的数学成绩在105分到120分之间的概率约为 43.32%

本文由作者按照 CC BY 4.0 进行授权