文章

三大概率分布(二)

三大概率分布关于卡方分布的内容

三大概率分布(二)

今天我们来学习一下卡方分布(Chi-Squared Distribution, $\chi^2$ 分布)及其应用,并结合一个经典的例题来说明。

什么是卡方分布?

卡方分布是由标准正态分布构造出来的一种概率分布,它在统计学中应用极为广泛,尤其是在假设检验中。

  1. 定义:若 $k$ 个独立的随机变量 $Z_1, Z_2, …, Z_k$ 均服从标准正态分布 $N(0,1)$,则它们的平方和 $X = \sum_{i=1}^{k} Z_i^2$ 服从自由度为 $k$ 的卡方分布,记为 $X \sim \chi^2(k)$。
  2. 自由度 (Degrees of Freedom, df):这是卡方分布最重要的参数,它决定了分布的形状。自由度 $k$ 指的是构造这个分布所用的独立标准正态变量的个数。
  3. 性质
    • 非负性:卡方分布的值永远大于等于0,因为它是平方和。
    • 不对称性:它是一个右偏态分布。
    • 形状:随着自由度的增加,分布逐渐变得对称,趋近于正态分布。

卡方分布的主要应用

主要应用场景就是进行独立性检验:

  • 独立性检验 (Test of Independence)
    • 目的:检验两个分类变量是否相互独立。
    • 回答的问题:“变量A和变量B之间是否存在关联?”
    • 例如:检验吸烟与否和是否患有某种肺部疾病之间是否存在关联;检验不同性别的人对某款产品的偏好是否独立。

应用例题:拟合优度检验 (有使用独立性检验相关知识)

这是理解卡方检验最经典的例子。

问题背景

某赌场声称他们使用的骰子是公平的(即每个点数出现的概率都是1/6)。为了验证这一说法,我们独立投掷了该骰子120次,记录下每个点数出现的次数如下:

点数123456总计
观测频数 (O)202217181924120

我们能否在 显著性水平 $\alpha = 0.05$ 的情况下,认为这个骰子是公平的?

解答步骤

我们将使用假设检验的五个步骤来解决这个问题。

第一步:建立假设

  • 原假设 ($H_0$): 骰子是公平的。即各点数出现的概率相等,$p_1 = p_2 = p_3 = p_4 = p_5 = p_6 = 1/6$。
  • 备择假设 ($H_1$): 骰子是不公平的。即至少有一个点数出现的概率不等于 $1/6$。

第二步:计算理论频数 (E)

如果原假设成立(骰子是公平的),那么在120次投掷中,每个点数出现的 理论频数 (Expected Frequency) 应该是: $E_i = n \times p_i = 120 \times (1/6) = 20$ 所以,每个点数的理论频数都是20。

点数123456
观测频数 (O)202217181924
理论频数 (E)202020202020

第三步:计算卡方检验统计量 ($\chi^2$)

卡方统计量衡量了观测频数与理论频数之间的总体差异。 计算公式: \(\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i}\) 其中,$O_i$ 是第 $i$ 个类别的观测频数,$E_i$ 是理论频数,$k$ 是类别总数。

我们分步计算:

  • 点数1: $(20 - 20)^2 / 20 = 0 / 20 = 0.00$
  • 点数2: $(22 - 20)^2 / 20 = 4 / 20 = 0.20$
  • 点数3: $(17 - 20)^2 / 20 = 9 / 20 = 0.45$
  • 点数4: $(18 - 20)^2 / 20 = 4 / 20 = 0.20$
  • 点数5: $(19 - 20)^2 / 20 = 1 / 20 = 0.05$
  • 点数6: $(24 - 20)^2 / 20 = 16 / 20 = 0.80$

将它们相加得到卡方统计量: $\chi^2_{statistic} = 0.00 + 0.20 + 0.45 + 0.20 + 0.05 + 0.80 = 1.70$

第四步:确定临界值

我们需要查卡方分布表或使用软件来找到临界值。这需要两个参数:

  1. 显著性水平 ($\alpha$): 题目给定 $\alpha = 0.05$。
  2. 自由度 (df): 对于拟合优度检验,$df = k - 1$。这里有6个类别(点数1到6),所以 $df = 6 - 1 = 5$。

查阅卡方分布表,在 $df=5$ 且上侧尾部概率为 $0.05$ 的地方,我们找到 临界值 $\chi^2_{critical} \approx 11.070$。

第五步:做出决策并得出结论

  • 决策规则: 比较我们计算出的统计量和查表得到的临界值。
    • 如果 \(\chi^2_{statistic} \ge \chi^2_{critical}\),则拒绝原假设 \(H_0\)。
    • 如果 \(\chi^2_{statistic} < \chi^2_{critical}\),则不拒绝原假设 \(H_0\)。
  • 比较: 我们的计算结果是 $\chi^2_{statistic} = 1.70$,临界值是 $11.070$。 显然,$1.70 < 11.070$。

  • 结论: 由于我们的卡方统计量小于临界值,我们 没有足够的证据拒绝原假设。因此,在5%的显著性水平下,我们可以认为这个骰子是公平的。观测到的频数波动可以归因于随机抽样误差。
本文由作者按照 CC BY 4.0 进行授权