Posts 第九章 分类数据分析
Post
Cancel

第九章 分类数据分析

1. 举例说明什么是列联表的独立性检验。

答:变量分为定量变量和定性变量。对于定量变量可以用相关分析、回归分析等方法进行研究。对于定性变量的相关性分析,如吸烟是否与患癌症有关、性别与是否喜欢数学有关、年龄和喜欢的电视节目类型是否有关等等,可以采用列联表的独立性检验。列联表的独立性检验是对两个或两个以上分类变量的检验,因其分析过程可以通过列联表的方式呈现,故又可称为列联分析。在二维列联表中独立性检验就是分析列联表中行变量和列变量是否相互独立。
例如:为了研究年龄和喜欢的节目类型是否有关系,某单位对其职工进行了全面调查,根据不同年龄档和喜爱收看电视节目的类型进行了统计分类,如下表所示:

 老年中年青年合计
戏曲2010232
歌舞5203560
球赛2102032
合计274057124

按照假设检验的步骤:

  1. 设定假设:H0:Pij=Pi*·P*j(行变量与列变量独立);H1:Pij≠Pi*·P*j(行变量与列变量不独立)(其中Pi*是各行的边缘概率,P*j是各列的边缘概率)
  2. 选取统计量:
      $\chi^2=\sum\limits_{i=1}^r\sum\limits_{j=1}^c\dfrac{(n_{ij}-e_{ij})^2}{e_{ij}}$
    其中,nij为列联表中第i行第j列类别的实际频数;eij为列联表中第i行第j列类别的期望频数,且

      $e_{ij}=n·(\dfrac{n_{i*}}{n})·(\dfrac{n_{*j}}{n})=\dfrac{n_{i*}n_{*j}}{n}$

      $df=(r-1)·(c-1)$

  3. 最后代入数字,计算检验统计量的值。
  4. 当统计量的值很大时,有理由拒绝原假设,认为行向量与列向量不独立,即年龄和喜欢的节目类型有关系。反之,年龄和喜欢的节目类型无关。

2. 说明计算χ2统计量的步骤。

答:在二维列联表的独立性检验中,计算$\chi ^2$统计量的步骤如下:
(1)将观测数据关于两个定性变量进行交叉分类,得到每一个单元格中的观测频数$n_{ij}$,以及行边缘频数$n_{i*}$、列边缘频数$n_{*j}$。
(2)计算得到列联表中第i行第j列单元格的期望频数为:

  $e_{ij}=n·(\dfrac{n_{i*}}{n})·(\dfrac{n_{*j}}{n})=\dfrac{n_{i*}n_{*j}}{n}$

(3)将数据带入检验统计量:

  $\chi^2=\sum\limits_{i=1}^r\sum\limits_{j=1}^c\dfrac{(n_{ij}-e_{ij})^2}{e_{ij}}$

即可计算得$\chi ^2$统计量的值。

3. 简述φ系数、c系数、V系数的各自特点。

答:(1)φ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。它的计算公式为:

  $\varphi=\sqrt{\chi^2/n}$

式中,

  $\chi ^2=\sum\dfrac{(f_0-f_e)^2}{f_e}$

n为列联表中的总频数,也即样本量。φ系数适合于2×2列联表,因为对于2×2列联表中的数据,计算出的φ系数可以控制在0~1这个范围。
(2)列联相关系数又称列联系数,简称c系数,主要用于大于2×2列联表的情况。c系数的计算公式为:

  $c=\sqrt{\dfrac{\chi ^2}{\chi ^2+n}}$

当列联表中的两个变量相互独立时,系数c=0,但它不可能大于1。c系数的特点是,其可能的最大值依赖于列联表的行数和列数,且随着R和C的增大而增大。
(3)克莱默提出了V系数。V系数的计算公式为:

  $V=\sqrt{\dfrac{\chi ^2}{n*min[(R-1),(C-1)]}}$

当两个变量相互独立时,V=0;当两个变量完全相关时,V=1。所以V的取值在0~1之间。如果列联表中有一维为2,即min[(R-1),(C-1)]=1,则V值就等于φ值。

This post is licensed under CC BY 4.0 by the author.

第十章 方差分析

第八章 假设检验

Comments powered by Disqus.