列联表的介绍

2024-05-10

1. 列联表的介绍

列联表是观测数据按两个或更多属性（定性变量）分类时所列出的频数表

列联表的介绍

2. 列联表的简介

一般，若总体中的个体可按两个属性A与B分类，A有r个等级A1,A2,…，Ar，B有c个等级B1,B2,…，Bc,从总体中抽取大小为n的样本，设其中有nij个个体的属性属于等级Ai和Bj，nij称为 频数，将r×c个nij排列为一个r行c列的二维列联表，简称r×c表。若所考虑的属性多于两个，也可按类似的方式作出列联表，称为多维列联表。

3. 列联表的指标

在判定变量之间存在关联性后，可用多种定量指标来刻画其关联程度。例如，对一般的r×с表，可用列联系数表示之。对一般的r×с表，特别是在多维表分析中，若无关联性（即独立性）的假设被拒绝，则通常还需要检验进一步的假设。例如对三维表，可能需要考虑一个变量是否与另外两个变量独立。对这类局部独立性的检验仍可用大样本的Ⅹ检验法。但是在多维情形，变量之间的关联性可能相当复杂。许多假设，直接用格概率表示是不方便的。一种处理方法是仿照线性统计模型，将格概率（或期望频数）的对数表示成各变量的主效应及各阶交互效应等未知参数的线性形式。这种模型称为对数线性模型，在此模型下，变量独立性的假设等价于交互效应等于零的假设。此外，还可以利用对数线性模型，根据实际观测频数，对各种具体模型进行拟合，并对各未知参数进行估计。估计的方法一般采用最大似然方法。由于这一类似然方程的解常无显式表示，通常需用迭代法求解，计算工作量很大。因此，多维列联表分析只在近代高速电子计算机的使用日益普及的情况下，才得到较为充分的发展，逐渐达到可以实际应用的程度。

列联表的指标

4. 列联表的释义

列联表又称交互分类表，所谓交互分类，是指同时依据两个变量的值，将所研究的个案分类。交互分类的目的是将两变量分组，然后比较各组的分布状况，以寻找变量间的关系。 若所考虑的属性多于两个，也可按类似的方式作出列联表,称为多维列联表。由于属性或定性变量的取值是离散的，因此多维列联表分析属于离散多元分析的范畴,列联表分析在应用统计，特别在医学、生物学及社会科学中，有重要的应用。

5. 列联表的基本问题

列联表分析的基本问题是，判明所考察的各属性之间有无关联，即是否独立。如在前例中，问题是：一个人是否色盲与其性别是否有关？在r×с表中，若以pi·、p·j和pij分别表示总体中的个体属于等级Ai，属于等级Bj和同时属于Ai、Bj的概率（pi·，p·j称边缘概率，pij称格概率）,“A、B两属性无关联”的假设可以表述为H0：pij=pi·p·j，(i=1，2，…，r；j=1,2,…，с)，未知参数pij、pi·、p·j的最大似然估计（见点估计）分别为行和及列和（统称边缘和）为样本大小。根据K.皮尔森(1904)的拟合优度检验或似然比检验（见假设检验）,当h0成立，且一切pi·>0和p·j>0时，统计量的渐近分布是自由度为(r－1)(с－1) 的Ⅹ分布，式中Eij=ni·n·j/n称为期望频数。当n足够大，且表中各格的Eij都不太小时，可以据此对h0作检验：若Ⅹ值足够大，就拒绝假设h0，即认为A与B有关联。在前面的色觉问题中，曾按此检验，判定出性别与色觉之间存在某种关联。需要注意若样本大小n不很大,则上述基于渐近分布的方法就不适用。对此，在四格表情形，R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下，根据超几何分布（见概率分布），可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列，以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加，若所得结果小于给定的显著性水平，则判定所考虑的两个属性存在关联，从而拒绝h0。

列联表的基本问题

6. 列联分析表中不包括相关系数类别的是

列联分析表中不包括相关系数类别的是φ相关系数。
一、φ相关系数的介绍
1、φ相关系数是描述2×2列联表数据相关程度最常用的一种相关系数。
2、φ系数适合2×2列联表，这是因为对于2×2列联表中的数据，计算出的φ系数可以控制在0～1这个范围。当φ=0，表明两变量相互独立；当|φ|=1，表明两变量完全相关。
3、当列联表R×C中的行数R或列数C大于2时，φ系数将随着R或C的变大而增大，且φ值没有上限。这时用φ系数测定两个变量的相关程度就不够清晰，可以采用列联相关系数。

二、相关系数的介绍
1、相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，是研究变量之间线性相关程度的量，一般用字母r表示。由于研究对象的不同，相关系数有多种定义方式，较为常用的是皮尔逊相关系数。

2、相关表和相关图可反映两个变量之间的相互关系及其相关方向，但无法确切地表明两个变量之间相关的程度。相关系数是按积差方法计算，同样以两变量与各自平均值的离差为基础，通过两个离差相乘来反映两变量之间相关程度；着重研究线性的单相关系数。

7. 16种常用的数据分析方法-列联分析

列联分析通常用来分析两个分类变量之间或者一个分类变量与顺序变量之间是否存在关联，关联的紧密程度如何。
  
 对关联性问题的处理称为独立性检验（Test of Independence），通过交叉列联表和 c2 检验进行列联分析。
  
 交叉列联表分为二维表与三维表两种，二维表交叉表可进行卡方检验，三维交叉表，可作Mentel-Hanszel分层分析。
  
 
  
  
  列联表结构 
  
  2*2 列联表 
                                          
   r *c 列联表 
                                          
 
  
  
  案例 
  
 公司在4个不同的地区设有分公司，公司准备进行工资级别调整。采用抽样调查方式，从4个分公司共抽取420个样本 (人)，了解职工对此调整的看法，交叉统计结果如下：
                                          
 
  
  
  观察频数分布表&百分比分布表的分布 
  
 列联交叉表中的统计值有两种类型：频数与百分比，对于两种类型的分布表，观察其分布时，要注意：
  
  一、频数分布表 
  
    1、观察边缘分布 
  
 行边缘分布：行观察值的合计数的分布
  
 列边缘分布：列观察值的合计数的分布
  
  2、观察条件分布与条件频数 
  
 变量  X  条件下变量  Y 的分布，或在变量  Y 条件下变量  X 的分布
  
 每个具体的观察值称为条件频数
                                          
  二、百分比分布 
  
 为在相同的基数上进行比较，可以计算相应的百分比，称为 百分比分布 
  
 1、观察行百分比：行的每一个观察频数除以相应的行合计数( fij /  ri )
  
 2、观察列百分比：列的每一个观察频数除以相应的列合计数(  fij /  cj  )
  
 3、观察总百分比：每一个观察值除以观察值的总个数(  fij /  n  )
                                          
 
  
  
  交叉列联表分析步骤 
  
  1.【分析】—【描述统计】—【交叉表】 
                                          
  【精确】 
  
 一般情况下，"精确检验"（Exact Tests）对话框的选项都默认为系统默认值，不作调整。
                                          
  【统计量】 
                                          
  【单元格】 
                                          
  【格式】 
                                          
  2.结果分析： 
                                          
  卡方检验 
                                          
 a. 16 单元格(100.0%) 的期望计数少于 5。最小期望计数为 .56。
  
 
  
  
 原假设：H0：职称、学历两者相互独立。
  
 皮尔逊（Pearson）的Chi-Square 值为18.553，自由度为9，
  
 p=.029<0.05，拒绝原假设，即在5%的显著性水平下不同文化程度对职称的影响存在着显著差异。
  
 结论：文化程度越高，职称越高。

16种常用的数据分析方法-列联分析