数据关联性分析

卡方检验(Chi-Square Test)

定义

卡方检验是一种非参数检验方法,用于分析分类变量之间的关联性,核心是比较观测频数期望频数的差异程度,判断差异是否由抽样误差导致。


适用条件

  • 数据类型:计数数据(如人数、例数、频次),变量为无序分类变量(如性别:男/女;疾病状态:患病/未患病)。

  • 样本要求:

    • 样本量足够大,一般每个单元格的期望频数 ≥ 5;若期望频数<5且样本量小,需改用Fisher精确检验

    • 观测值相互独立。


主要类型及原理

检验类型 分析目的 核心公式 自由度
卡方拟合优度检验 检验单个分类变量的分布是否符合预期分布(如是否符合正态分布、均匀分布) χ2=(OiEi)2Ei Oi =观测频数, Ei =期望频数 df=k1m k =类别数, m =估计参数个数
卡方独立性检验 检验两个无序分类变量是否存在关联性(如吸烟与肺癌是否相关) 同拟合优度检验公式 df=(R1)(C1) R =行类别数, C =列类别数

操作步骤

  1. 建立假设

    • H0 :两个变量相互独立; H1 :两个变量相关联。
  2. 构建列联表

    • 整理两个分类变量的交叉计数数据(如吸烟/不吸烟与患病/未患病的四格表)。
  3. 计算期望频数

    • Eij=i×j
  4. 计算卡方统计量

    • 代入公式 χ2=(OijEij)2Eij
  5. 显著性判断

    • 根据自由度查 χ2 临界值表,或计算 P 值;若 P0.05 ,拒绝 H0 ,认为变量相关。

优缺点

  • 优点:适用范围广,对分类数据兼容性强;计算简单,结果易解释。

  • 缺点:仅能判断是否关联,无法衡量关联强度;对样本量敏感,小样本时结果不可靠。


应用案例

在民航安全管理中,检验**飞行员疲劳状态(疲劳/不疲劳)飞行差错类型(操作差错/判断差错/无差错)**是否存在关联,可采用卡方独立性检验。


肯德尔相关性分析(Kendall’s Tau Correlation)

定义

肯德尔相关性是一种非参数相关分析方法,通过衡量两个变量秩次的一致性,判断变量间的关联方向和强度,常用指标为肯德尔τ系数(Kendall’s τ )。


适用条件

  • 数据类型:有序分类变量(如满意度:高/中/低;事故等级:重大/一般/轻微)或不满足正态分布的连续变量

  • 样本要求:观测值相互独立;变量需可排序。


原理

基于一致对不一致对的计数:

  • 一致对:两个样本在变量 XY 上的秩次顺序相同(如 X1>X2Y1>Y2 )。

  • 不一致对:两个样本在变量 XY 上的秩次顺序相反(如 X1>X2Y1<Y2 )。

τ系数的本质是一致对与不一致对的差值占总对数的比例,取值范围为 [1,1]

  • τ>0 :正相关; τ<0 :负相关; τ=0 :无相关。

  • |τ| 越接近1,相关性越强。


主要τ系数类型

系数类型 适用场景 特点
τ-a 无相同秩次的变量(严格排序) 公式简单,仅适用于完全排序数据
τ-b 存在相同秩次的变量(有结数据) 对结数据进行校正,应用最广泛
τ-c 列联表形式的有序分类数据 适用于行数和列数不等的有序列联表

操作步骤

  1. 建立假设

    • H0 :两个变量无秩相关; H1 :两个变量有秩相关。
  2. 对变量排序

    • 将两个变量分别转换为秩次(如将满意度“高/中/低”转换为秩次3/2/1)。
  3. 计算一致对( Nc )和不一致对( Nd

    • 遍历所有样本对,统计符合一致/不一致条件的对数。
  4. 计算τ系数

    • 以τ-b为例: τb=NcNd(T0T1)(T0T2) ,其中 T1T2 为两个变量的结数校正项。
  5. 显著性检验

    • 计算Z统计量或直接查τ系数临界值表,判断 P 值是否小于0.05。

优缺点

  • 优点:非参数检验,对异常值和数据分布无要求;适用于有序分类变量,弥补皮尔逊相关的不足。

  • 缺点:检验效能低于皮尔逊相关(若数据满足正态分布,优先选皮尔逊);结果解释仅针对秩次,而非原始数值。


应用案例

在民航安全中,分析**航班延误时长等级(长/中/短)旅客投诉程度(严重/中度/轻微)**的相关性,因两者均为有序分类变量,适合用肯德尔τ系数分析。


让步比分析(优势比,Odds Ratio, OR)

定义

让步比(OR值)是病例-对照研究中衡量暴露因素与疾病关联强度的核心指标,反映“病例组暴露优势”与“对照组暴露优势”的比值。

  • 暴露优势:某组中暴露人数与非暴露人数的比值( Odds= )。

适用条件

  • 研究类型:病例-对照研究(回顾性研究);也可用于队列研究的横断面分析。

  • 数据类型:二分类变量(暴露:是/否;疾病:是/否),整理为四格表形式。

  • 样本要求:病例组与对照组的暴露状态相互独立;疾病发病率较低(此时OR值近似等于相对危险度RR)。


原理

以经典四格表为例:

分组 暴露 非暴露 合计
病例组 a b a+b
对照组 c d c+d
  • 病例组暴露优势: Odds1=ab

  • 对照组暴露优势: Odds0=cd

  • 优势比: OR=Odds1Odds0=adbc


OR值的意义解读

OR值范围 关联意义
OR=1 暴露因素与疾病无关联
OR>1 暴露因素是疾病的危险因素(OR越大,关联越强)
OR<1 暴露因素是疾病的保护因素(OR越小,保护作用越强)

操作步骤

  1. 构建四格表

    • 明确病例组(患病)、对照组(未患病)的暴露人数和非暴露人数。
  2. 计算OR值

    • 代入公式 OR=adbc
  3. 计算95%置信区间(95%CI)

    • 采用 Woolf 法: ln(OR) 的95%CI = ln(OR)±1.96×SE[ln(OR)] ,其中 SE[ln(OR)]=1a+1b+1c+1d

    • 若95%CI不包含1,则OR值具有统计学意义。

  4. 显著性检验

    • 可结合卡方检验(如Mantel-Haenszel卡方检验),判断 P 值是否<0.05。

优缺点

  • 优点:适用于病例-对照研究(无法计算RR值的场景);结果直观,可直接反映暴露与疾病的关联强度;对样本量要求相对较低。

  • 缺点:仅能衡量关联强度,无法证明因果关系;当疾病发病率较高时,OR值与RR值偏差较大,不能近似替代。


应用案例

在民航安全中,研究**飞行员夜间执勤(暴露:是/否)飞行操作失误(疾病:是/否)**的关联,采用病例-对照研究设计,收集失误飞行员(病例组)和无失误飞行员(对照组)的夜间执勤情况,计算OR值判断夜间执勤是否为操作失误的危险因素。


方法对比

对比维度 卡方检验 肯德尔相关性 让步比(OR)分析
分析目的 判断两个无序分类变量是否关联 判断两个有序/非正态变量的秩相关强度 衡量暴露因素与疾病的关联强度
数据类型 无序分类变量(计数数据) 有序分类变量/非正态连续变量 二分类变量(暴露/疾病)
核心指标 χ2 统计量 肯德尔τ系数 OR值+95%置信区间
结果解读 仅判断“是否关联”,无方向/强度 关联方向(正/负)+强度( τ
适用研究类型 描述性研究、横断面研究 相关性研究 病例-对照研究、队列研究