卡方检验(Chi-Square Test)
定义
卡方检验是一种非参数检验方法,用于分析分类变量之间的关联性,核心是比较观测频数与期望频数的差异程度,判断差异是否由抽样误差导致。
适用条件
-
数据类型:计数数据(如人数、例数、频次),变量为无序分类变量(如性别:男/女;疾病状态:患病/未患病)。
-
样本要求:
-
样本量足够大,一般每个单元格的期望频数 ≥ 5;若期望频数<5且样本量小,需改用Fisher精确检验。
-
观测值相互独立。
-
主要类型及原理
| 检验类型 | 分析目的 | 核心公式 | 自由度 |
|---|---|---|---|
| 卡方拟合优度检验 | 检验单个分类变量的分布是否符合预期分布(如是否符合正态分布、均匀分布) | ||
| 卡方独立性检验 | 检验两个无序分类变量是否存在关联性(如吸烟与肺癌是否相关) | 同拟合优度检验公式 |
操作步骤
-
建立假设
:两个变量相互独立; :两个变量相关联。
-
构建列联表
- 整理两个分类变量的交叉计数数据(如吸烟/不吸烟与患病/未患病的四格表)。
-
计算期望频数
-
计算卡方统计量
- 代入公式
- 代入公式
-
显著性判断
- 根据自由度查
临界值表,或计算 值;若 ,拒绝 ,认为变量相关。
- 根据自由度查
优缺点
-
优点:适用范围广,对分类数据兼容性强;计算简单,结果易解释。
-
缺点:仅能判断是否关联,无法衡量关联强度;对样本量敏感,小样本时结果不可靠。
应用案例
在民航安全管理中,检验**飞行员疲劳状态(疲劳/不疲劳)与飞行差错类型(操作差错/判断差错/无差错)**是否存在关联,可采用卡方独立性检验。
肯德尔相关性分析(Kendall’s Tau Correlation)
定义
肯德尔相关性是一种非参数相关分析方法,通过衡量两个变量秩次的一致性,判断变量间的关联方向和强度,常用指标为肯德尔τ系数(Kendall’s
适用条件
-
数据类型:有序分类变量(如满意度:高/中/低;事故等级:重大/一般/轻微)或不满足正态分布的连续变量。
-
样本要求:观测值相互独立;变量需可排序。
原理
基于一致对和不一致对的计数:
-
一致对:两个样本在变量
和 上的秩次顺序相同(如 且 )。 -
不一致对:两个样本在变量
和 上的秩次顺序相反(如 且 )。
τ系数的本质是一致对与不一致对的差值占总对数的比例,取值范围为
-
:正相关; :负相关; :无相关。 -
越接近1,相关性越强。
主要τ系数类型
| 系数类型 | 适用场景 | 特点 |
|---|---|---|
| τ-a | 无相同秩次的变量(严格排序) | 公式简单,仅适用于完全排序数据 |
| τ-b | 存在相同秩次的变量(有结数据) | 对结数据进行校正,应用最广泛 |
| τ-c | 列联表形式的有序分类数据 | 适用于行数和列数不等的有序列联表 |
操作步骤
-
建立假设
:两个变量无秩相关; :两个变量有秩相关。
-
对变量排序
- 将两个变量分别转换为秩次(如将满意度“高/中/低”转换为秩次3/2/1)。
-
计算一致对(
)和不一致对( ) - 遍历所有样本对,统计符合一致/不一致条件的对数。
-
计算τ系数
- 以τ-b为例:
,其中 、 为两个变量的结数校正项。
- 以τ-b为例:
-
显著性检验
- 计算Z统计量或直接查τ系数临界值表,判断
值是否小于0.05。
- 计算Z统计量或直接查τ系数临界值表,判断
优缺点
-
优点:非参数检验,对异常值和数据分布无要求;适用于有序分类变量,弥补皮尔逊相关的不足。
-
缺点:检验效能低于皮尔逊相关(若数据满足正态分布,优先选皮尔逊);结果解释仅针对秩次,而非原始数值。
应用案例
在民航安全中,分析**航班延误时长等级(长/中/短)与旅客投诉程度(严重/中度/轻微)**的相关性,因两者均为有序分类变量,适合用肯德尔τ系数分析。
让步比分析(优势比,Odds Ratio, OR)
定义
让步比(OR值)是病例-对照研究中衡量暴露因素与疾病关联强度的核心指标,反映“病例组暴露优势”与“对照组暴露优势”的比值。
- 暴露优势:某组中暴露人数与非暴露人数的比值(
)。
适用条件
-
研究类型:病例-对照研究(回顾性研究);也可用于队列研究的横断面分析。
-
数据类型:二分类变量(暴露:是/否;疾病:是/否),整理为四格表形式。
-
样本要求:病例组与对照组的暴露状态相互独立;疾病发病率较低(此时OR值近似等于相对危险度RR)。
原理
以经典四格表为例:
| 分组 | 暴露 | 非暴露 | 合计 |
|---|---|---|---|
| 病例组 | a | b | |
| 对照组 | c | d |
-
病例组暴露优势:
-
对照组暴露优势:
-
优势比:
OR值的意义解读
| OR值范围 | 关联意义 |
|---|---|
| 暴露因素与疾病无关联 | |
| 暴露因素是疾病的危险因素(OR越大,关联越强) | |
| 暴露因素是疾病的保护因素(OR越小,保护作用越强) |
操作步骤
-
构建四格表
- 明确病例组(患病)、对照组(未患病)的暴露人数和非暴露人数。
-
计算OR值
- 代入公式
。
- 代入公式
-
计算95%置信区间(95%CI)
-
采用 Woolf 法:
的95%CI = ,其中 。 -
若95%CI不包含1,则OR值具有统计学意义。
-
-
显著性检验
- 可结合卡方检验(如Mantel-Haenszel卡方检验),判断
值是否<0.05。
- 可结合卡方检验(如Mantel-Haenszel卡方检验),判断
优缺点
-
优点:适用于病例-对照研究(无法计算RR值的场景);结果直观,可直接反映暴露与疾病的关联强度;对样本量要求相对较低。
-
缺点:仅能衡量关联强度,无法证明因果关系;当疾病发病率较高时,OR值与RR值偏差较大,不能近似替代。
应用案例
在民航安全中,研究**飞行员夜间执勤(暴露:是/否)与飞行操作失误(疾病:是/否)**的关联,采用病例-对照研究设计,收集失误飞行员(病例组)和无失误飞行员(对照组)的夜间执勤情况,计算OR值判断夜间执勤是否为操作失误的危险因素。
方法对比
| 对比维度 | 卡方检验 | 肯德尔相关性 | 让步比(OR)分析 |
|---|---|---|---|
| 分析目的 | 判断两个无序分类变量是否关联 | 判断两个有序/非正态变量的秩相关强度 | 衡量暴露因素与疾病的关联强度 |
| 数据类型 | 无序分类变量(计数数据) | 有序分类变量/非正态连续变量 | 二分类变量(暴露/疾病) |
| 核心指标 | 肯德尔τ系数 | OR值+95%置信区间 | |
| 结果解读 | 仅判断“是否关联”,无方向/强度 | 关联方向(正/负)+强度( | τ |
| 适用研究类型 | 描述性研究、横断面研究 | 相关性研究 | 病例-对照研究、队列研究 |