SPSS
定位
SPSS(Statistical Product and Service Solutions)是面向非编程人员的可视化统计工具,无需代码即可完成数据清洗、描述统计、假设检验、回归分析等操作,广泛应用于社科、管理、医学、民航安全等领域的数据分析。
适用场景
-
民航安全数据的描述性统计(如安全事件发生率、隐患整改率)
-
变量相关性分析(如航班延误时长与人为差错的关联)
-
差异显著性检验(如不同机场安全培训效果对比)
使用步骤
-
数据录入与导入
-
新建数据集:点击
文件-新建-数据,在“变量视图”中定义变量名、类型(如数值型、字符型)、标签(如“安全事件类型”)。 -
导入外部数据:支持Excel、CSV格式,点击
文件-打开-数据,选择文件后设置导入参数(如是否包含表头)。 -
民航案例:录入“机场名称”“安全隐患次数”“整改完成率”“航班量”等变量。
-
-
数据清洗
-
缺失值处理:点击
分析-缺失值分析,选择删除缺失值或用均值/中位数填充。 -
异常值处理:通过
分析-描述统计-探索,生成箱型图识别异常值,手动修正或剔除不合理数据。
-
-
统计分析操作
| 分析需求 | 操作路径 | 核心输出 |
|---|---|---|
| 描述统计(均值、标准差) | 分析-描述统计-描述 |
描述性统计量表 |
| 变量相关性分析 | 分析-相关-双变量 |
相关性矩阵(P值、相关系数r) |
| 方差分析(组间差异) | 分析-比较均值-单因素ANOVA |
方差分析表、显著性检验结果 |
| 回归分析(变量预测) | 分析-回归-线性 |
回归系数、R²、显著性检验 |
-
结果输出与导出
-
分析结果会显示在“输出视图”中,可右键选择
导出,保存为Word、PDF格式。 -
生成的图表(如直方图、箱型图)可右键
编辑内容-在单独窗口中进行样式调整。
-
样式描述
-
变量视图:表格形式,列标题为“名称、类型、宽度、小数、标签”,行对应每个变量的属性设置。
-
输出视图:分为“日志”“统计量表”“图表”三个板块,统计量表以表格呈现数值结果,图表嵌入在结果下方。
热力图(Heatmap)
定位
热力图是用颜色深浅展示数据矩阵分布规律的可视化图表,核心是体现“变量间相关性”或“数据在二维空间的密度”,颜色越深代表数值越大。
适用场景
-
民航安全变量相关性分析(如各机场隐患类型与发生频次的关联)
-
时间维度安全事件分布(如月度安全事件类型热力图)
工具使用步骤
1. SPSS 生成热力图
-
准备数据:需为矩阵格式(行和列均为变量,单元格为对应数值),如“机场A-机械隐患”“机场B-人为隐患”的频次数据。
-
操作路径:
图形-旧对话框-热图,选择“变量热图”,将行变量、列变量、值变量拖入对应框中。 -
样式调整:在“选项”中设置颜色梯度(如蓝色-白色-红色,红色代表高频次),添加数据标签。
2. Python 生成热力图(seaborn库)
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# 民航安全数据示例:机场-隐患类型频次矩阵
data = pd.DataFrame({
"机械隐患": [12, 8, 15, 6],
"人为隐患": [20, 18, 25, 10],
"环境隐患": [5, 3, 7, 2]
}, index=["机场A", "机场B", "机场C", "机场D"])
# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(data, annot=True, cmap="Reds", fmt="d", linewidths=0.5)
plt.title("各机场安全隐患类型频次热力图")
plt.show()
典型热力图样式描述
-
整体为矩形矩阵,行是机场名称,列是隐患类型。
-
单元格颜色从浅红到深红渐变,深红色单元格对应“机场C-人为隐患”(数值25),浅红色对应“机场D-环境隐患”(数值2)。
-
每个单元格内标注具体数值,方便精准读取。
散点图
定位
散点图是展示两个数值型变量之间相关性的图表,通过坐标点的分布判断变量间是“正相关、负相关、无相关”,还可添加趋势线强化规律。
适用场景
- 民航安全:分析“航班飞行时长”与“机械故障次数”的相关性、“安全培训时长”与“人为差错率”的相关性。
工具使用步骤
1. Excel 生成散点图
-
准备数据:两列数值型数据,如A列“飞行时长(小时)”、B列“机械故障次数”。
-
操作路径:选中数据区域-
插入-散点图-带平滑线和数据标记的散点图。 -
优化设置:添加趋势线(右键点击数据点-
添加趋势线),选择“线性”,勾选“显示公式”和“显示R²值”(R²越接近1,相关性越强)。
2. SPSS 生成散点图
-
操作路径:
图形-旧对话框-散点/点图,选择“简单散点图”。 -
变量设置:将自变量(如飞行时长)拖入“X轴”,因变量(如故障次数)拖入“Y轴”。
-
结果解读:若点呈从左下到右上分布,为正相关;若呈从左上到右下,为负相关;若点无规律分布,为无相关。
样式描述
-
X轴为“飞行时长(小时)”,Y轴为“机械故障次数”。
-
坐标点整体从左下到右上排列,说明飞行时长越长,机械故障次数越多(正相关)。
-
图中添加一条向上的线性趋势线,下方标注公式
y=0.02x+1.5和R²=0.78。
箱型图
定位
箱型图(又称箱线图)是展示数据分布特征的图表,能直观呈现数据的中位数、四分位数、异常值,常用于多组数据的离散程度对比。
元素解读
| 元素 | 含义 |
|---|---|
| 箱体 | 上边缘为上四分位数(Q3,75%分位数),下边缘为下四分位数(Q1,25%分位数),箱体高度为四分位距(IQR=Q3-Q1) |
| 中位数线 | 箱体内的横线,代表数据的中间值(50%分位数) |
| 须线 | 上须线延伸至Q3+1.5IQR,下须线延伸至Q1-1.5IQR |
| 异常值 | 须线外的圆点,代表超出正常范围的极端数据 |
适用场景
- 民航安全:对比不同航线的“安全检查合格率”分布、不同航空公司的“安全事件发生率”离散程度。
工具使用步骤
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
# 民航安全数据示例:不同航线安全检查合格率
data = pd.DataFrame({
"航线": ["航线1"]*20 + ["航线2"]*20 + ["航线3"]*20,
"合格率": [92,95,88,90,96,85,93,91,89,94,87,90,92,95,86,91,93,88,90,92,
85,88,82,86,89,80,87,85,83,88,81,86,84,89,82,87,85,83,86,88,
95,98,96,94,97,92,95,96,93,98,94,97,95,92,96,93,98,94,91,95]
})
# 绘制箱型图
plt.figure(figsize=(8, 6))
sns.boxplot(x="航线", y="合格率", data=data)
plt.title("不同航线安全检查合格率箱型图")
plt.show()
样式描述
-
X轴为“航线1、航线2、航线3”,Y轴为“合格率(%)”。
-
航线3的箱体整体最高,中位数线接近95%,说明合格率最高;航线2的箱体最低,中位数线约85%,合格率最低。
-
航线1的须线较长,且有1个异常值(圆点),说明该航线合格率离散程度较大,存在极端偏低的样本。
总结
| 工具/图表 | 核心功能 | 操作门槛 | 适用数据类型 | 民航安全应用场景 |
|---|---|---|---|---|
| SPSS | 统计分析+可视化 | 低(无需编程) | 数值型、字符型 | 安全数据显著性检验、回归分析 |
| 热力图 | 变量相关性/密度展示 | 中 | 矩阵型数值数据 | 机场-隐患类型频次分布 |
| 散点图 | 双变量相关性分析 | 低 | 双列数值型数据 | 飞行时长与故障次数关联 |
| 箱型图 | 数据分布与异常值识别 | 中 | 多组数值型数据 | 不同航线合格率对比 |