数据分析工具

SPSS

定位

SPSS(Statistical Product and Service Solutions)是面向非编程人员的可视化统计工具,无需代码即可完成数据清洗、描述统计、假设检验、回归分析等操作,广泛应用于社科、管理、医学、民航安全等领域的数据分析。


适用场景

  • 民航安全数据的描述性统计(如安全事件发生率、隐患整改率)

  • 变量相关性分析(如航班延误时长与人为差错的关联)

  • 差异显著性检验(如不同机场安全培训效果对比)


使用步骤

  1. 数据录入与导入

    • 新建数据集:点击文件-新建-数据,在“变量视图”中定义变量名、类型(如数值型、字符型)、标签(如“安全事件类型”)。

    • 导入外部数据:支持Excel、CSV格式,点击文件-打开-数据,选择文件后设置导入参数(如是否包含表头)。

    • 民航案例:录入“机场名称”“安全隐患次数”“整改完成率”“航班量”等变量。

  2. 数据清洗

    • 缺失值处理:点击分析-缺失值分析,选择删除缺失值或用均值/中位数填充。

    • 异常值处理:通过分析-描述统计-探索,生成箱型图识别异常值,手动修正或剔除不合理数据。

  3. 统计分析操作

分析需求 操作路径 核心输出
描述统计(均值、标准差) 分析-描述统计-描述 描述性统计量表
变量相关性分析 分析-相关-双变量 相关性矩阵(P值、相关系数r)
方差分析(组间差异) 分析-比较均值-单因素ANOVA 方差分析表、显著性检验结果
回归分析(变量预测) 分析-回归-线性 回归系数、R²、显著性检验
  1. 结果输出与导出

    • 分析结果会显示在“输出视图”中,可右键选择导出,保存为Word、PDF格式。

    • 生成的图表(如直方图、箱型图)可右键编辑内容-在单独窗口中进行样式调整。


样式描述

  • 变量视图:表格形式,列标题为“名称、类型、宽度、小数、标签”,行对应每个变量的属性设置。

  • 输出视图:分为“日志”“统计量表”“图表”三个板块,统计量表以表格呈现数值结果,图表嵌入在结果下方。


热力图(Heatmap)

定位

热力图是用颜色深浅展示数据矩阵分布规律的可视化图表,核心是体现“变量间相关性”或“数据在二维空间的密度”,颜色越深代表数值越大。


适用场景

  • 民航安全变量相关性分析(如各机场隐患类型与发生频次的关联)

  • 时间维度安全事件分布(如月度安全事件类型热力图)


工具使用步骤

1. SPSS 生成热力图

  1. 准备数据:需为矩阵格式(行和列均为变量,单元格为对应数值),如“机场A-机械隐患”“机场B-人为隐患”的频次数据。

  2. 操作路径:图形-旧对话框-热图,选择“变量热图”,将行变量、列变量、值变量拖入对应框中。

  3. 样式调整:在“选项”中设置颜色梯度(如蓝色-白色-红色,红色代表高频次),添加数据标签。

2. Python 生成热力图(seaborn库)


import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 民航安全数据示例:机场-隐患类型频次矩阵
data = pd.DataFrame({
    "机械隐患": [12, 8, 15, 6],
    "人为隐患": [20, 18, 25, 10],
    "环境隐患": [5, 3, 7, 2]
}, index=["机场A", "机场B", "机场C", "机场D"])

# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(data, annot=True, cmap="Reds", fmt="d", linewidths=0.5)
plt.title("各机场安全隐患类型频次热力图")
plt.show()

典型热力图样式描述

  • 整体为矩形矩阵,行是机场名称,列是隐患类型。

  • 单元格颜色从浅红到深红渐变,深红色单元格对应“机场C-人为隐患”(数值25),浅红色对应“机场D-环境隐患”(数值2)。

  • 每个单元格内标注具体数值,方便精准读取。


散点图

定位

散点图是展示两个数值型变量之间相关性的图表,通过坐标点的分布判断变量间是“正相关、负相关、无相关”,还可添加趋势线强化规律。


适用场景

  • 民航安全:分析“航班飞行时长”与“机械故障次数”的相关性、“安全培训时长”与“人为差错率”的相关性。

工具使用步骤

1. Excel 生成散点图

  1. 准备数据:两列数值型数据,如A列“飞行时长(小时)”、B列“机械故障次数”。

  2. 操作路径:选中数据区域-插入-散点图-带平滑线和数据标记的散点图

  3. 优化设置:添加趋势线(右键点击数据点-添加趋势线),选择“线性”,勾选“显示公式”和“显示R²值”(R²越接近1,相关性越强)。

2. SPSS 生成散点图

  1. 操作路径:图形-旧对话框-散点/点图,选择“简单散点图”。

  2. 变量设置:将自变量(如飞行时长)拖入“X轴”,因变量(如故障次数)拖入“Y轴”。

  3. 结果解读:若点呈从左下到右上分布,为正相关;若呈从左上到右下,为负相关;若点无规律分布,为无相关。


样式描述

  • X轴为“飞行时长(小时)”,Y轴为“机械故障次数”。

  • 坐标点整体从左下到右上排列,说明飞行时长越长,机械故障次数越多(正相关)。

  • 图中添加一条向上的线性趋势线,下方标注公式y=0.02x+1.5和R²=0.78。


箱型图

定位

箱型图(又称箱线图)是展示数据分布特征的图表,能直观呈现数据的中位数、四分位数、异常值,常用于多组数据的离散程度对比。


元素解读

元素 含义
箱体 上边缘为上四分位数(Q3,75%分位数),下边缘为下四分位数(Q1,25%分位数),箱体高度为四分位距(IQR=Q3-Q1)
中位数线 箱体内的横线,代表数据的中间值(50%分位数)
须线 上须线延伸至Q3+1.5IQR,下须线延伸至Q1-1.5IQR
异常值 须线外的圆点,代表超出正常范围的极端数据

适用场景

  • 民航安全:对比不同航线的“安全检查合格率”分布、不同航空公司的“安全事件发生率”离散程度。

工具使用步骤


import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# 民航安全数据示例:不同航线安全检查合格率
data = pd.DataFrame({
    "航线": ["航线1"]*20 + ["航线2"]*20 + ["航线3"]*20,
    "合格率": [92,95,88,90,96,85,93,91,89,94,87,90,92,95,86,91,93,88,90,92,
              85,88,82,86,89,80,87,85,83,88,81,86,84,89,82,87,85,83,86,88,
              95,98,96,94,97,92,95,96,93,98,94,97,95,92,96,93,98,94,91,95]
})

# 绘制箱型图
plt.figure(figsize=(8, 6))
sns.boxplot(x="航线", y="合格率", data=data)
plt.title("不同航线安全检查合格率箱型图")
plt.show()

样式描述

  • X轴为“航线1、航线2、航线3”,Y轴为“合格率(%)”。

  • 航线3的箱体整体最高,中位数线接近95%,说明合格率最高;航线2的箱体最低,中位数线约85%,合格率最低。

  • 航线1的须线较长,且有1个异常值(圆点),说明该航线合格率离散程度较大,存在极端偏低的样本。


总结

工具/图表 核心功能 操作门槛 适用数据类型 民航安全应用场景
SPSS 统计分析+可视化 低(无需编程) 数值型、字符型 安全数据显著性检验、回归分析
热力图 变量相关性/密度展示 矩阵型数值数据 机场-隐患类型频次分布
散点图 双变量相关性分析 双列数值型数据 飞行时长与故障次数关联
箱型图 数据分布与异常值识别 多组数值型数据 不同航线合格率对比