概述

STAMP（Systems-Theoretic Accident Model and Processes，基于系统理论的事故模型与过程）是莱文森教授在2000年前后提出的新型事故致因模型，其理论基础源自系统论、控制论与反馈理论，核心是将事故视为动态控制问题而非单纯的失效问题，适用于复杂社会技术系统（民航、航天、核电、医疗等）的安全分析。

在《Engineering a Safer World》中，莱文森明确指出：传统事故模型（如事件链模型、故障树分析FTA、失效模式与影响分析FMEA）基于可靠性理论，仅关注组件失效；而STAMP将安全性定义为系统的涌现特性，认为安全是通过对系统组件行为及交互施加安全约束来维持的，事故源于安全约束被违反且控制结构未能有效预防或检测这种违反。

应用场景

民航领域：分析Comair 5191航班事故（2006年）、友好火力事故（美军黑鹰直升机被误击），识别出控制结构中的多层级失效（如机场照明系统缺陷、ATC培训不足、组织安全文化问题）
航天领域：分析卫星发射失败案例，识别出软件设计错误、测试流程缺陷、组织沟通障碍等多重原因
医疗领域：分析医院用药错误、手术失误，识别出医生决策错误、护士执行错误、医院信息系统缺陷、组织培训不足等
核电领域：分析核电站事故，识别出设备失效、操作员错误、监管政策缺陷等。

三大要素

*引用《Engineering a Safer World》第4章

安全约束（Safety Constraints）

定义：安全约束是规定系统组件行为及交互必须满足的条件，以确保系统处于非危险状态；例如民航中“同一空域内两架飞机必须保持最小安全距离”、“飞机起飞前必须完成所有必要检查”
类型：
- 物理约束：基于自然规律的限制（如速度、压力、温度）
- 功能约束：系统功能执行的限制（如操作顺序、权限控制）
- 组织约束：组织层面的安全规则（如培训要求、应急预案）
核心观点：事故的根本原因是安全约束被违反，而非简单的组件失效。

分层安全控制结构（Hierarchical Safety Control Structure）

莱文森在书中提出，任何复杂系统都存在分层自适应控制结构，从上到下依次为：

控制层级	典型职责	民航案例
政策/法规层（Government/Regulatory）	制定行业安全法规、标准	民航局（CAAC）制定飞行安全规则
组织/管理层（Organizational/Management）	建立安全管理体系、分配资源	航空公司安全管理部门
监督/协调层（Supervisory/Coordination）	监督操作、协调资源	机场运行控制中心（AOC）
执行/操作层（Operational/Executive）	执行具体任务	飞行员、空中交通管制员（ATC）
物理/技术层（Physical/Technical）	系统硬件、软件、环境	飞机、导航设备、气象系统

控制机制：每一层级通过指令、信息传递与反馈控制下一层级，同时接收上一层级的指令和下一层级的反馈；例如飞行员执行操作后向ATC报告，ATC向航空公司管理层反馈运行情况
关键问题：事故往往源于控制结构中的缺陷（如信息传递延迟、反馈失效、决策错误、协调不足），而非单一组件的问题。

过程模型（Process Models）

定义：过程模型描述系统随时间变化的动态行为，包括控制动作、状态变化、反馈回路
核心要素：
- 控制器（Controller）：做出决策并发出控制指令（如ATC、飞行员）
- 被控过程（Controlled Process）：被控制的系统或组件（如飞机、空域）
- 传感器（Sensor）：监测被控过程状态并提供反馈（如雷达、仪表）
- 执行器（Actuator）：执行控制器指令（如飞机发动机、舵面）
过程循环：控制器接收反馈信息→根据安全约束评估当前状态→发出控制指令→执行器执行→传感器监测新状态→反馈给控制器；事故往往发生在过程循环中的某个环节失效（如传感器故障导致反馈错误、控制器决策违反安全约束）。

事故原因分类

*引用《Engineering a Safer World》第4.5节

莱文森将事故原因分为五大类，强调事故是多重原因在时间上的累积效应，而非单一原因：

控制器操作错误：
- 决策错误：违反安全约束的决策（如飞行员在恶劣天气下强行起飞）
- 执行错误：正确决策但执行不当（如操作顺序错误）
- 监督错误：未能有效监督下属操作（如ATC未能及时提醒飞行员）
执行器和被控过程失效：
- 硬件失效：如发动机故障、雷达失效
- 软件失效：如飞行管理系统（FMS）逻辑错误
- 环境变化：如突发恶劣天气、跑道异物
协调与沟通问题：
- 信息传递延迟或错误：如飞行员与ATC之间的通信中断
- 职责不清或重叠：如多个部门负责同一安全环节但缺乏协调
- 跨层级沟通障碍：如一线操作问题未能及时传递到管理层
控制结构缺陷：
- 安全约束不完整或不明确：如缺乏针对新型技术的安全规则
- 反馈机制失效：如未能及时发现安全约束被违反
- 资源不足：如培训不足、设备维护不及时
背景和环境因素：
- 组织文化：如过度强调效率而忽视安全
- 外部压力：如商业竞争、政治干预
- 社会因素：如公众对安全的认知不足。

基于STAMP的安全方法

*引用《Engineering a Safer World》）

STPA（Systems-Theoretic Process Analysis，系统理论过程分析）

STPA是基于STAMP的前瞻性危险分析方法，在《Engineering a Safer World》第8章详细介绍，步骤包括：

定义系统边界和安全约束
构建系统控制结构
识别潜在的控制动作与反馈失效
分析这些失效如何导致安全约束被违反
提出改进措施以强化控制结构

与传统FMEA/FTA相比，STPA能识别组件交互导致的事故（如软件与硬件交互错误、人为与技术因素交互错误），这些是传统方法难以发现的。

CAST（Causal Analysis Using System Theory，系统理论因果分析）

CAST是基于STAMP的事故/事件后分析方法，在《Engineering a Safer World》第11章详细介绍，步骤包括：

定义事故边界和安全约束违反情况
构建事故发生时的系统控制结构
分析控制结构中各层级的失效（从物理层到政策层）
识别安全约束被违反的根本原因
提出系统性改进措施

CAST与传统事故分析方法（如根因分析RCA）的区别在于：RCA往往聚焦于直接原因和人为错误，而CAST关注整个控制结构的系统性缺陷，包括组织、管理、政策层面的问题。

优势与局限性

（一）优势

适用于复杂社会技术系统，能处理组件交互导致的事故（传统方法难以处理）
同时支持前瞻性危险分析（STPA） 和后向事故分析（CAST）
关注整个控制结构，包括组织、管理、政策层面的问题，而非仅关注技术层面
能识别软件、人为因素、组织文化等传统方法容易忽视的原因。

（二）局限性

对分析人员的系统思维能力要求较高，需要理解复杂系统的控制结构
应用过程耗时较长，需要收集大量系统信息
缺乏标准化的工具支持（虽然已有一些软件工具，但尚未普及）。

延申阅读

美国工程院院士、麻省理工学院（MIT）南希·莱文森（Nancy G. Leveson）教授的两部权威专著：

《Engineering a Safer World: Systems Thinking Applied to Safety》（MIT Press，2011/2012），中文版《基于系统思维构筑安全系统》（机械工业出版社，2019）
《Safeware: System Safety and Computers》（Addison-Wesley，1995）