概述
STAMP(Systems-Theoretic Accident Model and Processes,基于系统理论的事故模型与过程)是莱文森教授在2000年前后提出的新型事故致因模型,其理论基础源自系统论、控制论与反馈理论,核心是将事故视为动态控制问题而非单纯的失效问题,适用于复杂社会技术系统(民航、航天、核电、医疗等)的安全分析。
在《Engineering a Safer World》中,莱文森明确指出:传统事故模型(如事件链模型、故障树分析FTA、失效模式与影响分析FMEA)基于可靠性理论,仅关注组件失效;而STAMP将安全性定义为系统的涌现特性,认为安全是通过对系统组件行为及交互施加安全约束来维持的,事故源于安全约束被违反且控制结构未能有效预防或检测这种违反。
应用场景
-
民航领域:分析Comair 5191航班事故(2006年)、友好火力事故(美军黑鹰直升机被误击),识别出控制结构中的多层级失效(如机场照明系统缺陷、ATC培训不足、组织安全文化问题)
-
航天领域:分析卫星发射失败案例,识别出软件设计错误、测试流程缺陷、组织沟通障碍等多重原因
-
医疗领域:分析医院用药错误、手术失误,识别出医生决策错误、护士执行错误、医院信息系统缺陷、组织培训不足等
-
核电领域:分析核电站事故,识别出设备失效、操作员错误、监管政策缺陷等。
三大要素
*引用《Engineering a Safer World》第4章
安全约束(Safety Constraints)
-
定义:安全约束是规定系统组件行为及交互必须满足的条件,以确保系统处于非危险状态;例如民航中“同一空域内两架飞机必须保持最小安全距离”、“飞机起飞前必须完成所有必要检查”
-
类型:
-
物理约束:基于自然规律的限制(如速度、压力、温度)
-
功能约束:系统功能执行的限制(如操作顺序、权限控制)
-
组织约束:组织层面的安全规则(如培训要求、应急预案)
-
-
核心观点:事故的根本原因是安全约束被违反,而非简单的组件失效。
分层安全控制结构(Hierarchical Safety Control Structure)
莱文森在书中提出,任何复杂系统都存在分层自适应控制结构,从上到下依次为:
| 控制层级 | 典型职责 | 民航案例 |
|---|---|---|
| 政策/法规层(Government/Regulatory) | 制定行业安全法规、标准 | 民航局(CAAC)制定飞行安全规则 |
| 组织/管理层(Organizational/Management) | 建立安全管理体系、分配资源 | 航空公司安全管理部门 |
| 监督/协调层(Supervisory/Coordination) | 监督操作、协调资源 | 机场运行控制中心(AOC) |
| 执行/操作层(Operational/Executive) | 执行具体任务 | 飞行员、空中交通管制员(ATC) |
| 物理/技术层(Physical/Technical) | 系统硬件、软件、环境 | 飞机、导航设备、气象系统 |
-
控制机制:每一层级通过指令、信息传递与反馈控制下一层级,同时接收上一层级的指令和下一层级的反馈;例如飞行员执行操作后向ATC报告,ATC向航空公司管理层反馈运行情况
-
关键问题:事故往往源于控制结构中的缺陷(如信息传递延迟、反馈失效、决策错误、协调不足),而非单一组件的问题。
过程模型(Process Models)
-
定义:过程模型描述系统随时间变化的动态行为,包括控制动作、状态变化、反馈回路
-
核心要素:
-
控制器(Controller):做出决策并发出控制指令(如ATC、飞行员)
-
被控过程(Controlled Process):被控制的系统或组件(如飞机、空域)
-
传感器(Sensor):监测被控过程状态并提供反馈(如雷达、仪表)
-
执行器(Actuator):执行控制器指令(如飞机发动机、舵面)
-
-
过程循环:控制器接收反馈信息→根据安全约束评估当前状态→发出控制指令→执行器执行→传感器监测新状态→反馈给控制器;事故往往发生在过程循环中的某个环节失效(如传感器故障导致反馈错误、控制器决策违反安全约束)。
事故原因分类
*引用《Engineering a Safer World》第4.5节
莱文森将事故原因分为五大类,强调事故是多重原因在时间上的累积效应,而非单一原因:
-
控制器操作错误:
-
决策错误:违反安全约束的决策(如飞行员在恶劣天气下强行起飞)
-
执行错误:正确决策但执行不当(如操作顺序错误)
-
监督错误:未能有效监督下属操作(如ATC未能及时提醒飞行员)
-
-
执行器和被控过程失效:
-
硬件失效:如发动机故障、雷达失效
-
软件失效:如飞行管理系统(FMS)逻辑错误
-
环境变化:如突发恶劣天气、跑道异物
-
-
协调与沟通问题:
-
信息传递延迟或错误:如飞行员与ATC之间的通信中断
-
职责不清或重叠:如多个部门负责同一安全环节但缺乏协调
-
跨层级沟通障碍:如一线操作问题未能及时传递到管理层
-
-
控制结构缺陷:
-
安全约束不完整或不明确:如缺乏针对新型技术的安全规则
-
反馈机制失效:如未能及时发现安全约束被违反
-
资源不足:如培训不足、设备维护不及时
-
-
背景和环境因素:
-
组织文化:如过度强调效率而忽视安全
-
外部压力:如商业竞争、政治干预
-
社会因素:如公众对安全的认知不足。
-
基于STAMP的安全方法
*引用《Engineering a Safer World》)
STPA(Systems-Theoretic Process Analysis,系统理论过程分析)
STPA是基于STAMP的前瞻性危险分析方法,在《Engineering a Safer World》第8章详细介绍,步骤包括:
-
定义系统边界和安全约束
-
构建系统控制结构
-
识别潜在的控制动作与反馈失效
-
分析这些失效如何导致安全约束被违反
-
提出改进措施以强化控制结构
与传统FMEA/FTA相比,STPA能识别组件交互导致的事故(如软件与硬件交互错误、人为与技术因素交互错误),这些是传统方法难以发现的。
CAST(Causal Analysis Using System Theory,系统理论因果分析)
CAST是基于STAMP的事故/事件后分析方法,在《Engineering a Safer World》第11章详细介绍,步骤包括:
-
定义事故边界和安全约束违反情况
-
构建事故发生时的系统控制结构
-
分析控制结构中各层级的失效(从物理层到政策层)
-
识别安全约束被违反的根本原因
-
提出系统性改进措施
CAST与传统事故分析方法(如根因分析RCA)的区别在于:RCA往往聚焦于直接原因和人为错误,而CAST关注整个控制结构的系统性缺陷,包括组织、管理、政策层面的问题。
优势与局限性
(一)优势
-
适用于复杂社会技术系统,能处理组件交互导致的事故(传统方法难以处理)
-
同时支持前瞻性危险分析(STPA) 和后向事故分析(CAST)
-
关注整个控制结构,包括组织、管理、政策层面的问题,而非仅关注技术层面
-
能识别软件、人为因素、组织文化等传统方法容易忽视的原因。
(二)局限性
-
对分析人员的系统思维能力要求较高,需要理解复杂系统的控制结构
-
应用过程耗时较长,需要收集大量系统信息
-
缺乏标准化的工具支持(虽然已有一些软件工具,但尚未普及)。
延申阅读
美国工程院院士、麻省理工学院(MIT)南希·莱文森(Nancy G. Leveson)教授的两部权威专著:
-
《Engineering a Safer World: Systems Thinking Applied to Safety》(MIT Press,2011/2012),中文版《基于系统思维构筑安全系统》(机械工业出版社,2019)
-
《Safeware: System Safety and Computers》(Addison-Wesley,1995)