Files
ops/docs/首期验收矩阵.md

145 lines
18 KiB
Markdown
Raw Normal View History

2026-06-21 17:50:24 +08:00
# OPS 首期验收矩阵
## 1. 文档目标
本文根据 `docs/integrated-ops-platform-requirements.md``docs/integrated-ops-platform-blueprint-design.md``docs/首期数据模型与状态机.md``docs/首期UI状态覆盖.md` 编写,用于把 OPS-001 至 OPS-033 的需求落实到验收阶段、演示路径、数据准备、通过标准和证据要求。
首期验收重点不是证明所有模块已经全量完成,而是证明平台主线已经跑通:
```text
资源纳管 -> 指标 / Syslog / SNMP Trap / URL/API 探测 -> 原始事件 -> 告警 -> 通知 -> 确认 / 派单 -> 工单关闭 -> 报表 / 大屏 / 审计追踪
```
## 2. 阶段口径
| 阶段 | 验收口径 |
| --- | --- |
| 第 0 阶段 | 现场确认、样例资源、账号权限、部署环境、通知渠道、验收数据准备。 |
| 第 1 阶段 | 首期必须可演示、可闭环、可出证据的核心范围。 |
| 第 2 阶段 | 蓝图必备但不阻塞首期闭环;首期只验收接口预留、数据模型或样例能力。 |
| 第 3 阶段 | 运营治理和智能化增强;首期只验收规划口径,不作为功能通过项。 |
## 3. 通用验收前提
- 现场设备优先按 H3C/华三网络设备准备样例。
- 站内消息、短信、邮件为首期优先打通通知渠道。
- 3D 机房前端已外包OPS 首期只验收后端接口和样例数据。
- 老运维平台首期不迁移、不集成,只保留后续迁移评估入口。
- 本地开发命令使用 Windows PowerShell验收部署目标为 Linux/麒麟。
- 指标样本应进入选定时序数据库或其适配层,事务数据进入 PostgreSQL。
- “模拟 Trap、模拟 Syslog、可控 URL/API 故障”是否可作为正式验收手段仍需院方确认;确认前在矩阵中按“可控样例/待确认”处理。
## 4. 证据要求
每个验收项至少保留以下证据之一:
| 证据类型 | 要求 |
| --- | --- |
| 截图 | 页面全屏截图,包含时间、资源名称、状态或操作结果。 |
| 录像 | 端到端闭环建议录屏,覆盖触发、通知、确认、派单、关闭、报表。 |
| 导出文件 | 报表、告警导出、工单导出需保留原始文件。 |
| 接口响应 | 后端接口验收需保留请求参数、响应 JSON、HTTP 状态码和 `traceId`。 |
| 日志 | 采集、告警、通知、工单、权限、审计相关日志需能按 `traceId` 查询。 |
| 数据库记录 | 必要时保留 PostgreSQL 关键记录和时序库查询结果截图或导出。 |
## 5. OPS 验收矩阵
| 编号 | 能力 | 阶段 | 演示路径 | 数据准备 | 通过标准 | 证据 |
| --- | --- | --- | --- | --- | --- | --- |
| OPS-001 | 首页总览 | 第 1 阶段 | 登录首页,查看待处理告警、资源总览、告警趋势、网络状态;调整总览模块配置并保存。 | 至少准备主机、H3C/华三网络设备、数据库、URL/API 样例资源;准备 1 条未恢复告警。 | 首页数据来自后端真实记录;模块配置保存后刷新仍生效;空态、加载、错误、无权限状态可演示。 | 首页截图、模块配置前后截图、接口响应。 |
| OPS-002 | 操作系统监控 | 第 1 阶段 | 纳管一台主机,查看 CPU、内存、磁盘、网卡、流量、日志或 Syslog触发阈值告警。 | 主机账号或采集代理CPU/磁盘阈值规则;时序库写入样例。 | 指标趋势可查;采集状态可见;异常能生成告警并进入告警中心。 | 资源详情截图、时序查询结果、告警截图。 |
| OPS-003 | 服务器硬件监控 | 第 2 阶段,首期样例或预留 | 接入可用物理服务器或提供硬件健康样例接口,展示电压、电流、温度、风扇等字段。 | 现场服务器如短期不可接入,准备样例数据和资源类型模板。 | 首期至少完成模型、接口和页面位置预留;若现场设备可用,则展示真实硬件健康数据。 | 接口响应、资源类型模板截图、样例页面截图。 |
| OPS-004 | 网络设备监控 | 第 1 阶段 | 接入 H3C/华三网络设备展示接口状态、接口流量、ARP/路由/转发表样例;接收 Trap 或 Syslog 生成告警。 | H3C/华三设备型号、SNMP 版本、OID、Trap 字典、Syslog 样例、账号权限。 | H3C/华三样例设备可被识别接口状态和流量可查Trap/Syslog 能关联资源并生成告警。 | 设备详情截图、Trap/Syslog 原始事件、告警详情、接口响应。 |
| OPS-005 | 安全设备监控 | 第 2 阶段,首期样例或预留 | 展示安全设备资源类型、CPU、内存、接口状态和历史报表样例。 | 安全设备样例或模拟资源;指标定义。 | 首期完成资源类型、指标定义和接口预留;实际接入按现场设备顺延。 | 指标定义截图、接口响应、样例报表。 |
| OPS-006 | 存储监控 | 第 2 阶段,首期样例或预留 | 展示存储资源类型、容量、控制器、磁盘、端口状态样例。 | 存储设备型号或样例数据;指标定义。 | 首期完成模型与页面入口预留;若现场存储可接入,则展示真实容量和健康状态。 | 资源类型截图、样例趋势图、接口响应。 |
| OPS-007 | 数据库监控 | 第 1 阶段 | 接入一个数据库实例展示连通性、表空间或连接数、SQL TOP 样例、自定义 SQL 监控结果。 | 测试数据库账号;自定义 SQL阈值规则。 | 数据库状态可采集;自定义 SQL 可执行并入库;异常可触发告警。 | 数据库详情截图、自定义 SQL 配置、告警截图。 |
| OPS-008 | 中间件监控 | 第 2 阶段,首期样例或预留 | 展示 Tomcat、WebLogic、MQ 或国产中间件监控样例。 | 现场中间件类型待确认;可准备 Tomcat 样例。 | 首期至少完成资源类型、指标模板和接口预留;现场类型确认后再接入。 | 模板截图、样例接口响应、页面入口截图。 |
| OPS-009 | 虚拟化监控 | 第 1 阶段样例 | 接入或配置虚拟化样例展示宿主机、虚拟机、CPU、内存、磁盘、开关机状态。 | 虚拟化平台测试账号或可控样例数据。 | 虚拟化资源可在综合监控中查看;虚拟机状态变化可刷新;异常可关联告警。 | 虚拟化资源截图、接口响应、告警截图。 |
| OPS-010 | 日志与 Trap 监控 | 第 1 阶段 | 接收 H3C/华三或样例设备 Syslog、SNMP Trap配置 Trap 字典、OID 描述、规则、屏蔽策略。 | H3C/华三 Trap/Syslog 样例;模拟方式需院方确认。 | 原始事件可查;解析成功和未解析状态可见;规则命中后生成告警;屏蔽策略生效并留审计。 | 原始事件列表、规则配置截图、告警详情、审计日志。 |
| OPS-011 | URL 与业务可用性监控 | 第 1 阶段 | 配置 URL/API 探测,模拟 5xx、超时或断连触发可用性告警。 | 可控 URL/API探测周期响应码规则。 | 可用性、响应时间、状态码进入时序库;异常能生成告警并恢复;待确认是否允许模拟故障作为正式验收。 | 探测配置截图、趋势图、告警和恢复记录。 |
| OPS-012 | 动环与安全环境监控 | 第 2 阶段,首期预留 | 展示动环资源类型、温湿度、UPS、门禁等模型与接口预留。 | 动环设备短期不作为首期硬依赖;准备样例资源。 | 首期不要求真实动环接入;需证明数据模型可关联数据中心、机房、告警。 | 模型文档、接口响应、样例页面。 |
| OPS-013 | 网络拓扑管理 | 第 2 阶段,首期基础联动 | 展示基础拓扑或资源关系视图,点击资源查看告警和链路流量样例。 | H3C/华三设备、接口关系或手工拓扑样例。 | 首期不要求完整拓扑编辑器;需证明资源、链路、告警关系可查询。 | 拓扑样例截图、资源告警联动截图。 |
| OPS-014 | 网络流量分析 | 第 2 阶段,首期样例 | 查看 H3C/华三接口流量趋势,展示应用/协议/会话分析预留。 | 接口流量指标;如无流量分析源,准备接口流量样例。 | 首期至少展示接口流量趋势和异常告警;深度流量分析进入后续阶段。 | 流量趋势图、时序查询、告警截图。 |
| OPS-015 | 流量参数配置 | 第 2 阶段 | 配置应用、端口、协议和数据保存周期样例。 | 应用/端口/协议字典;保存周期策略。 | 首期可作为配置模型和接口预留;不阻塞核心闭环。 | 配置接口响应、策略页面截图。 |
| OPS-016 | IP 地址管理 | 第 2 阶段,首期预留 | 创建子网、IP 地址样例,展示 IP 与资源绑定入口。 | 样例子网、IP/MAC 数据;真实台账短期不可得。 | 首期不依赖真实 IP 台账;需支持后续导入和资源关联。 | 样例列表截图、导入接口说明。 |
| OPS-017 | IP 自动扫描与报表 | 第 2 阶段 | 配置扫描规则样例,展示 IP 统计报表接口预留。 | 扫描网段需现场授权;无授权时使用样例数据。 | 未获授权不得主动扫描生产网段;首期只验证模型和接口预留。 | 扫描配置截图、样例报表。 |
| OPS-018 | 告警降噪与策略 | 第 1 阶段 | 触发重复告警、依赖告警或维护窗口告警,验证去重、压缩、屏蔽、抑制。 | 主机或 H3C/华三设备告警样例;屏蔽策略;去重窗口。 | 告警风暴被降噪;策略命中可追踪;被抑制事件不丢失审计。 | 告警列表前后对比、策略命中记录、审计日志。 |
| OPS-019 | 告警模板与通知 | 第 1 阶段,渠道裁剪 | 配置告警模板变量,触发测试告警,发送站内消息、短信、邮件。 | 站内消息配置;短信平台测试账号;邮件服务配置。 | 首期必须打通站内消息、短信、邮件;微信、企业微信、钉钉、电话等作为后续扩展。 | 模板截图、三类通知记录、收件截图或发送回执。 |
| OPS-020 | 告警级别与升级 | 第 1 阶段 | 配置多级告警和升级策略,高低级别同时命中时只发送高级别;超时未确认自动升级。 | 至少 3 个告警级别;升级超时规则;接收人。 | 高级别优先生效;升级产生通知记录;升级过程可审计。 | 规则截图、告警详情、通知记录、审计日志。 |
| OPS-021 | 告警受理与历史 | 第 1 阶段 | 触发告警后完成确认、忽略、恢复、派单、搜索、导出和历史查询。 | 至少 3 条不同状态告警;导出权限。 | 告警状态机合法;历史可查;导出文件准确;确认、忽略、派单都有审计。 | 告警列表、详情、导出文件、审计日志。 |
| OPS-022 | 工单管理 | 第 1 阶段 | 从告警创建工单,执行接单、转交、挂起、重启、关闭;尝试非法流转。 | 告警样例;处理人和处理组;工单权限。 | 工单状态机合法;非法流转被拒绝;工单能回链告警、资源、事件。 | 工单流转截图、非法流转错误、审计日志。 |
| OPS-023 | 数据中心与机房管理 | 第 2 阶段,首期接口 | 返回数据中心、机房、机柜层级样例,供外包 3D 机房前端联调。 | 样例数据中心、机房、机柜;真实数据短期不可得。 | 首期不要求真实台账;后端接口字段稳定,能返回告警状态聚合。 | 接口文档、JSON 响应、联调截图。 |
| OPS-024 | 机柜与 U 位管理 | 第 2 阶段,首期接口 | 返回机柜、U 位、设备占用、资源健康、最高告警级别样例。 | 样例机柜、U 位、设备绑定关系。 | 支持外包 3D 前端展示;真实机柜数据后续导入。 | 接口响应、样例数据截图。 |
| OPS-025 | 资产管理 | 第 2 阶段,首期预留 | 录入或导入样例资产,绑定监控资源和机柜位置。 | 样例资产编号、型号、序列号、位置。 | 首期支持资产与资源分离后关联;不因资产台账缺失阻塞监控接入。 | 资产样例截图、绑定关系接口响应。 |
| OPS-026 | 知识库管理 | 第 2 阶段,首期可选 | 创建知识分类和处理说明,关联一个告警检测点。 | 样例知识条目;附件可选。 | 首期可作为告警详情的关联入口;完整审核流程后续实现。 | 知识条目截图、告警详情关联截图。 |
| OPS-027 | 报表管理 | 第 1 阶段 | 生成 TopN、故障、服务器、网络设备基础报表并导出。 | 指标样本、告警、工单历史记录;时间范围。 | 报表数据来自真实后端记录和时序数据;空范围、超大范围、无权限状态可处理。 | 报表截图、导出文件、接口响应。 |
| OPS-028 | 可视化大屏管理 | 第 1 阶段 | 配置基础大屏,展示资源健康、实时告警、接口流量、业务状态并轮播。 | 样例资源、告警、接口流量、业务系统。 | 大屏组件数据来自后端;轮播配置生效;部分组件失败时局部降级。 | 大屏截图、配置截图、刷新记录。 |
| OPS-029 | 用户权限管理 | 第 1 阶段 | 创建用户、用户组、角色,配置功能权限和数据权限;验证越权访问。 | 管理员账号;普通运维账号;不同组织资源。 | 功能权限和数据权限隔离;无权限操作被拒绝;权限变更写审计。 | 权限配置截图、越权错误响应、审计日志。 |
| OPS-030 | 系统管理 | 第 1 阶段 | 配置部门、字典、参数、消息模板、系统日志查询。 | 部门样例、字典项、消息模板。 | 基础配置可维护;消息模板支撑站内消息;系统日志可按时间和操作人查询。 | 配置截图、日志查询截图、审计记录。 |
| OPS-031 | 采集管理 | 第 1 阶段 | 新增主机或 H3C/华三设备采集任务,配置模板、指标、自动发现样例。 | 采集凭据引用、指标模板、发现范围。 | 采集任务可启停;执行记录可查;失败能生成平台内部事件。 | 采集配置、执行记录、失败事件截图。 |
| OPS-032 | 代理管理 | 第 2 阶段 | 展示跨网代理模型和主动/被动数据推送接口预留。 | 代理节点样例;网络隔离方案待确认。 | 首期不要求真实跨网代理部署;需保留代理节点模型和接入接口。 | 接口文档、代理节点样例。 |
| OPS-033 | 业务系统视图与业务拓扑 | 第 1 阶段样例 | 建立一个业务系统视图关联主机、数据库、URL/API、H3C/华三设备和告警。 | HIS/LIS/PACS/EMR 中至少一个样例业务;关联资源和告警。 | 业务健康、关联资源、未恢复告警、影响范围可见;业务视图能跳转资源和告警详情。 | 业务视图截图、关联关系截图、告警联动截图。 |
## 6. 首期端到端验收脚本
建议首期至少执行一条完整演示脚本:
1. 在综合监控中确认主机、H3C/华三网络设备、数据库、URL/API 样例资源已纳管。
2. 查看资源详情中的指标趋势,确认指标样本已进入时序数据库或适配层。
3. 触发一个可控异常CPU 阈值、H3C/华三 Trap/Syslog、URL/API 超时三选一。
4. 在原始事件池查看事件接收、解析、规则命中记录。
5. 在告警中心查看告警生成、级别、资源上下文、业务系统、降噪命中记录。
6. 验证站内消息、短信、邮件三类通知记录。
7. 值班人员确认告警,并从告警派生工单。
8. 工单完成接单、处理、关闭。
9. 回到告警详情查看关联工单、处理记录和审计日志。
10. 在首页、大屏和报表中查看该故障的统计和闭环证据。
通过标准:
- 端到端链路中每一步都有后端记录,不使用纯静态展示数据。
- 每一次状态变化都有操作人、时间、traceId 或审计记录。
- 任一通知渠道失败时,不阻塞告警确认和工单处理,但必须展示失败原因。
- 若使用模拟 Trap、模拟 Syslog 或可控 URL/API 故障,需要在验收前取得院方确认。
## 7. 待确认事项
| 事项 | 影响 | 建议处理 |
| --- | --- | --- |
| 模拟 Trap、模拟 Syslog、可控 URL/API 故障是否允许作为验收手段 | 影响 OPS-010、OPS-011、端到端脚本 | 会前明确允许范围,区分“正式验收可用”和“内部演示可用”。 |
| H3C/华三首批设备型号、SNMP 版本、OID、Trap 字典 | 影响 OPS-004、OPS-010、OPS-014 | 已建立 `docs/H3C华三首批接入调研.md`,现场确认后固化到采集模板和验收样例。 |
| 短信平台和邮件服务接入方式 | 影响 OPS-019、OPS-020、OPS-021 | 先获取测试账号和发送限制,再写验收脚本。 |
| Linux/麒麟部署环境 | 影响所有验收部署 | 已建立 `docs/本地开发与验收部署说明.md``deploy/README.md`现场仍需明确系统版本、CPU 架构、服务管理方式、网络策略。 |
| TDengine 开源版现场验证 | 影响 OPS-002、OPS-004、OPS-007、OPS-011、OPS-014、OPS-027 | 时序数据库已决策采用 TDengine 开源版;现场仍需验证 Linux/麒麟部署、AGPL 合规、Go WebSocket 连接、保留策略、备份恢复和故障降级。 |
| 3D 机房外包前端接口字段 | 影响 OPS-023、OPS-024、OPS-025 | 与外包方确认字段、刷新频率、状态编码、权限边界。 |
## 8. P1 支撑文档
| 文档 | 覆盖范围 |
| --- | --- |
| `docs/P1故障救援策略.md` | 采集失败、Trap/Syslog 解析失败、通知失败、派单失败的重试、降级、提示、日志、审计和测试要求。 |
| `docs/P1测试计划.md` | 第 1 阶段后端、前端、端到端测试矩阵和验收脚本。 |
| `docs/本地开发与验收部署说明.md` | Windows PowerShell 本地开发、联调验收和 Linux/麒麟部署边界。 |
| `docs/H3C华三首批接入调研.md` | H3C/华三首批接入范围、指标基线、Trap/Syslog 样例要求和现场确认表。 |
| `docs/国产时序数据库选型验证.md` | TDengine 开源版选型结论、AGPL 合规边界、现场验证计划和适配层要求。 |
## 9. 验收材料目录建议
```text
docs/
首期验收矩阵.md
验收证据/
01-首页总览/
02-资源监控/
03-H3C网络设备/
04-告警闭环/
05-通知记录/
06-工单闭环/
07-报表大屏/
08-权限审计/
09-3D机房接口/
10-部署与烟测/
```
证据目录可以在实际验收阶段创建;本文只定义结构,不强制当前仓库立即新增截图或录像文件。