Files
ops/docs/首期验收矩阵.md
2026-06-21 17:50:24 +08:00

145 lines
18 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# OPS 首期验收矩阵
## 1. 文档目标
本文根据 `docs/integrated-ops-platform-requirements.md``docs/integrated-ops-platform-blueprint-design.md``docs/首期数据模型与状态机.md``docs/首期UI状态覆盖.md` 编写,用于把 OPS-001 至 OPS-033 的需求落实到验收阶段、演示路径、数据准备、通过标准和证据要求。
首期验收重点不是证明所有模块已经全量完成,而是证明平台主线已经跑通:
```text
资源纳管 -> 指标 / Syslog / SNMP Trap / URL/API 探测 -> 原始事件 -> 告警 -> 通知 -> 确认 / 派单 -> 工单关闭 -> 报表 / 大屏 / 审计追踪
```
## 2. 阶段口径
| 阶段 | 验收口径 |
| --- | --- |
| 第 0 阶段 | 现场确认、样例资源、账号权限、部署环境、通知渠道、验收数据准备。 |
| 第 1 阶段 | 首期必须可演示、可闭环、可出证据的核心范围。 |
| 第 2 阶段 | 蓝图必备但不阻塞首期闭环;首期只验收接口预留、数据模型或样例能力。 |
| 第 3 阶段 | 运营治理和智能化增强;首期只验收规划口径,不作为功能通过项。 |
## 3. 通用验收前提
- 现场设备优先按 H3C/华三网络设备准备样例。
- 站内消息、短信、邮件为首期优先打通通知渠道。
- 3D 机房前端已外包OPS 首期只验收后端接口和样例数据。
- 老运维平台首期不迁移、不集成,只保留后续迁移评估入口。
- 本地开发命令使用 Windows PowerShell验收部署目标为 Linux/麒麟。
- 指标样本应进入选定时序数据库或其适配层,事务数据进入 PostgreSQL。
- “模拟 Trap、模拟 Syslog、可控 URL/API 故障”是否可作为正式验收手段仍需院方确认;确认前在矩阵中按“可控样例/待确认”处理。
## 4. 证据要求
每个验收项至少保留以下证据之一:
| 证据类型 | 要求 |
| --- | --- |
| 截图 | 页面全屏截图,包含时间、资源名称、状态或操作结果。 |
| 录像 | 端到端闭环建议录屏,覆盖触发、通知、确认、派单、关闭、报表。 |
| 导出文件 | 报表、告警导出、工单导出需保留原始文件。 |
| 接口响应 | 后端接口验收需保留请求参数、响应 JSON、HTTP 状态码和 `traceId`。 |
| 日志 | 采集、告警、通知、工单、权限、审计相关日志需能按 `traceId` 查询。 |
| 数据库记录 | 必要时保留 PostgreSQL 关键记录和时序库查询结果截图或导出。 |
## 5. OPS 验收矩阵
| 编号 | 能力 | 阶段 | 演示路径 | 数据准备 | 通过标准 | 证据 |
| --- | --- | --- | --- | --- | --- | --- |
| OPS-001 | 首页总览 | 第 1 阶段 | 登录首页,查看待处理告警、资源总览、告警趋势、网络状态;调整总览模块配置并保存。 | 至少准备主机、H3C/华三网络设备、数据库、URL/API 样例资源;准备 1 条未恢复告警。 | 首页数据来自后端真实记录;模块配置保存后刷新仍生效;空态、加载、错误、无权限状态可演示。 | 首页截图、模块配置前后截图、接口响应。 |
| OPS-002 | 操作系统监控 | 第 1 阶段 | 纳管一台主机,查看 CPU、内存、磁盘、网卡、流量、日志或 Syslog触发阈值告警。 | 主机账号或采集代理CPU/磁盘阈值规则;时序库写入样例。 | 指标趋势可查;采集状态可见;异常能生成告警并进入告警中心。 | 资源详情截图、时序查询结果、告警截图。 |
| OPS-003 | 服务器硬件监控 | 第 2 阶段,首期样例或预留 | 接入可用物理服务器或提供硬件健康样例接口,展示电压、电流、温度、风扇等字段。 | 现场服务器如短期不可接入,准备样例数据和资源类型模板。 | 首期至少完成模型、接口和页面位置预留;若现场设备可用,则展示真实硬件健康数据。 | 接口响应、资源类型模板截图、样例页面截图。 |
| OPS-004 | 网络设备监控 | 第 1 阶段 | 接入 H3C/华三网络设备展示接口状态、接口流量、ARP/路由/转发表样例;接收 Trap 或 Syslog 生成告警。 | H3C/华三设备型号、SNMP 版本、OID、Trap 字典、Syslog 样例、账号权限。 | H3C/华三样例设备可被识别接口状态和流量可查Trap/Syslog 能关联资源并生成告警。 | 设备详情截图、Trap/Syslog 原始事件、告警详情、接口响应。 |
| OPS-005 | 安全设备监控 | 第 2 阶段,首期样例或预留 | 展示安全设备资源类型、CPU、内存、接口状态和历史报表样例。 | 安全设备样例或模拟资源;指标定义。 | 首期完成资源类型、指标定义和接口预留;实际接入按现场设备顺延。 | 指标定义截图、接口响应、样例报表。 |
| OPS-006 | 存储监控 | 第 2 阶段,首期样例或预留 | 展示存储资源类型、容量、控制器、磁盘、端口状态样例。 | 存储设备型号或样例数据;指标定义。 | 首期完成模型与页面入口预留;若现场存储可接入,则展示真实容量和健康状态。 | 资源类型截图、样例趋势图、接口响应。 |
| OPS-007 | 数据库监控 | 第 1 阶段 | 接入一个数据库实例展示连通性、表空间或连接数、SQL TOP 样例、自定义 SQL 监控结果。 | 测试数据库账号;自定义 SQL阈值规则。 | 数据库状态可采集;自定义 SQL 可执行并入库;异常可触发告警。 | 数据库详情截图、自定义 SQL 配置、告警截图。 |
| OPS-008 | 中间件监控 | 第 2 阶段,首期样例或预留 | 展示 Tomcat、WebLogic、MQ 或国产中间件监控样例。 | 现场中间件类型待确认;可准备 Tomcat 样例。 | 首期至少完成资源类型、指标模板和接口预留;现场类型确认后再接入。 | 模板截图、样例接口响应、页面入口截图。 |
| OPS-009 | 虚拟化监控 | 第 1 阶段样例 | 接入或配置虚拟化样例展示宿主机、虚拟机、CPU、内存、磁盘、开关机状态。 | 虚拟化平台测试账号或可控样例数据。 | 虚拟化资源可在综合监控中查看;虚拟机状态变化可刷新;异常可关联告警。 | 虚拟化资源截图、接口响应、告警截图。 |
| OPS-010 | 日志与 Trap 监控 | 第 1 阶段 | 接收 H3C/华三或样例设备 Syslog、SNMP Trap配置 Trap 字典、OID 描述、规则、屏蔽策略。 | H3C/华三 Trap/Syslog 样例;模拟方式需院方确认。 | 原始事件可查;解析成功和未解析状态可见;规则命中后生成告警;屏蔽策略生效并留审计。 | 原始事件列表、规则配置截图、告警详情、审计日志。 |
| OPS-011 | URL 与业务可用性监控 | 第 1 阶段 | 配置 URL/API 探测,模拟 5xx、超时或断连触发可用性告警。 | 可控 URL/API探测周期响应码规则。 | 可用性、响应时间、状态码进入时序库;异常能生成告警并恢复;待确认是否允许模拟故障作为正式验收。 | 探测配置截图、趋势图、告警和恢复记录。 |
| OPS-012 | 动环与安全环境监控 | 第 2 阶段,首期预留 | 展示动环资源类型、温湿度、UPS、门禁等模型与接口预留。 | 动环设备短期不作为首期硬依赖;准备样例资源。 | 首期不要求真实动环接入;需证明数据模型可关联数据中心、机房、告警。 | 模型文档、接口响应、样例页面。 |
| OPS-013 | 网络拓扑管理 | 第 2 阶段,首期基础联动 | 展示基础拓扑或资源关系视图,点击资源查看告警和链路流量样例。 | H3C/华三设备、接口关系或手工拓扑样例。 | 首期不要求完整拓扑编辑器;需证明资源、链路、告警关系可查询。 | 拓扑样例截图、资源告警联动截图。 |
| OPS-014 | 网络流量分析 | 第 2 阶段,首期样例 | 查看 H3C/华三接口流量趋势,展示应用/协议/会话分析预留。 | 接口流量指标;如无流量分析源,准备接口流量样例。 | 首期至少展示接口流量趋势和异常告警;深度流量分析进入后续阶段。 | 流量趋势图、时序查询、告警截图。 |
| OPS-015 | 流量参数配置 | 第 2 阶段 | 配置应用、端口、协议和数据保存周期样例。 | 应用/端口/协议字典;保存周期策略。 | 首期可作为配置模型和接口预留;不阻塞核心闭环。 | 配置接口响应、策略页面截图。 |
| OPS-016 | IP 地址管理 | 第 2 阶段,首期预留 | 创建子网、IP 地址样例,展示 IP 与资源绑定入口。 | 样例子网、IP/MAC 数据;真实台账短期不可得。 | 首期不依赖真实 IP 台账;需支持后续导入和资源关联。 | 样例列表截图、导入接口说明。 |
| OPS-017 | IP 自动扫描与报表 | 第 2 阶段 | 配置扫描规则样例,展示 IP 统计报表接口预留。 | 扫描网段需现场授权;无授权时使用样例数据。 | 未获授权不得主动扫描生产网段;首期只验证模型和接口预留。 | 扫描配置截图、样例报表。 |
| OPS-018 | 告警降噪与策略 | 第 1 阶段 | 触发重复告警、依赖告警或维护窗口告警,验证去重、压缩、屏蔽、抑制。 | 主机或 H3C/华三设备告警样例;屏蔽策略;去重窗口。 | 告警风暴被降噪;策略命中可追踪;被抑制事件不丢失审计。 | 告警列表前后对比、策略命中记录、审计日志。 |
| OPS-019 | 告警模板与通知 | 第 1 阶段,渠道裁剪 | 配置告警模板变量,触发测试告警,发送站内消息、短信、邮件。 | 站内消息配置;短信平台测试账号;邮件服务配置。 | 首期必须打通站内消息、短信、邮件;微信、企业微信、钉钉、电话等作为后续扩展。 | 模板截图、三类通知记录、收件截图或发送回执。 |
| OPS-020 | 告警级别与升级 | 第 1 阶段 | 配置多级告警和升级策略,高低级别同时命中时只发送高级别;超时未确认自动升级。 | 至少 3 个告警级别;升级超时规则;接收人。 | 高级别优先生效;升级产生通知记录;升级过程可审计。 | 规则截图、告警详情、通知记录、审计日志。 |
| OPS-021 | 告警受理与历史 | 第 1 阶段 | 触发告警后完成确认、忽略、恢复、派单、搜索、导出和历史查询。 | 至少 3 条不同状态告警;导出权限。 | 告警状态机合法;历史可查;导出文件准确;确认、忽略、派单都有审计。 | 告警列表、详情、导出文件、审计日志。 |
| OPS-022 | 工单管理 | 第 1 阶段 | 从告警创建工单,执行接单、转交、挂起、重启、关闭;尝试非法流转。 | 告警样例;处理人和处理组;工单权限。 | 工单状态机合法;非法流转被拒绝;工单能回链告警、资源、事件。 | 工单流转截图、非法流转错误、审计日志。 |
| OPS-023 | 数据中心与机房管理 | 第 2 阶段,首期接口 | 返回数据中心、机房、机柜层级样例,供外包 3D 机房前端联调。 | 样例数据中心、机房、机柜;真实数据短期不可得。 | 首期不要求真实台账;后端接口字段稳定,能返回告警状态聚合。 | 接口文档、JSON 响应、联调截图。 |
| OPS-024 | 机柜与 U 位管理 | 第 2 阶段,首期接口 | 返回机柜、U 位、设备占用、资源健康、最高告警级别样例。 | 样例机柜、U 位、设备绑定关系。 | 支持外包 3D 前端展示;真实机柜数据后续导入。 | 接口响应、样例数据截图。 |
| OPS-025 | 资产管理 | 第 2 阶段,首期预留 | 录入或导入样例资产,绑定监控资源和机柜位置。 | 样例资产编号、型号、序列号、位置。 | 首期支持资产与资源分离后关联;不因资产台账缺失阻塞监控接入。 | 资产样例截图、绑定关系接口响应。 |
| OPS-026 | 知识库管理 | 第 2 阶段,首期可选 | 创建知识分类和处理说明,关联一个告警检测点。 | 样例知识条目;附件可选。 | 首期可作为告警详情的关联入口;完整审核流程后续实现。 | 知识条目截图、告警详情关联截图。 |
| OPS-027 | 报表管理 | 第 1 阶段 | 生成 TopN、故障、服务器、网络设备基础报表并导出。 | 指标样本、告警、工单历史记录;时间范围。 | 报表数据来自真实后端记录和时序数据;空范围、超大范围、无权限状态可处理。 | 报表截图、导出文件、接口响应。 |
| OPS-028 | 可视化大屏管理 | 第 1 阶段 | 配置基础大屏,展示资源健康、实时告警、接口流量、业务状态并轮播。 | 样例资源、告警、接口流量、业务系统。 | 大屏组件数据来自后端;轮播配置生效;部分组件失败时局部降级。 | 大屏截图、配置截图、刷新记录。 |
| OPS-029 | 用户权限管理 | 第 1 阶段 | 创建用户、用户组、角色,配置功能权限和数据权限;验证越权访问。 | 管理员账号;普通运维账号;不同组织资源。 | 功能权限和数据权限隔离;无权限操作被拒绝;权限变更写审计。 | 权限配置截图、越权错误响应、审计日志。 |
| OPS-030 | 系统管理 | 第 1 阶段 | 配置部门、字典、参数、消息模板、系统日志查询。 | 部门样例、字典项、消息模板。 | 基础配置可维护;消息模板支撑站内消息;系统日志可按时间和操作人查询。 | 配置截图、日志查询截图、审计记录。 |
| OPS-031 | 采集管理 | 第 1 阶段 | 新增主机或 H3C/华三设备采集任务,配置模板、指标、自动发现样例。 | 采集凭据引用、指标模板、发现范围。 | 采集任务可启停;执行记录可查;失败能生成平台内部事件。 | 采集配置、执行记录、失败事件截图。 |
| OPS-032 | 代理管理 | 第 2 阶段 | 展示跨网代理模型和主动/被动数据推送接口预留。 | 代理节点样例;网络隔离方案待确认。 | 首期不要求真实跨网代理部署;需保留代理节点模型和接入接口。 | 接口文档、代理节点样例。 |
| OPS-033 | 业务系统视图与业务拓扑 | 第 1 阶段样例 | 建立一个业务系统视图关联主机、数据库、URL/API、H3C/华三设备和告警。 | HIS/LIS/PACS/EMR 中至少一个样例业务;关联资源和告警。 | 业务健康、关联资源、未恢复告警、影响范围可见;业务视图能跳转资源和告警详情。 | 业务视图截图、关联关系截图、告警联动截图。 |
## 6. 首期端到端验收脚本
建议首期至少执行一条完整演示脚本:
1. 在综合监控中确认主机、H3C/华三网络设备、数据库、URL/API 样例资源已纳管。
2. 查看资源详情中的指标趋势,确认指标样本已进入时序数据库或适配层。
3. 触发一个可控异常CPU 阈值、H3C/华三 Trap/Syslog、URL/API 超时三选一。
4. 在原始事件池查看事件接收、解析、规则命中记录。
5. 在告警中心查看告警生成、级别、资源上下文、业务系统、降噪命中记录。
6. 验证站内消息、短信、邮件三类通知记录。
7. 值班人员确认告警,并从告警派生工单。
8. 工单完成接单、处理、关闭。
9. 回到告警详情查看关联工单、处理记录和审计日志。
10. 在首页、大屏和报表中查看该故障的统计和闭环证据。
通过标准:
- 端到端链路中每一步都有后端记录,不使用纯静态展示数据。
- 每一次状态变化都有操作人、时间、traceId 或审计记录。
- 任一通知渠道失败时,不阻塞告警确认和工单处理,但必须展示失败原因。
- 若使用模拟 Trap、模拟 Syslog 或可控 URL/API 故障,需要在验收前取得院方确认。
## 7. 待确认事项
| 事项 | 影响 | 建议处理 |
| --- | --- | --- |
| 模拟 Trap、模拟 Syslog、可控 URL/API 故障是否允许作为验收手段 | 影响 OPS-010、OPS-011、端到端脚本 | 会前明确允许范围,区分“正式验收可用”和“内部演示可用”。 |
| H3C/华三首批设备型号、SNMP 版本、OID、Trap 字典 | 影响 OPS-004、OPS-010、OPS-014 | 已建立 `docs/H3C华三首批接入调研.md`,现场确认后固化到采集模板和验收样例。 |
| 短信平台和邮件服务接入方式 | 影响 OPS-019、OPS-020、OPS-021 | 先获取测试账号和发送限制,再写验收脚本。 |
| Linux/麒麟部署环境 | 影响所有验收部署 | 已建立 `docs/本地开发与验收部署说明.md``deploy/README.md`现场仍需明确系统版本、CPU 架构、服务管理方式、网络策略。 |
| TDengine 开源版现场验证 | 影响 OPS-002、OPS-004、OPS-007、OPS-011、OPS-014、OPS-027 | 时序数据库已决策采用 TDengine 开源版;现场仍需验证 Linux/麒麟部署、AGPL 合规、Go WebSocket 连接、保留策略、备份恢复和故障降级。 |
| 3D 机房外包前端接口字段 | 影响 OPS-023、OPS-024、OPS-025 | 与外包方确认字段、刷新频率、状态编码、权限边界。 |
## 8. P1 支撑文档
| 文档 | 覆盖范围 |
| --- | --- |
| `docs/P1故障救援策略.md` | 采集失败、Trap/Syslog 解析失败、通知失败、派单失败的重试、降级、提示、日志、审计和测试要求。 |
| `docs/P1测试计划.md` | 第 1 阶段后端、前端、端到端测试矩阵和验收脚本。 |
| `docs/本地开发与验收部署说明.md` | Windows PowerShell 本地开发、联调验收和 Linux/麒麟部署边界。 |
| `docs/H3C华三首批接入调研.md` | H3C/华三首批接入范围、指标基线、Trap/Syslog 样例要求和现场确认表。 |
| `docs/国产时序数据库选型验证.md` | TDengine 开源版选型结论、AGPL 合规边界、现场验证计划和适配层要求。 |
## 9. 验收材料目录建议
```text
docs/
首期验收矩阵.md
验收证据/
01-首页总览/
02-资源监控/
03-H3C网络设备/
04-告警闭环/
05-通知记录/
06-工单闭环/
07-报表大屏/
08-权限审计/
09-3D机房接口/
10-部署与烟测/
```
证据目录可以在实际验收阶段创建;本文只定义结构,不强制当前仓库立即新增截图或录像文件。