Files
ops/docs/H3C华三首批接入调研.md
2026-06-21 17:50:24 +08:00

127 lines
7.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# OPS H3C/华三设备首批接入调研
## 1. 文档目标
本文定义第 1 阶段 H3C/华三网络设备接入的首批调研范围、字段清单、采集指标、Trap/Syslog 样例要求和验收条件。
当前仓库中的需求和蓝图只确认“现场设备以 H3C/华三为主”尚未提供具体型号、SNMP 版本、账号权限、Trap 字典和 Syslog 样例。本文不伪造现场事实,先固定可开发的接入基线,并列出必须现场确认的数据。
## 2. 首批接入范围
| 类型 | 首期目标 | 验收口径 |
| --- | --- | --- |
| H3C/华三交换机 | 优先接入 | 展示设备基本信息、接口状态、接口流量、接口错误、Trap/Syslog 告警。 |
| H3C/华三路由或三层设备 | 可选接入 | 若现场提供账号展示路由、ARP 或转发表样例。 |
| H3C/华三安全设备 | 第 2 阶段优先 | 首期只保留资源类型和接口状态样例。 |
| 非 H3C 网络设备 | 后续扩展 | 第 1 阶段不追求多厂商全覆盖。 |
## 3. 现场确认表
| 字段 | 必填 | 示例 | 说明 |
| --- | --- | --- | --- |
| 设备名称 | 是 | 核心交换机-1 | 与资源名称一致。 |
| 厂商 | 是 | H3C | 固定为 H3C/华三或现场实际厂商。 |
| 型号 | 是 | 待现场提供 | 不能凭空填写。 |
| 管理 IP | 是 | 待现场提供 | 用于 SNMP 轮询和连通性测试。 |
| SNMP 版本 | 是 | v2c 或 v3 | v3 需确认认证和加密方式。 |
| SNMP 端口 | 是 | 161 | 按现场安全策略确认。 |
| Trap 目标端口 | 是 | 162 | 需要网络策略放通。 |
| Syslog 目标端口 | 是 | 514 或现场指定 | 需要确认 UDP/TCP。 |
| 只读凭据 | 是 | 凭据引用 | 不记录真实 community、用户名或密码。 |
| 采集频率 | 是 | 60 秒或 300 秒 | 高频接口指标进入时序库。 |
| 维护窗口 | 否 | 每周日 00:00-02:00 | 维护期默认抑制告警。 |
| 所属业务 | 否 | HIS 网络域 | 用于业务系统视图。 |
| 所属机房/机柜 | 否 | 待导入 | 支持后续 3D 机房联动。 |
## 4. SNMP 采集指标基线
| 指标编码 | 指标名称 | 维度 | 用途 |
| --- | --- | --- | --- |
| `device.uptime` | 设备运行时长 | 设备 | 识别重启和稳定性。 |
| `device.cpu.usage` | CPU 使用率 | 设备 | 触发性能告警。 |
| `device.memory.usage` | 内存使用率 | 设备 | 触发性能告警。 |
| `interface.oper_status` | 接口运行状态 | 接口 | 识别接口 down/up。 |
| `interface.admin_status` | 接口管理状态 | 接口 | 区分人为关闭和异常 down。 |
| `interface.in_bps` | 入方向速率 | 接口 | 趋势图、报表、大屏。 |
| `interface.out_bps` | 出方向速率 | 接口 | 趋势图、报表、大屏。 |
| `interface.in_errors` | 入方向错误包 | 接口 | 识别链路质量问题。 |
| `interface.out_errors` | 出方向错误包 | 接口 | 识别链路质量问题。 |
| `interface.discards` | 丢弃包 | 接口 | 流量拥塞分析。 |
OID 不在本文写死。实现时应把 OID 放入资源类型模板和 H3C 指标模板,支持按型号覆盖。
## 5. Trap 字典基线
| 事件类型 | 期望字段 | 默认级别 | 转换规则 |
| --- | --- | --- | --- |
| 设备重启 | 设备标识、发生时间、重启原因 | 高 | 生成设备重启告警。 |
| 接口 down | 设备标识、接口索引、接口名称、状态 | 高 | 关联接口资源,生成接口故障告警。 |
| 接口 up | 设备标识、接口索引、接口名称、状态 | 信息 | 匹配未恢复接口告警并恢复。 |
| 电源异常 | 设备标识、电源槽位、状态 | 高 | 生成硬件告警。 |
| 风扇异常 | 设备标识、风扇槽位、状态 | 中 | 生成硬件告警。 |
| 温度异常 | 设备标识、传感器、温度、阈值 | 中 | 生成环境或硬件告警。 |
| 认证失败 | 来源、用户名或协议摘要 | 中 | 生成安全类告警或审计事件。 |
未识别 Trap 必须进入 `raw_events`,状态为 `unparsed`,允许补字典后重放。
## 6. Syslog 样例要求
现场至少提供以下样例,每类不少于 3 条原始文本:
| 类别 | 用途 | 解析目标 |
| --- | --- | --- |
| 接口状态变化 | 验证链路故障和恢复 | 设备、接口、状态、发生时间。 |
| 设备重启或板卡变化 | 验证硬件事件 | 设备、模块、原因、级别。 |
| 登录或认证失败 | 验证安全事件 | 来源 IP、账号、失败原因。 |
| 配置变更 | 验证审计关联 | 操作人、变更对象、时间。 |
| 协议邻居变化 | 验证网络事件 | 协议、邻居、状态。 |
Syslog 解析失败时按 `docs/P1故障救援策略.md` 的未解析事件流程处理。
## 7. 采集与告警规则
| 规则 | 默认条件 | 处理 |
| --- | --- | --- |
| 设备不可达 | 连续 3 次 SNMP 失败 | 生成采集失败内部事件,资源详情显示失败原因。 |
| CPU 高 | 连续 5 分钟超过阈值 | 生成性能告警。 |
| 内存高 | 连续 5 分钟超过阈值 | 生成性能告警。 |
| 接口 down | 管理状态 up 且运行状态 down | 生成接口故障告警。 |
| 接口错误包突增 | 错误包增量超过阈值 | 生成链路质量告警。 |
| Trap 未解析 | 字典未命中 | 进入未解析池,不直接告警。 |
| Syslog 命中屏蔽 | 命中维护窗口或屏蔽策略 | 记录抑制事件,不通知。 |
阈值必须支持按设备、接口和业务系统覆盖。
## 8. 数据模型映射
| OPS 对象 | H3C 数据来源 | 说明 |
| --- | --- | --- |
| `resources` | 设备基本信息、管理 IP、型号 | 厂商固定为 H3C/华三或现场实际值。 |
| `metric_definitions` | 指标模板 | 不同型号可覆盖 OID。 |
| `metric_series` | 接口和设备指标 | 标签包含接口名、接口索引。 |
| `raw_events` | Trap、Syslog、采集失败 | 保留原始报文和解析状态。 |
| `alerts` | 规则命中结果 | 关联资源、接口、业务系统。 |
| `audit_logs` | 规则变更、字典变更、重放 | 支撑验收追溯。 |
## 9. 验收脚本
1. 录入一台 H3C/华三网络设备资源,绑定只读凭据引用。
2. 执行 SNMP 连通性测试,记录成功或失败原因。
3. 展示设备基本信息、CPU、内存、接口状态和接口流量。
4. 投递或接收一条接口 down Trap/Syslog 样例。
5. 在原始事件池查看原文、解析结果和规则命中。
6. 在告警中心查看接口故障告警。
7. 投递或接收恢复样例,确认告警恢复。
8. 查看资源详情、报表、大屏和审计日志中的证据。
## 10. 未决项
| 未决项 | 当前状态 | 影响 | 处理建议 |
| --- | --- | --- | --- |
| 具体设备型号 | 待现场提供 | 影响 OID 模板和接口面板 | 验收前必须填入现场确认表。 |
| SNMP v2c 或 v3 | 待现场确认 | 影响凭据模型和安全配置 | 优先使用只读权限v3 优先。 |
| Trap/Syslog 样例 | 待现场提供 | 影响解析规则 | 至少提供可解析、未解析、恢复样例。 |
| 模拟事件是否可验收 | 待院方确认 | 影响正式演示方式 | 会前确认可控样例边界。 |
| 网络策略 | 待现场确认 | 影响采集连通性 | 明确 161、162、Syslog 端口策略。 |