Files
ops/docs/H3C华三首批接入调研.md
2026-06-21 17:50:24 +08:00

7.1 KiB
Raw Blame History

OPS H3C/华三设备首批接入调研

1. 文档目标

本文定义第 1 阶段 H3C/华三网络设备接入的首批调研范围、字段清单、采集指标、Trap/Syslog 样例要求和验收条件。

当前仓库中的需求和蓝图只确认“现场设备以 H3C/华三为主”尚未提供具体型号、SNMP 版本、账号权限、Trap 字典和 Syslog 样例。本文不伪造现场事实,先固定可开发的接入基线,并列出必须现场确认的数据。

2. 首批接入范围

类型 首期目标 验收口径
H3C/华三交换机 优先接入 展示设备基本信息、接口状态、接口流量、接口错误、Trap/Syslog 告警。
H3C/华三路由或三层设备 可选接入 若现场提供账号展示路由、ARP 或转发表样例。
H3C/华三安全设备 第 2 阶段优先 首期只保留资源类型和接口状态样例。
非 H3C 网络设备 后续扩展 第 1 阶段不追求多厂商全覆盖。

3. 现场确认表

字段 必填 示例 说明
设备名称 核心交换机-1 与资源名称一致。
厂商 H3C 固定为 H3C/华三或现场实际厂商。
型号 待现场提供 不能凭空填写。
管理 IP 待现场提供 用于 SNMP 轮询和连通性测试。
SNMP 版本 v2c 或 v3 v3 需确认认证和加密方式。
SNMP 端口 161 按现场安全策略确认。
Trap 目标端口 162 需要网络策略放通。
Syslog 目标端口 514 或现场指定 需要确认 UDP/TCP。
只读凭据 凭据引用 不记录真实 community、用户名或密码。
采集频率 60 秒或 300 秒 高频接口指标进入时序库。
维护窗口 每周日 00:00-02:00 维护期默认抑制告警。
所属业务 HIS 网络域 用于业务系统视图。
所属机房/机柜 待导入 支持后续 3D 机房联动。

4. SNMP 采集指标基线

指标编码 指标名称 维度 用途
device.uptime 设备运行时长 设备 识别重启和稳定性。
device.cpu.usage CPU 使用率 设备 触发性能告警。
device.memory.usage 内存使用率 设备 触发性能告警。
interface.oper_status 接口运行状态 接口 识别接口 down/up。
interface.admin_status 接口管理状态 接口 区分人为关闭和异常 down。
interface.in_bps 入方向速率 接口 趋势图、报表、大屏。
interface.out_bps 出方向速率 接口 趋势图、报表、大屏。
interface.in_errors 入方向错误包 接口 识别链路质量问题。
interface.out_errors 出方向错误包 接口 识别链路质量问题。
interface.discards 丢弃包 接口 流量拥塞分析。

OID 不在本文写死。实现时应把 OID 放入资源类型模板和 H3C 指标模板,支持按型号覆盖。

5. Trap 字典基线

事件类型 期望字段 默认级别 转换规则
设备重启 设备标识、发生时间、重启原因 生成设备重启告警。
接口 down 设备标识、接口索引、接口名称、状态 关联接口资源,生成接口故障告警。
接口 up 设备标识、接口索引、接口名称、状态 信息 匹配未恢复接口告警并恢复。
电源异常 设备标识、电源槽位、状态 生成硬件告警。
风扇异常 设备标识、风扇槽位、状态 生成硬件告警。
温度异常 设备标识、传感器、温度、阈值 生成环境或硬件告警。
认证失败 来源、用户名或协议摘要 生成安全类告警或审计事件。

未识别 Trap 必须进入 raw_events,状态为 unparsed,允许补字典后重放。

6. Syslog 样例要求

现场至少提供以下样例,每类不少于 3 条原始文本:

类别 用途 解析目标
接口状态变化 验证链路故障和恢复 设备、接口、状态、发生时间。
设备重启或板卡变化 验证硬件事件 设备、模块、原因、级别。
登录或认证失败 验证安全事件 来源 IP、账号、失败原因。
配置变更 验证审计关联 操作人、变更对象、时间。
协议邻居变化 验证网络事件 协议、邻居、状态。

Syslog 解析失败时按 docs/P1故障救援策略.md 的未解析事件流程处理。

7. 采集与告警规则

规则 默认条件 处理
设备不可达 连续 3 次 SNMP 失败 生成采集失败内部事件,资源详情显示失败原因。
CPU 高 连续 5 分钟超过阈值 生成性能告警。
内存高 连续 5 分钟超过阈值 生成性能告警。
接口 down 管理状态 up 且运行状态 down 生成接口故障告警。
接口错误包突增 错误包增量超过阈值 生成链路质量告警。
Trap 未解析 字典未命中 进入未解析池,不直接告警。
Syslog 命中屏蔽 命中维护窗口或屏蔽策略 记录抑制事件,不通知。

阈值必须支持按设备、接口和业务系统覆盖。

8. 数据模型映射

OPS 对象 H3C 数据来源 说明
resources 设备基本信息、管理 IP、型号 厂商固定为 H3C/华三或现场实际值。
metric_definitions 指标模板 不同型号可覆盖 OID。
metric_series 接口和设备指标 标签包含接口名、接口索引。
raw_events Trap、Syslog、采集失败 保留原始报文和解析状态。
alerts 规则命中结果 关联资源、接口、业务系统。
audit_logs 规则变更、字典变更、重放 支撑验收追溯。

9. 验收脚本

  1. 录入一台 H3C/华三网络设备资源,绑定只读凭据引用。
  2. 执行 SNMP 连通性测试,记录成功或失败原因。
  3. 展示设备基本信息、CPU、内存、接口状态和接口流量。
  4. 投递或接收一条接口 down Trap/Syslog 样例。
  5. 在原始事件池查看原文、解析结果和规则命中。
  6. 在告警中心查看接口故障告警。
  7. 投递或接收恢复样例,确认告警恢复。
  8. 查看资源详情、报表、大屏和审计日志中的证据。

10. 未决项

未决项 当前状态 影响 处理建议
具体设备型号 待现场提供 影响 OID 模板和接口面板 验收前必须填入现场确认表。
SNMP v2c 或 v3 待现场确认 影响凭据模型和安全配置 优先使用只读权限v3 优先。
Trap/Syslog 样例 待现场提供 影响解析规则 至少提供可解析、未解析、恢复样例。
模拟事件是否可验收 待院方确认 影响正式演示方式 会前确认可控样例边界。
网络策略 待现场确认 影响采集连通性 明确 161、162、Syslog 端口策略。