7.1 KiB
7.1 KiB
OPS H3C/华三设备首批接入调研
1. 文档目标
本文定义第 1 阶段 H3C/华三网络设备接入的首批调研范围、字段清单、采集指标、Trap/Syslog 样例要求和验收条件。
当前仓库中的需求和蓝图只确认“现场设备以 H3C/华三为主”,尚未提供具体型号、SNMP 版本、账号权限、Trap 字典和 Syslog 样例。本文不伪造现场事实,先固定可开发的接入基线,并列出必须现场确认的数据。
2. 首批接入范围
| 类型 | 首期目标 | 验收口径 |
|---|---|---|
| H3C/华三交换机 | 优先接入 | 展示设备基本信息、接口状态、接口流量、接口错误、Trap/Syslog 告警。 |
| H3C/华三路由或三层设备 | 可选接入 | 若现场提供账号,展示路由、ARP 或转发表样例。 |
| H3C/华三安全设备 | 第 2 阶段优先 | 首期只保留资源类型和接口状态样例。 |
| 非 H3C 网络设备 | 后续扩展 | 第 1 阶段不追求多厂商全覆盖。 |
3. 现场确认表
| 字段 | 必填 | 示例 | 说明 |
|---|---|---|---|
| 设备名称 | 是 | 核心交换机-1 | 与资源名称一致。 |
| 厂商 | 是 | H3C | 固定为 H3C/华三或现场实际厂商。 |
| 型号 | 是 | 待现场提供 | 不能凭空填写。 |
| 管理 IP | 是 | 待现场提供 | 用于 SNMP 轮询和连通性测试。 |
| SNMP 版本 | 是 | v2c 或 v3 | v3 需确认认证和加密方式。 |
| SNMP 端口 | 是 | 161 | 按现场安全策略确认。 |
| Trap 目标端口 | 是 | 162 | 需要网络策略放通。 |
| Syslog 目标端口 | 是 | 514 或现场指定 | 需要确认 UDP/TCP。 |
| 只读凭据 | 是 | 凭据引用 | 不记录真实 community、用户名或密码。 |
| 采集频率 | 是 | 60 秒或 300 秒 | 高频接口指标进入时序库。 |
| 维护窗口 | 否 | 每周日 00:00-02:00 | 维护期默认抑制告警。 |
| 所属业务 | 否 | HIS 网络域 | 用于业务系统视图。 |
| 所属机房/机柜 | 否 | 待导入 | 支持后续 3D 机房联动。 |
4. SNMP 采集指标基线
| 指标编码 | 指标名称 | 维度 | 用途 |
|---|---|---|---|
device.uptime |
设备运行时长 | 设备 | 识别重启和稳定性。 |
device.cpu.usage |
CPU 使用率 | 设备 | 触发性能告警。 |
device.memory.usage |
内存使用率 | 设备 | 触发性能告警。 |
interface.oper_status |
接口运行状态 | 接口 | 识别接口 down/up。 |
interface.admin_status |
接口管理状态 | 接口 | 区分人为关闭和异常 down。 |
interface.in_bps |
入方向速率 | 接口 | 趋势图、报表、大屏。 |
interface.out_bps |
出方向速率 | 接口 | 趋势图、报表、大屏。 |
interface.in_errors |
入方向错误包 | 接口 | 识别链路质量问题。 |
interface.out_errors |
出方向错误包 | 接口 | 识别链路质量问题。 |
interface.discards |
丢弃包 | 接口 | 流量拥塞分析。 |
OID 不在本文写死。实现时应把 OID 放入资源类型模板和 H3C 指标模板,支持按型号覆盖。
5. Trap 字典基线
| 事件类型 | 期望字段 | 默认级别 | 转换规则 |
|---|---|---|---|
| 设备重启 | 设备标识、发生时间、重启原因 | 高 | 生成设备重启告警。 |
| 接口 down | 设备标识、接口索引、接口名称、状态 | 高 | 关联接口资源,生成接口故障告警。 |
| 接口 up | 设备标识、接口索引、接口名称、状态 | 信息 | 匹配未恢复接口告警并恢复。 |
| 电源异常 | 设备标识、电源槽位、状态 | 高 | 生成硬件告警。 |
| 风扇异常 | 设备标识、风扇槽位、状态 | 中 | 生成硬件告警。 |
| 温度异常 | 设备标识、传感器、温度、阈值 | 中 | 生成环境或硬件告警。 |
| 认证失败 | 来源、用户名或协议摘要 | 中 | 生成安全类告警或审计事件。 |
未识别 Trap 必须进入 raw_events,状态为 unparsed,允许补字典后重放。
6. Syslog 样例要求
现场至少提供以下样例,每类不少于 3 条原始文本:
| 类别 | 用途 | 解析目标 |
|---|---|---|
| 接口状态变化 | 验证链路故障和恢复 | 设备、接口、状态、发生时间。 |
| 设备重启或板卡变化 | 验证硬件事件 | 设备、模块、原因、级别。 |
| 登录或认证失败 | 验证安全事件 | 来源 IP、账号、失败原因。 |
| 配置变更 | 验证审计关联 | 操作人、变更对象、时间。 |
| 协议邻居变化 | 验证网络事件 | 协议、邻居、状态。 |
Syslog 解析失败时按 docs/P1故障救援策略.md 的未解析事件流程处理。
7. 采集与告警规则
| 规则 | 默认条件 | 处理 |
|---|---|---|
| 设备不可达 | 连续 3 次 SNMP 失败 | 生成采集失败内部事件,资源详情显示失败原因。 |
| CPU 高 | 连续 5 分钟超过阈值 | 生成性能告警。 |
| 内存高 | 连续 5 分钟超过阈值 | 生成性能告警。 |
| 接口 down | 管理状态 up 且运行状态 down | 生成接口故障告警。 |
| 接口错误包突增 | 错误包增量超过阈值 | 生成链路质量告警。 |
| Trap 未解析 | 字典未命中 | 进入未解析池,不直接告警。 |
| Syslog 命中屏蔽 | 命中维护窗口或屏蔽策略 | 记录抑制事件,不通知。 |
阈值必须支持按设备、接口和业务系统覆盖。
8. 数据模型映射
| OPS 对象 | H3C 数据来源 | 说明 |
|---|---|---|
resources |
设备基本信息、管理 IP、型号 | 厂商固定为 H3C/华三或现场实际值。 |
metric_definitions |
指标模板 | 不同型号可覆盖 OID。 |
metric_series |
接口和设备指标 | 标签包含接口名、接口索引。 |
raw_events |
Trap、Syslog、采集失败 | 保留原始报文和解析状态。 |
alerts |
规则命中结果 | 关联资源、接口、业务系统。 |
audit_logs |
规则变更、字典变更、重放 | 支撑验收追溯。 |
9. 验收脚本
- 录入一台 H3C/华三网络设备资源,绑定只读凭据引用。
- 执行 SNMP 连通性测试,记录成功或失败原因。
- 展示设备基本信息、CPU、内存、接口状态和接口流量。
- 投递或接收一条接口 down Trap/Syslog 样例。
- 在原始事件池查看原文、解析结果和规则命中。
- 在告警中心查看接口故障告警。
- 投递或接收恢复样例,确认告警恢复。
- 查看资源详情、报表、大屏和审计日志中的证据。
10. 未决项
| 未决项 | 当前状态 | 影响 | 处理建议 |
|---|---|---|---|
| 具体设备型号 | 待现场提供 | 影响 OID 模板和接口面板 | 验收前必须填入现场确认表。 |
| SNMP v2c 或 v3 | 待现场确认 | 影响凭据模型和安全配置 | 优先使用只读权限,v3 优先。 |
| Trap/Syslog 样例 | 待现场提供 | 影响解析规则 | 至少提供可解析、未解析、恢复样例。 |
| 模拟事件是否可验收 | 待院方确认 | 影响正式演示方式 | 会前确认可控样例边界。 |
| 网络策略 | 待现场确认 | 影响采集连通性 | 明确 161、162、Syslog 端口策略。 |