navi-go

5. AI 安全风险台账

以下风险台账基于当前仓库实现与 CI/CD 配置(.github/workflows/ci.ymlcd.ymlllmsecops.yml)整理。

5.1 风险矩阵(定性)

风险ID 风险项 可能性 影响 当前残余风险
R-01 Prompt Injection / 越权指令注入 中-低
R-02 不安全输出(unsafe content) 低-中
R-03 LLM 结构化输出偏差/幻觉
R-04 外部依赖与供应链风险
R-05 密钥泄漏与凭据误用 低-中 中-低
R-06 上游 API 异常导致可用性下降
R-07 数据最小化不足(thread state 持久化)
R-08 对抗样本绕过静态规则

5.2 风险明细与控制

R-01 Prompt Injection / 越权注入

攻击面

现有控制

验证证据

残余风险


R-02 不安全输出

攻击面

现有控制

验证证据

残余风险


R-03 LLM 输出偏差/幻觉

攻击面

现有控制

验证证据

残余风险


R-04 供应链风险

攻击面

现有控制(CI/CD 已启用)

验证证据

残余风险


R-05 密钥泄漏与凭据误用

攻击面

现有控制

残余风险


R-06 上游 API 异常与可用性

攻击面

现有控制

验证证据

残余风险


R-07 数据最小化不足

风险说明

现有控制

建议控制


R-08 对抗样本绕过静态规则

风险说明

现有控制

验证证据

残余风险

5.3 处置流程(建议)

  1. 检测safetyFlags 命中高风险标记
  2. 隔离:按 threadId 追踪相关请求并停止重试
  3. 取证:读取 GET /plan/:threadId 快照 + decisionLog
  4. 修复:补充 guardrail 规则或策略
  5. 回归:新增对应单元/红队/集成测试,防止复发

5.4 后续增强建议

优先级 建议
为 prompt injection 增加专用轻量级分类器模型(规则 + LLM + 分类器三层)
为 thread state 增加数据最小化与过期清理策略
/plan 增加认证层(按 user/thread)
建立更大规模的安全回归用例集(注入语料、越权语料、越狱语料)
将 red-team 检测率纳入 CI 质量看板
对风险命中事件输出统一审计事件流(便于 SIEM 对接)