M1-04 Content Safety 深化 #18

New Issue

wangdl · 2026-05-22T21:03:39+08:00

wangdl commented

2026-05-22 21:03:39 +08:00

目标

在 M0-06 Content Safety 基础版之上深化内容安全能力，接入 AI 输入/输出审核、举报处理流程和完善违规处罚记录。

本 Issue 只做深化设计，基础能力（敏感词库、文本审核、人工复核队列）已在 M0-06 完成。

背景说明

M0-06 建立了敏感词库和人工复核队列。本阶段需要把 Content Safety 正式接入 AI 链路：RAG Chat 的用户问题在发给 LLM 之前检测、LLM 回答在返回用户之前检测。同时完善用户举报的处理流程和违规记录。

模块深化内容

AI 输入审核接入：
- RAG Chat 用户消息在发给 LLM 之前经过 ContentSafetyService.check()
- 高风险输入阻止请求，返回安全提示
- 低风险输入放行但记录日志
AI 输出审核接入：
- LLM 回答在返回用户之前经过 ContentSafetyService.check()
- 高风险输出拦截或替换为安全提示
- 审核失败时触发 ModerationTask 人工复核
举报处理流程：
- 用户举报提交 → 生成 ModerationTask → Admin 审核 → 处理结果通知用户
- 举报类型：违规内容、错误信息、侵权内容等
违规记录与处罚：
- ViolationRecord 关联用户和违规内容
- 处罚建议（警告/限制上传/限制发言/封禁，由 Admin 确认执行）

基础设施依赖变更

相比 M0-06，无新增依赖。

接口设计（新增部分）

CAPI 新增：

举报提交接口

AAPI 新增/深化：

举报处理页面
违规记录管理
AI 审核日志查询（按来源：RAG Chat/Learning/Artifact 等）

Domain Event（新增）

AIInputBlocked：AI 输入被拦截
AIOutputBlocked：AI 输出被拦截
UserPenaltyApplied：用户处罚生效

交付检查

路由归属：Internal Provider 深化 + CAPI 新增 + AAPI 深化
是否需要 Prisma migration：是（违规记录表、举报表扩展）
是否需要 MySQL：是
是否需要 Redis：是（已有依赖）
是否需要 BullMQ：是（已有依赖）
是否需要 Content Safety：本模块深化
是否需要 AuditLog：是（处罚操作）
是否需要 Admin 视图：是（新增举报处理和违规管理页）

验收标准

AI 输入审核在 RAG Chat 中的接入方案
AI 输出审核在 LLM 回答返回前的接入方案
举报提交 → 审核 → 处理的完整流程设计
违规记录和处罚建议机制设计
Admin 举报处理和违规管理视图设计
集成测试覆盖 AI 输入输出拦截场景

禁止事项

禁止 AI 审核显著增加对话延迟（应使用缓存敏感词匹配 + 异步深度审核）
禁止处罚自动执行（必须 Admin 确认）
禁止审核日志暴露原始敏感内容给非 Admin 用户

不建议当前阶段实现

图片/视频多模态审核
AI 驱动的智能违规识别
用户信用评分和自动处罚系统

## 目标在 M0-06 Content Safety 基础版之上深化内容安全能力，接入 AI 输入/输出审核、举报处理流程和完善违规处罚记录。本 Issue 只做深化设计，基础能力（敏感词库、文本审核、人工复核队列）已在 M0-06 完成。 ## 背景说明 M0-06 建立了敏感词库和人工复核队列。本阶段需要把 Content Safety 正式接入 AI 链路：RAG Chat 的用户问题在发给 LLM 之前检测、LLM 回答在返回用户之前检测。同时完善用户举报的处理流程和违规记录。 ## 模块深化内容 1. AI 输入审核接入： - RAG Chat 用户消息在发给 LLM 之前经过 ContentSafetyService.check() - 高风险输入阻止请求，返回安全提示 - 低风险输入放行但记录日志 2. AI 输出审核接入： - LLM 回答在返回用户之前经过 ContentSafetyService.check() - 高风险输出拦截或替换为安全提示 - 审核失败时触发 ModerationTask 人工复核 3. 举报处理流程： - 用户举报提交 → 生成 ModerationTask → Admin 审核 → 处理结果通知用户 - 举报类型：违规内容、错误信息、侵权内容等 4. 违规记录与处罚： - ViolationRecord 关联用户和违规内容 - 处罚建议（警告/限制上传/限制发言/封禁，由 Admin 确认执行） ## 基础设施依赖变更相比 M0-06，无新增依赖。 ## 接口设计（新增部分） CAPI 新增： - 举报提交接口 AAPI 新增/深化： - 举报处理页面 - 违规记录管理 - AI 审核日志查询（按来源：RAG Chat/Learning/Artifact 等） ## Domain Event（新增） - AIInputBlocked：AI 输入被拦截 - AIOutputBlocked：AI 输出被拦截 - UserPenaltyApplied：用户处罚生效 ## 交付检查 - [ ] 路由归属：Internal Provider 深化 + CAPI 新增 + AAPI 深化 - [ ] 是否需要 Prisma migration：是（违规记录表、举报表扩展） - [ ] 是否需要 MySQL：是 - [ ] 是否需要 Redis：是（已有依赖） - [ ] 是否需要 BullMQ：是（已有依赖） - [ ] 是否需要 Content Safety：本模块深化 - [ ] 是否需要 AuditLog：是（处罚操作） - [ ] 是否需要 Admin 视图：是（新增举报处理和违规管理页） ## 验收标准 1. AI 输入审核在 RAG Chat 中的接入方案 2. AI 输出审核在 LLM 回答返回前的接入方案 3. 举报提交 → 审核 → 处理的完整流程设计 4. 违规记录和处罚建议机制设计 5. Admin 举报处理和违规管理视图设计 6. 集成测试覆盖 AI 输入输出拦截场景 ## 禁止事项 - 禁止 AI 审核显著增加对话延迟（应使用缓存敏感词匹配 + 异步深度审核） - 禁止处罚自动执行（必须 Admin 确认） - 禁止审核日志暴露原始敏感内容给非 Admin 用户 ## 不建议当前阶段实现 - 图片/视频多模态审核 - AI 驱动的智能违规识别 - 用户信用评分和自动处罚系统

wangdl added this to the M1：AI / RAG 运行时与检索底座（P0~P1） milestone 2026-05-22 21:03:39 +08:00

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: wangdl/api-server#18