M0-06 Content Safety & Moderation 基础版 #6

New Issue

wangdl · 2026-05-22T21:00:15+08:00

wangdl commented

2026-05-22 21:00:15 +08:00

目标

设计知习后端内容安全与审核模块，对所有用户输入和 AI 输出进行内容安全检测，防止违规内容进入系统或展示给用户。

本 Issue 只做架构设计，不直接实现代码。

背景说明

知习作为 AI 学习产品，涉及用户上传资料、输入学习内容、AI 生成回答和知识点。这些内容如果包含违规信息（色情、暴力、政治敏感等），会给产品带来合规风险。

Content Safety 模块作为所有用户输入和 AI 输出的统一安检层，在内容进入存储或展示之前进行检测。第一阶段做文本审核 + 敏感词库 + 人工复核队列，图片/多模态审核后续接入第三方 API。

模块职责

本模块负责：
- 敏感词库管理（增删改查、分类、生效范围）
- 文本内容审核（同步检测，返回风险等级）
- AI 输入检测（用户提问内容）
- AI 输出检测（AI 回答内容）
- 用户上传材料文本检测
- 昵称/简介等公开展示字段检测
- 人工复核队列（高风险内容需人工确认）
- 违规记录和处罚建议
本模块不负责：
- 备案合规材料管理（走 Compliance & Safety Module）
- 隐私政策/用户协议（走 Compliance & Safety Module）
- 图片/文件的多模态内容审核（M1 阶段引入）
- 用户举报的完整处理流程（本模块提供举报记录，处理流程由运营决定）

候选数据对象

ContentSafetyCheck（审核记录）
ContentRiskResult（风险判定结果）
SensitiveWord（敏感词）
ContentReport（用户举报）
ModerationTask（人工复核任务）
ViolationRecord（违规记录）

基础设施依赖判断

MySQL：是，敏感词库、审核记录、违规记录持久化
Redis：是，敏感词缓存提高检测速度
BullMQ：是（异步审核任务，非阻塞）
Qdrant：否
AI Gateway：否（后续接入第三方审核 API 时通过 AI Gateway）
COS：否
Config：是（敏感词库可通过 Config 模块的热配置能力管理）

API 设计

Internal Provider（供其他模块调用）：
- ContentSafetyService.check(text, context)：同步文本检测
- ContentSafetyService.checkAsync(text, context)：异步文本检测
CAPI：
- 用户举报接口
AAPI：
- 敏感词库管理
- 人工复核队列
- 审核记录查询
- 违规记录管理

Domain Event 设计

ContentSafetyCheckCompleted：审核完成后发布
ContentViolationDetected：违规内容检测到
ContentReportSubmitted：用户提交举报

Admin 视图设计

敏感词库管理页：
- 词库列表（词汇、分类、风险等级、状态）
- 批量导入/导出
人工复核队列：
- 待审核列表（内容摘要、风险等级、来源）
- 审核操作（通过/拒绝/标记）
违规记录页：
- 违规列表（用户、内容类型、违规原因、处理状态）

交付检查

路由归属：Internal Provider + CAPI + AAPI
是否需要 Prisma migration：是
是否需要 MySQL：是
是否需要 Redis：是（缓存）
是否需要 BullMQ：是（异步审核）
是否需要 Qdrant：否
是否需要 AI Gateway：否（当前阶段不需要，后续接入第三方审核 API 时走 AI Gateway）
是否需要 Content Safety：本模块是 Content Safety 自身
是否需要 Cost 记录：否
是否需要 AuditLog：是（敏感词库变更、人工审核操作）
是否需要 Domain Event：是
是否需要 Admin 视图：是
是否需要 E2E/集成测试：是

验收标准

敏感词库 Prisma schema + 管理接口设计
ContentSafetyService 检测接口设计（同步 + 异步）
接入点清单（哪些业务模块需要在哪些节点调用 Content Safety）
人工复核队列设计
Admin 管理视图设计
集成测试覆盖文本检测、敏感词匹配、复核流程

禁止事项

禁止各业务模块自行实现内容检测逻辑（必须统一走 Content Safety）
禁止审核阻塞用户主流程（高风险异步审核，低风险放行+事后抽检）
禁止敏感词库明文暴露给 C 端
禁止审核结果直接展示给被审核用户（违规通知走专门流程）
禁止敏感词匹配使用数据库 like 查询（性能问题，应走内存/缓存匹配）

不建议当前阶段实现

图片/视频多模态内容审核（接入腾讯云/阿里云内容安全 API）
AI 驱动的智能内容审核
自动化处罚执行（先人工确认）
用户信用评分系统

## 目标设计知习后端内容安全与审核模块，对所有用户输入和 AI 输出进行内容安全检测，防止违规内容进入系统或展示给用户。本 Issue 只做架构设计，不直接实现代码。 ## 背景说明知习作为 AI 学习产品，涉及用户上传资料、输入学习内容、AI 生成回答和知识点。这些内容如果包含违规信息（色情、暴力、政治敏感等），会给产品带来合规风险。 Content Safety 模块作为所有用户输入和 AI 输出的统一安检层，在内容进入存储或展示之前进行检测。第一阶段做文本审核 + 敏感词库 + 人工复核队列，图片/多模态审核后续接入第三方 API。 ## 模块职责 1. 本模块负责： - 敏感词库管理（增删改查、分类、生效范围） - 文本内容审核（同步检测，返回风险等级） - AI 输入检测（用户提问内容） - AI 输出检测（AI 回答内容） - 用户上传材料文本检测 - 昵称/简介等公开展示字段检测 - 人工复核队列（高风险内容需人工确认） - 违规记录和处罚建议 2. 本模块不负责： - 备案合规材料管理（走 Compliance & Safety Module） - 隐私政策/用户协议（走 Compliance & Safety Module） - 图片/文件的多模态内容审核（M1 阶段引入） - 用户举报的完整处理流程（本模块提供举报记录，处理流程由运营决定） ## 候选数据对象 - ContentSafetyCheck（审核记录） - ContentRiskResult（风险判定结果） - SensitiveWord（敏感词） - ContentReport（用户举报） - ModerationTask（人工复核任务） - ViolationRecord（违规记录） ## 基础设施依赖判断 - MySQL：是，敏感词库、审核记录、违规记录持久化 - Redis：是，敏感词缓存提高检测速度 - BullMQ：是（异步审核任务，非阻塞） - Qdrant：否 - AI Gateway：否（后续接入第三方审核 API 时通过 AI Gateway） - COS：否 - Config：是（敏感词库可通过 Config 模块的热配置能力管理） ## API 设计 1. Internal Provider（供其他模块调用）： - ContentSafetyService.check(text, context)：同步文本检测 - ContentSafetyService.checkAsync(text, context)：异步文本检测 2. CAPI： - 用户举报接口 3. AAPI： - 敏感词库管理 - 人工复核队列 - 审核记录查询 - 违规记录管理 ## Domain Event 设计 - ContentSafetyCheckCompleted：审核完成后发布 - ContentViolationDetected：违规内容检测到 - ContentReportSubmitted：用户提交举报 ## Admin 视图设计 1. 敏感词库管理页： - 词库列表（词汇、分类、风险等级、状态） - 批量导入/导出 2. 人工复核队列： - 待审核列表（内容摘要、风险等级、来源） - 审核操作（通过/拒绝/标记） 3. 违规记录页： - 违规列表（用户、内容类型、违规原因、处理状态） ## 交付检查 - [ ] 路由归属：Internal Provider + CAPI + AAPI - [ ] 是否需要 Prisma migration：是 - [ ] 是否需要 MySQL：是 - [ ] 是否需要 Redis：是（缓存） - [ ] 是否需要 BullMQ：是（异步审核） - [ ] 是否需要 Qdrant：否 - [ ] 是否需要 AI Gateway：否（当前阶段不需要，后续接入第三方审核 API 时走 AI Gateway） - [ ] 是否需要 Content Safety：本模块是 Content Safety 自身 - [ ] 是否需要 Cost 记录：否 - [ ] 是否需要 AuditLog：是（敏感词库变更、人工审核操作） - [ ] 是否需要 Domain Event：是 - [ ] 是否需要 Admin 视图：是 - [ ] 是否需要 E2E/集成测试：是 ## 验收标准 1. 敏感词库 Prisma schema + 管理接口设计 2. ContentSafetyService 检测接口设计（同步 + 异步） 3. 接入点清单（哪些业务模块需要在哪些节点调用 Content Safety） 4. 人工复核队列设计 5. Admin 管理视图设计 6. 集成测试覆盖文本检测、敏感词匹配、复核流程 ## 禁止事项 - 禁止各业务模块自行实现内容检测逻辑（必须统一走 Content Safety） - 禁止审核阻塞用户主流程（高风险异步审核，低风险放行+事后抽检） - 禁止敏感词库明文暴露给 C 端 - 禁止审核结果直接展示给被审核用户（违规通知走专门流程） - 禁止敏感词匹配使用数据库 like 查询（性能问题，应走内存/缓存匹配） ## 不建议当前阶段实现 - 图片/视频多模态内容审核（接入腾讯云/阿里云内容安全 API） - AI 驱动的智能内容审核 - 自动化处罚执行（先人工确认） - 用户信用评分系统

wangdl added this to the M0：后端基础能力与架构规范闭环（P0） milestone 2026-05-22 21:00:15 +08:00

wangdl self-assigned this 2026-05-22 21:00:15 +08:00

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: wangdl/api-server#6