M0-06 Content Safety & Moderation 基础版 #6

Open
opened 2026-05-22 21:00:15 +08:00 by wangdl · 0 comments
Owner

目标

设计知习后端内容安全与审核模块,对所有用户输入和 AI 输出进行内容安全检测,防止违规内容进入系统或展示给用户。

本 Issue 只做架构设计,不直接实现代码。

背景说明

知习作为 AI 学习产品,涉及用户上传资料、输入学习内容、AI 生成回答和知识点。这些内容如果包含违规信息(色情、暴力、政治敏感等),会给产品带来合规风险。

Content Safety 模块作为所有用户输入和 AI 输出的统一安检层,在内容进入存储或展示之前进行检测。第一阶段做文本审核 + 敏感词库 + 人工复核队列,图片/多模态审核后续接入第三方 API。

模块职责

  1. 本模块负责:

    • 敏感词库管理(增删改查、分类、生效范围)
    • 文本内容审核(同步检测,返回风险等级)
    • AI 输入检测(用户提问内容)
    • AI 输出检测(AI 回答内容)
    • 用户上传材料文本检测
    • 昵称/简介等公开展示字段检测
    • 人工复核队列(高风险内容需人工确认)
    • 违规记录和处罚建议
  2. 本模块不负责:

    • 备案合规材料管理(走 Compliance & Safety Module)
    • 隐私政策/用户协议(走 Compliance & Safety Module)
    • 图片/文件的多模态内容审核(M1 阶段引入)
    • 用户举报的完整处理流程(本模块提供举报记录,处理流程由运营决定)

候选数据对象

  • ContentSafetyCheck(审核记录)
  • ContentRiskResult(风险判定结果)
  • SensitiveWord(敏感词)
  • ContentReport(用户举报)
  • ModerationTask(人工复核任务)
  • ViolationRecord(违规记录)

基础设施依赖判断

  • MySQL:是,敏感词库、审核记录、违规记录持久化
  • Redis:是,敏感词缓存提高检测速度
  • BullMQ:是(异步审核任务,非阻塞)
  • Qdrant:否
  • AI Gateway:否(后续接入第三方审核 API 时通过 AI Gateway)
  • COS:否
  • Config:是(敏感词库可通过 Config 模块的热配置能力管理)

API 设计

  1. Internal Provider(供其他模块调用):

    • ContentSafetyService.check(text, context):同步文本检测
    • ContentSafetyService.checkAsync(text, context):异步文本检测
  2. CAPI:

    • 用户举报接口
  3. AAPI:

    • 敏感词库管理
    • 人工复核队列
    • 审核记录查询
    • 违规记录管理

Domain Event 设计

  • ContentSafetyCheckCompleted:审核完成后发布
  • ContentViolationDetected:违规内容检测到
  • ContentReportSubmitted:用户提交举报

Admin 视图设计

  1. 敏感词库管理页:

    • 词库列表(词汇、分类、风险等级、状态)
    • 批量导入/导出
  2. 人工复核队列:

    • 待审核列表(内容摘要、风险等级、来源)
    • 审核操作(通过/拒绝/标记)
  3. 违规记录页:

    • 违规列表(用户、内容类型、违规原因、处理状态)

交付检查

  • 路由归属:Internal Provider + CAPI + AAPI
  • 是否需要 Prisma migration:是
  • 是否需要 MySQL:是
  • 是否需要 Redis:是(缓存)
  • 是否需要 BullMQ:是(异步审核)
  • 是否需要 Qdrant:否
  • 是否需要 AI Gateway:否(当前阶段不需要,后续接入第三方审核 API 时走 AI Gateway)
  • 是否需要 Content Safety:本模块是 Content Safety 自身
  • 是否需要 Cost 记录:否
  • 是否需要 AuditLog:是(敏感词库变更、人工审核操作)
  • 是否需要 Domain Event:是
  • 是否需要 Admin 视图:是
  • 是否需要 E2E/集成测试:是

验收标准

  1. 敏感词库 Prisma schema + 管理接口设计
  2. ContentSafetyService 检测接口设计(同步 + 异步)
  3. 接入点清单(哪些业务模块需要在哪些节点调用 Content Safety)
  4. 人工复核队列设计
  5. Admin 管理视图设计
  6. 集成测试覆盖文本检测、敏感词匹配、复核流程

禁止事项

  • 禁止各业务模块自行实现内容检测逻辑(必须统一走 Content Safety)
  • 禁止审核阻塞用户主流程(高风险异步审核,低风险放行+事后抽检)
  • 禁止敏感词库明文暴露给 C 端
  • 禁止审核结果直接展示给被审核用户(违规通知走专门流程)
  • 禁止敏感词匹配使用数据库 like 查询(性能问题,应走内存/缓存匹配)

不建议当前阶段实现

  • 图片/视频多模态内容审核(接入腾讯云/阿里云内容安全 API)
  • AI 驱动的智能内容审核
  • 自动化处罚执行(先人工确认)
  • 用户信用评分系统
## 目标 设计知习后端内容安全与审核模块,对所有用户输入和 AI 输出进行内容安全检测,防止违规内容进入系统或展示给用户。 本 Issue 只做架构设计,不直接实现代码。 ## 背景说明 知习作为 AI 学习产品,涉及用户上传资料、输入学习内容、AI 生成回答和知识点。这些内容如果包含违规信息(色情、暴力、政治敏感等),会给产品带来合规风险。 Content Safety 模块作为所有用户输入和 AI 输出的统一安检层,在内容进入存储或展示之前进行检测。第一阶段做文本审核 + 敏感词库 + 人工复核队列,图片/多模态审核后续接入第三方 API。 ## 模块职责 1. 本模块负责: - 敏感词库管理(增删改查、分类、生效范围) - 文本内容审核(同步检测,返回风险等级) - AI 输入检测(用户提问内容) - AI 输出检测(AI 回答内容) - 用户上传材料文本检测 - 昵称/简介等公开展示字段检测 - 人工复核队列(高风险内容需人工确认) - 违规记录和处罚建议 2. 本模块不负责: - 备案合规材料管理(走 Compliance & Safety Module) - 隐私政策/用户协议(走 Compliance & Safety Module) - 图片/文件的多模态内容审核(M1 阶段引入) - 用户举报的完整处理流程(本模块提供举报记录,处理流程由运营决定) ## 候选数据对象 - ContentSafetyCheck(审核记录) - ContentRiskResult(风险判定结果) - SensitiveWord(敏感词) - ContentReport(用户举报) - ModerationTask(人工复核任务) - ViolationRecord(违规记录) ## 基础设施依赖判断 - MySQL:是,敏感词库、审核记录、违规记录持久化 - Redis:是,敏感词缓存提高检测速度 - BullMQ:是(异步审核任务,非阻塞) - Qdrant:否 - AI Gateway:否(后续接入第三方审核 API 时通过 AI Gateway) - COS:否 - Config:是(敏感词库可通过 Config 模块的热配置能力管理) ## API 设计 1. Internal Provider(供其他模块调用): - ContentSafetyService.check(text, context):同步文本检测 - ContentSafetyService.checkAsync(text, context):异步文本检测 2. CAPI: - 用户举报接口 3. AAPI: - 敏感词库管理 - 人工复核队列 - 审核记录查询 - 违规记录管理 ## Domain Event 设计 - ContentSafetyCheckCompleted:审核完成后发布 - ContentViolationDetected:违规内容检测到 - ContentReportSubmitted:用户提交举报 ## Admin 视图设计 1. 敏感词库管理页: - 词库列表(词汇、分类、风险等级、状态) - 批量导入/导出 2. 人工复核队列: - 待审核列表(内容摘要、风险等级、来源) - 审核操作(通过/拒绝/标记) 3. 违规记录页: - 违规列表(用户、内容类型、违规原因、处理状态) ## 交付检查 - [ ] 路由归属:Internal Provider + CAPI + AAPI - [ ] 是否需要 Prisma migration:是 - [ ] 是否需要 MySQL:是 - [ ] 是否需要 Redis:是(缓存) - [ ] 是否需要 BullMQ:是(异步审核) - [ ] 是否需要 Qdrant:否 - [ ] 是否需要 AI Gateway:否(当前阶段不需要,后续接入第三方审核 API 时走 AI Gateway) - [ ] 是否需要 Content Safety:本模块是 Content Safety 自身 - [ ] 是否需要 Cost 记录:否 - [ ] 是否需要 AuditLog:是(敏感词库变更、人工审核操作) - [ ] 是否需要 Domain Event:是 - [ ] 是否需要 Admin 视图:是 - [ ] 是否需要 E2E/集成测试:是 ## 验收标准 1. 敏感词库 Prisma schema + 管理接口设计 2. ContentSafetyService 检测接口设计(同步 + 异步) 3. 接入点清单(哪些业务模块需要在哪些节点调用 Content Safety) 4. 人工复核队列设计 5. Admin 管理视图设计 6. 集成测试覆盖文本检测、敏感词匹配、复核流程 ## 禁止事项 - 禁止各业务模块自行实现内容检测逻辑(必须统一走 Content Safety) - 禁止审核阻塞用户主流程(高风险异步审核,低风险放行+事后抽检) - 禁止敏感词库明文暴露给 C 端 - 禁止审核结果直接展示给被审核用户(违规通知走专门流程) - 禁止敏感词匹配使用数据库 like 查询(性能问题,应走内存/缓存匹配) ## 不建议当前阶段实现 - 图片/视频多模态内容审核(接入腾讯云/阿里云内容安全 API) - AI 驱动的智能内容审核 - 自动化处罚执行(先人工确认) - 用户信用评分系统
wangdl added this to the M0:后端基础能力与架构规范闭环(P0) milestone 2026-05-22 21:00:15 +08:00
wangdl self-assigned this 2026-05-22 21:00:15 +08:00
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: wangdl/api-server#6
No description provided.