M1-05 Observability 深化 #19

Open
opened 2026-05-22 21:03:45 +08:00 by wangdl · 0 comments
Owner

目标

在 M0-07 Observability 基础版之上深化可观测性能力,补充 AI 调用耗时追踪、Worker 任务耗时可视化和 Admin 性能面板。

本 Issue 只做深化设计,基础能力(traceId 透传、接口耗时 interceptor、慢查询日志)已在 M0-07 完成。

背景说明

M0-07 建立了 traceId 透传和接口耗时记录。本阶段需要把 AI 调用和 Worker 任务的耗时也纳入可观测性体系,并在 Admin 上提供更完整的性能视图。

模块深化内容

  1. AI 调用耗时记录:

    • 在 AI Gateway 每次调用时通过 MetricsService.recordAICall() 记录耗时
    • 按 provider/模型/任务类型维度聚合
  2. Worker 任务耗时:

    • 在 Task Queue 任务完成时通过 MetricsService.recordTaskRun() 记录耗时
    • 按任务类型维度聚合
  3. Admin 可视化深化:

    • AI 调用耗时面板(按 provider/模型,含 P50/P95/P99)
    • Worker 任务耗时排行
    • 慢接口标记和趋势告警

基础设施依赖变更

相比 M0-07,无新增依赖。

接口设计(新增部分)

AAPI 新增/深化:

  • AI 调用耗时查询(支持按时间/provider/模型筛选)
  • Worker 任务耗时查询(支持按任务类型筛选)
  • 性能概览 Dashboard 数据接口

Admin 视图设计(深化)

  1. AI 性能页(新增):

    • 各模型/Provider 的调用量、平均耗时、P95 耗时
    • AI 调用失败率趋势
    • AI 调用耗时分布(直方图或分桶)
  2. Worker 性能页(新增):

    • 各任务类型的执行耗时排行
    • 任务成功率和重试率
    • 队列等待时间趋势

交付检查

  • 路由归属:Interceptor/Internal Provider 深化 + AAPI 新增
  • 是否需要 Prisma migration:是(指标表扩展)
  • 是否需要 MySQL:是
  • 是否需要 Redis:否
  • 是否需要 BullMQ:否
  • 是否需要 AI Gateway:是(采集方)
  • 是否需要 Admin 视图:是(新增 AI/Worker 性能页)
  • 是否需要 E2E/集成测试:是

验收标准

  1. AI 调用耗时采集方案(在 AI Gateway 中接入)
  2. Worker 任务耗时采集方案(在 Task Queue 中接入)
  3. Admin AI 性能面板设计
  4. Admin Worker 性能面板设计
  5. 集成测试覆盖指标记录和查询

禁止事项

  • 禁止指标采集影响 AI 调用性能(应以非阻塞方式记录)
  • 禁止 Worker 耗时采集显著增加任务执行时间
## 目标 在 M0-07 Observability 基础版之上深化可观测性能力,补充 AI 调用耗时追踪、Worker 任务耗时可视化和 Admin 性能面板。 本 Issue 只做深化设计,基础能力(traceId 透传、接口耗时 interceptor、慢查询日志)已在 M0-07 完成。 ## 背景说明 M0-07 建立了 traceId 透传和接口耗时记录。本阶段需要把 AI 调用和 Worker 任务的耗时也纳入可观测性体系,并在 Admin 上提供更完整的性能视图。 ## 模块深化内容 1. AI 调用耗时记录: - 在 AI Gateway 每次调用时通过 MetricsService.recordAICall() 记录耗时 - 按 provider/模型/任务类型维度聚合 2. Worker 任务耗时: - 在 Task Queue 任务完成时通过 MetricsService.recordTaskRun() 记录耗时 - 按任务类型维度聚合 3. Admin 可视化深化: - AI 调用耗时面板(按 provider/模型,含 P50/P95/P99) - Worker 任务耗时排行 - 慢接口标记和趋势告警 ## 基础设施依赖变更 相比 M0-07,无新增依赖。 ## 接口设计(新增部分) AAPI 新增/深化: - AI 调用耗时查询(支持按时间/provider/模型筛选) - Worker 任务耗时查询(支持按任务类型筛选) - 性能概览 Dashboard 数据接口 ## Admin 视图设计(深化) 1. AI 性能页(新增): - 各模型/Provider 的调用量、平均耗时、P95 耗时 - AI 调用失败率趋势 - AI 调用耗时分布(直方图或分桶) 2. Worker 性能页(新增): - 各任务类型的执行耗时排行 - 任务成功率和重试率 - 队列等待时间趋势 ## 交付检查 - [ ] 路由归属:Interceptor/Internal Provider 深化 + AAPI 新增 - [ ] 是否需要 Prisma migration:是(指标表扩展) - [ ] 是否需要 MySQL:是 - [ ] 是否需要 Redis:否 - [ ] 是否需要 BullMQ:否 - [ ] 是否需要 AI Gateway:是(采集方) - [ ] 是否需要 Admin 视图:是(新增 AI/Worker 性能页) - [ ] 是否需要 E2E/集成测试:是 ## 验收标准 1. AI 调用耗时采集方案(在 AI Gateway 中接入) 2. Worker 任务耗时采集方案(在 Task Queue 中接入) 3. Admin AI 性能面板设计 4. Admin Worker 性能面板设计 5. 集成测试覆盖指标记录和查询 ## 禁止事项 - 禁止指标采集影响 AI 调用性能(应以非阻塞方式记录) - 禁止 Worker 耗时采集显著增加任务执行时间
wangdl added this to the M1:AI / RAG 运行时与检索底座(P0~P1) milestone 2026-05-22 21:03:45 +08:00
Sign in to join this conversation.
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: wangdl/api-server#19
No description provided.