NOTE
输入输出、节点流转、按需求拆分任务、多Agent框架、Sub-Agent 职责划分

多 Agent 协作职责划分#

整体协作图#

1
                      ┌─────────────────┐
2
                      │  Orchestrator    │
3
                      │    (Router)      │
4
                      │  ─────────────   │
5
                      │  意图分类         │
6
                      │  任务分发         │
7
                      │  结果聚合         │
8
                      └────────┬────────┘
9
                               │
10
           ┌───────────────────┼───────────────────┐
11
           │                   │                   │
12
           ▼                   ▼                   ▼
13
  ┌────────────────┐  ┌────────────────┐  ┌────────────────┐
14
  │   JD Worker    │  │ Resume Worker  │  │  Match Worker  │
15
  │    Pool (1-2)  │  │   Pool (5-10)  │  │   Pool (3-5)   │
16
  └────────┬───────┘  └────────┬───────┘  └────────┬───────┘
17
           │                   │                    │
18
           ▼                   ▼                    ▼
19
     JDSchema            ResumeSchema           MatchResult

1. Orchestrator (Router)#

项目	内容
类型	调度者（不是执行者）
模型	Haiku 4.5（简单路由，便宜）
职责	意图分类、任务分发、结果聚合

输入：
HR: “筛选 5 年以上 Python 工程师，重点看架构能力”

Orchestrator Think：

意图识别：这是一个「筛选请求」
需要 JD 解析 + 批量简历匹配
分发 JD Worker → 等待 JDSchema
分发 Resume Worker → 等待批量 ResumeSchema
分发 Match Worker → 等待 MatchResults
聚合结果返回给 HR

输出：

1
{
2
  "intent": "screen_candidates",
3
  "tasks": [
4
    {"task_id": "t1", "agent": "JDWorker", "input": "..."},
5
    {"task_id": "t2", "agent": "ResumeWorker", "input": "resume_batch_001"},
6
    {"task_id": "t3", "agent": "MatchWorker", "input": {"jd: "t1", "resumes": "t2"}}
7
  ],
8
  "wait_for": ["t3"]
9
}

2. JD Worker#

项目	内容
类型	单任务执行者
模型	Sonnet 4.6（深度理解 JD）
副本	1-2 个（JD 解析不频繁）

职责：将 JD 文本解析为结构化 JDSchema

输入：
“招聘高级 Python 后端开发，要求 5 年以上经验，熟悉 FastAPI、Django，有微服务架构经验优先，具备良好的团队协作能力和沟通能力，本科及以上学历”

处理流程：

LLM 提取关键实体（技能、经验、学历）
构建技能树 + 权重
区分 required vs optional
异常检测（技能矛盾、要求不合理）
输出 JDSchema

输出：

1
{
2
  "job_id": "jd_001",
3
  "job_title": "高级 Python 后端开发",
4
  "硬技能": [
5
    {"skill": "Python", "weight": 0.3, "required": true, "level": "expert"},
6
    {"skill": "FastAPI", "weight": 0.2, "required": true, "level": "advanced"},
7
    {"skill": "Django", "weight": 0.15, "required": true, "level": "advanced"},
8
    {"skill": "微服务架构", "weight": 0.1, "required": false, "level": "intermediate"}
9
  ],
10
  "软技能": [
11
    {"skill": "团队协作", "weight": 0.15, "required": true},
12
    {"skill": "沟通能力", "weight": 0.1, "required": true}
13
  ],
14
  "经验年限": {"min": 5},
15
  "学历": {"min": "本科"},
16
  "jd_embedding": [0.123, ...]
17
}

3. Resume Worker#

项目	内容
类型	单任务执行者
模型	Haiku 4.5（高吞吐，便宜）
副本	5-10 个（简历量大）
特点	无状态，可水平扩展

职责：解析简历为结构化 ResumeSchema

输入：
resume_file: PDF/DOCX/IMG
candidate_id: “cand_001”

处理流程：

1
1. 格式检测（PDF/DOCX/HTML/IMG）
2
           │
3
           ▼
4
2. 文本提取
5
   - PDF: pdf-parse
6
   - DOCX: python-docx
7
   - IMG: Tesseract OCR
8
           │
9
           ▼
10
3. LLM 结构化提取
11
   - 姓名、联系方式
12
   - 工作经历（公司、职位、时间、描述）
13
   - 教育背景（学历、专业、毕业年份）
14
   - 技能清单（技能名、年限、级别）
15
           │
16
           ▼
17
4. 向量化（用于向量召回）
18
           │
19
           ▼
20
5. 输出 ResumeSchema

输出：

1
{
2
  "candidate_id": "cand_001",
3
  "name": "张三",
4
  "工作经历": [
5
    {
6
      "company": "XX科技",
7
      "title": "高级工程师",
8
      "duration": "2020.03 - 至今",
9
      "years": 4,
10
      "description": "负责后端架构设计，使用 FastAPI 重构微服务...",
11
      "skills_extracted": ["Python", "FastAPI", "微服务"]
12
    }
13
  ],
14
  "教育背景": {"degree": "本科", "major": "计算机"},
15
  "技能清单": {
16
    "Python": {"level": "expert", "years": 6},
17
    "FastAPI": {"level": "advanced", "years": 3}
18
  },
19
  "总工作经验": 6,
20
  "resume_embedding": [0.456, ...]
21
}

4. Match Worker#

项目	内容
类型	单任务执行者
模型	Sonnet 4.6（深度匹配+推理）
副本	3-5 个
特点	核心计算模块，最耗时

职责：计算 JD 与简历的匹配度 + 生成解释

输入：

1
{
2
  "jd": JDSchema,
3
  "candidate": ResumeSchema
4
}

处理流程：

1
1. 硬技能匹配 (40%)
2
   - 技能级别对比：Python expert ≥ JD 要求 expert ✓
3
   - 技能是否存在：简历有 FastAPI，JD 要求 FastAPI ✓
4
           │
5
           ▼
6
2. 软技能匹配 (20%)
7
   - 语义相似度计算
8
   - 从工作描述推断软技能
9
           │
10
           ▼
11
3. 经验年限匹配 (25%)
12
   - 简历 6 年 ≥ JD 要求 5 年 ✓
13
           │
14
           ▼
15
4. 学历匹配 (15%)
16
   - 简历本科 ≥ JD 要求本科 ✓
17
           │
18
           ▼
19
5. 优选条件加分 (5%)
20
   - 简历有微服务经验，属于优选条件 +20% 加分
21
           │
22
           ▼
23
6. 综合得分计算
24
   36.8 + 15.6 + 25.0 + 15.0 + 1.0 = 85.6 分
25
           │
26
           ▼
27
7. Explanation 生成
28
   - 为什么推荐/不推荐
29
   - 匹配的优势
30
   - 潜在风险
31
   - 面试重点

输出：

1
{
2
  "candidate_id": "cand_001",
3
  "total_score": 85.6,
4
  "recommendation": "强烈推荐",
5
  "breakdown": {
6
    "硬技能": {"score": 92, "weighted": 36.8},
7
    "软技能": {"score": 78, "weighted": 15.6},
8
    "经验": {"score": 100, "weighted": 25.0},
9
    "学历": {"score": 100, "weighted": 15.0},
10
    "优选条件": {"score": 20, "weighted": 1.0}
11
  },
12
  "explanation": {
13
    "summary": "综合得分 85.6，与岗位高度匹配",
14
    "strengths": [
15
      "Python 专家级别（6年），超过岗位要求",
16
      "FastAPI/Django 技能与岗位吻合",
17
      "具备微服务架构经验（优选条件加分）"
18
    ],
19
    "concerns": ["软技能建议面试核实"],
20
    "missing": [],
21
    "interview_focus": ["微服务架构设计思路", "团队协作角色"]
22
  },
23
  "confidence": 0.89
24
}

5. Worker 间协作时序#

1
HR Request
2
      │
3
      ▼
4
┌─────────────────────────────────────────────────────────────────┐
5
│ Orchestrator                                                    │
6
│ 1. 意图分类：「筛选候选人」                                       │
7
│ 2. 任务分发                                                     │
8
└─────────────────────────────────────────────────────────────────┘
9
      │
10
      ├──────────────────────────────┐
11
      ▼                              ▼
12
┌──────────────┐           ┌──────────────┐
13
│ JD Worker    │           │ Resume Repo  │
14
│              │           │ (批量读取)    │
15
│ 解析 JD      │           │              │
16
└──────┬───────┘           └──────┬───────┘
17
       │                          │
18
       │ JDSchema                  │ ResumeSchema[]
19
       │                          │
20
       │         ┌─────────────────┘
21
       │         │
22
       ▼         ▼
23
┌──────────────────────────────────┐
24
│         Match Worker Pool         │
25
│  ┌────────┐ ┌────────┐ ┌────────┐│
26
│  │Match #1│ │Match #2│ │Match #N││
27
│  └────────┘ └────────┘ └────────┘│
28
│  并行计算每个候选人的匹配度           │
29
└──────────────────────────────────┘
30
       │
31
       │ MatchResults[]
32
       │
33
       ▼
34
┌──────────────────────────────────┐
35
│        Orchestrator               │
36
│  聚合 + 排序 + 分页              │
37
│  返回 Top-K 给 HR                │
38
└──────────────────────────────────┘

6. 职责边界清晰化#

问题	解答
JD Worker 太多？	JD 解析不频繁，1-2 个足够
Resume Worker 太少？	简历量大，需要 5-10 个并行
Match Worker 挂了？	Orchestrator 检测超时，重新分发
JD 还没解析完就匹配？	Orchestrator 等待 t1 完成后再分发 t3
两个 Worker 抢资源？	Redis Queue 内部实现，不暴露给 Agent

7. 与传统 Orchestrator-Workers 的区别#

传统模式	本设计
Orchestrator 决定「谁来执行」	Orchestrator 只决定「做什么」，Queue 决定「谁来做」
Worker 是通用执行者	Worker 是专业化 agent（JD专用、Match专用）
结果直接返回	统一经过 Orchestrator 聚合

这样设计的好处是：专业化比通用化更精准，JD Worker 专注理解招聘需求，Match Worker 专注匹配逻辑。

简历知识库存储什么？#

1. 数据分层#

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                     简历知识库四层架构                            │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │  L1: 原始文件层 (Raw Files)                                      │
5
  │       - PDF/DOCX/HTML/IMG 原文件                                  │
6
  │       - 用途: 存档、复核、OCR 重新处理                            │
7
  ├─────────────────────────────────────────────────────────────────┤
8
  │  L2: 结构化数据层 (Structured Schema)                            │
9
  │       - ResumeSchema (JSON)                                       │
10
  │       - 用途: 业务查询、筛选、排序                                │
11
  ├─────────────────────────────────────────────────────────────────┤
12
  │  L3: 语义索引层 (Semantic Index)                                 │
13
  │       - 向量 embedding (技能、工作描述)                           │
14
  │       - 用途: 语义相似召回                                        │
15
  ├─────────────────────────────────────────────────────────────────┤
16
  │  L4: 知识图谱层 (Knowledge Graph)                                 │
17
  │       - 技能实体关系                                              │
18
  │       - 候选人-公司-技能-项目的图关系                            │
19
  │       - 用途: 跨维度推理、同义词扩展                              │
20
  └─────────────────────────────────────────────────────────────────┘

2. 存储选型与数据内容#

1
  ┌───────────────┬────────────────────────┬────────────────────────────────────────┐
2
  │    存储层     │        技术选型        │                存储内容                │
3
  ├───────────────┼────────────────────────┼────────────────────────────────────────┤
4
  │ L1 原始文件   │ S3 / Blob Storage      │ PDF/DOCX/IMG 原始文件                  │
5
  ├───────────────┼────────────────────────┼────────────────────────────────────────┤
6
  │ L2 结构化数据 │ PostgreSQL             │ ResumeSchema JSON + 业务字段           │
7
  ├───────────────┼────────────────────────┼────────────────────────────────────────┤
8
  │ L3 向量索引   │ Weaviate / Pinecone    │ skill_embedding, description_embedding │
9
  ├───────────────┼────────────────────────┼────────────────────────────────────────┤
10
  │ L4 知识图谱   │ Neo4j / Amazon Neptune │ 技能图谱、公司关系、项目关系           │
11
  └───────────────┴────────────────────────┴────────────────────────────────────────┘

3. 读写分离#

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    读写分离架构                                    │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │   写操作 (简历上传、JD创建)                                       │
6
  │          │                                                        │
7
  │          ▼                                                        │
8
  │   ┌─────────────┐                                                │
9
  │   │  Primary    │  (PostgreSQL Primary)                          │
10
  │   │  Write DB   │                                                │
11
  │   └──────┬──────┘                                                │
12
  │          │                                                        │
13
  │          │ Streaming Replication                                   │
14
  │          ▼                                                        │
15
  │   ┌─────────────┐     ┌─────────────┐                            │
16
  │   │  Replica 1  │     │  Replica 2  │                            │
17
  │   │  (读)       │     │  (读)       │                            │
18
  │   └─────────────┘     └─────────────┘                            │
19
  │                                                                  │
20
  │   读操作 (筛选、搜索)                                              │
21
  │          │                                                        │
22
  │          ▼                                                        │
23
  │   ┌─────────────┐                                                │
24
  │   │ PgBouncer   │  (读写分离路由)                                  │
25
  │   │ (连接池)    │                                                │
26
  │   └──────┬──────┘                                                │
27
  │          │                                                        │
28
  │          ├─── Read 1 ──▶ Replica 1                               │
29
  │          │                                                        │
30
  │          └─── Read 2 ──▶ Replica 2                               │
31
  │                                                                  │
32
  └─────────────────────────────────────────────────────────────────┘

高可用#

1. 基建#

1
  ┌────────────────────┬─────────────────────┬──────────────┐
2
  │        组件        │     高可用策略      │ 故障切换时间 │
3
  ├────────────────────┼─────────────────────┼──────────────┤
4
  │ 多区域部署         │ 主从 + 异步复制     │ 分钟级       │
5
  ├────────────────────┼─────────────────────┼──────────────┤
6
  │ Kubernetes Cluster │ 多 Master 节点      │ 秒级         │
7
  ├────────────────────┼─────────────────────┼──────────────┤
8
  │ 负载均衡器         │ 健康检查 + 自动摘除 │ 秒级         │
9
  ├────────────────────┼─────────────────────┼──────────────┤
10
  │ DNS                │ TTL 多值 + 智能解析 │ 分钟级       │
11
  └────────────────────┴─────────────────────┴──────────────┘

2. 数据库层高可用#

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    PostgreSQL 高可用架构                          │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │   ┌─────────────┐                                               │
6
  │   │   Client    │                                               │
7
  │   └──────┬──────┘                                               │
8
  │          │                                                       │
9
  │          ▼                                                       │
10
  │   ┌─────────────┐                                               │
11
  │   │  PgBouncer   │  (连接池 + 读写分离路由)                      │
12
  │   └──────┬──────┘                                               │
13
  │          │                                                       │
14
  │          ├────────────────────┬────────────────────┐            │
15
  │          ▼                    ▼                    ▼            │
16
  │   ┌─────────────┐      ┌─────────────┐      ┌─────────────┐    │
17
  │   │  Primary     │◀────│  Standby 1  │◀────│  Standby 2   │    │
18
  │   │  (写)        │ 同步 │  (热备)     │ 同步 │  (热备)      │    │
19
  │   └──────┬──────┘      └─────────────┘      └─────────────┘    │
20
  │          │                                                       │
21
  │          │  Streaming Replication                               │
22
  │          ▼                                                       │
23
  │   ┌─────────────┐                                               │
24
  │   │  Read        │  (读副本，用于报表/离线分析)                    │
25
  │   │  Replica 3   │                                               │
26
  │   └─────────────┘                                               │
27
  │                                                                  │
28
  │   自动故障切换: PgPool-II 或 Patroni + etcd                      │
29
  └─────────────────────────────────────────────────────────────────┘

3. MQ高可用#

1
redis cluster 哨兵

4. 知识库高可用#

1
读写分离

高并发#

1
  4.1 简历处理高并发
2

3
  ┌─────────────────────────────────────────────────────────────────────────────┐
4
  │                         简历处理高并发架构                                    │
5
  ├─────────────────────────────────────────────────────────────────────────────┤
6
  │                                                                              │
7
  │   简历上传                                                              │
8
  │      │                                                                  │
9
  │      ▼                                                                  │
10
  │   ┌─────────────┐                                                        │
11
  │   │ API Gateway │  (限流 + Auth + 路由)                                    │
12
  │   └──────┬──────┘                                                        │
13
  │          │                                                                │
14
  │          ▼                                                                │
15
  │   ┌─────────────┐                                                        │
16
  │   │ Upload S3   │  (直接上传到对象存储，避开 API 服务器)                    │
17
  │   │ Pre-signed URL │                                                      │
18
  │   └──────┬──────┘                                                        │
19
  │          │                                                                │
20
  │          │ Async Event                                                    │
21
  │          ▼                                                                │
22
  │   ┌─────────────────────────────────────────────────────────────────┐     │
23
  │   │                    Redis Stream (消息队列)                          │     │
24
  │   │  ┌─────────────────────────────────────────────────────────────┐ │     │
25
  │   │  │ resume:uploaded  │ resume:uploaded  │ resume:uploaded  ... │ │     │
26
  │   │  └─────────────────────────────────────────────────────────────┘ │     │
27
  │   │         ▲                    ▲                    ▲               │     │
28
  │   │         │                    │                    │               │     │
29
  │   └─────────┼────────────────────┼────────────────────┼───────────────┘     │
30
  │             │                    │                    │                     │
31
  │             │                    │                    │                     │
32
  │    ┌────────┴───────┐  ┌────────┴───────┐  ┌────────┴───────┐          │
33
  │    │ Worker Group A  │  │ Worker Group B  │  │ Worker Group N  │          │
34
  │    │ (处理分区 0-99) │  │ (处理分区 100-199)│ │ (处理分区 200-299)│          │
35
  │    └────────┬───────┘  └────────┬───────┘  └────────┬───────┘          │
36
  │             │                    │                    │                     │
37
  │             ▼                    ▼                    ▼                     │
38
  │   ┌─────────────────────────────────────────────────────────────────┐     │
39
  │   │                    Consumer Group (消费者组)                        │     │
40
  │   │  同一消费者组内的 Worker 竞争消费同一分区                            │     │
41
  │   │  不同消费者组可以独立处理同一消息                                    │     │
42
  │   │                                                                  │     │
43
  │   │  Group A: 解析 ──▶ 写入 PG ──▶ 触发 Vector Agent                   │     │
44
  │   │  Group B: 解析 ──▶ 触发 Graph Agent ──▶ 更新质量分                  │     │
45
  │   │                                                                  │     │
46
  │   └─────────────────────────────────────────────────────────────────┘     │
47
  │                                                                              │
48
  └─────────────────────────────────────────────────────────────────────────────┘

性能指标#

1
 ┌─────────────────┬────────────────┬──────────┬─────────────┐
2
  │      指标       │    正常范围    │ 告警阈值 │  处理策略   │
3
  ├─────────────────┼────────────────┼──────────┼─────────────┤
4
  │ API P99 Latency │ < 500ms        │ > 1s     │ 扩容 + 降级 │
5
  ├─────────────────┼────────────────┼──────────┼─────────────┤
6
  │ API Error Rate  │ < 0.1%         │ > 1%     │ 熔断 + 告警 │
7
  ├─────────────────┼────────────────┼──────────┼─────────────┤
8
  │ Queue Depth     │ < 1000         │ > 5000   │ 扩容 Worker │
9
  ├─────────────────┼────────────────┼──────────┼─────────────┤
10
  │ CPU Utilization │ 40-70%         │ > 80%    │ 扩容        │
11
  ├─────────────────┼────────────────┼──────────┼─────────────┤
12
  │ Memory Usage    │ 50-70%         │ > 85%    │ 扩容        │
13
  ├─────────────────┼────────────────┼──────────┼─────────────┤
14
  │ DB Connections  │ < 80%          │ > 90%    │ 连接池调优  │
15
  ├─────────────────┼────────────────┼──────────┼─────────────┤
16
  │ Vector DB QPS   │ < 80% capacity │ > 90%    │ 扩容副本    │
17
  └─────────────────┴────────────────┴──────────┴─────────────┘

整体服务架构

1
 ┌─────────────────────────────────────────────────────────────────────────────┐
2
  │                           全球多区域部署架构                                  │
3
  ├─────────────────────────────────────────────────────────────────────────────┤
4
  │                                                                              │
5
  │    ┌─────────────────┐         ┌─────────────────┐         ┌─────────────────┐
6
  │    │   Region A      │         │   Region B      │         │   Region C      │
7
  │    │  (主: 北京)     │◀──────▶│  (备: 上海)     │◀──────▶│  (备: 广州)     │
8
  │    │                 │  同步   │                 │  异步   │                 │
9
  │    └────────┬────────┘         └────────┬────────┘         └────────┬────────┘
10
  │             │                           │                           │
11
  └─────────────┼───────────────────────────┼───────────────────────────┼─────────┘
12
                │                           │                           │
13
                ▼                           ▼                           ▼
14
  ┌───────────────────────────────────────────────────────────────────────────────┐
15
  │                           Global Load Balancer (GSLB)                          │
16
  │                    (DNS 智能解析 + 健康检查 + 流量调度)                         │
17
  └─────────────────────────────────┬─────────────────────────────────────────────┘
18
                                    │
19
                      ┌─────────────┴─────────────┐
20
                      ▼                           ▼
21
          ┌───────────────────┐       ┌───────────────────┐
22
          │  API Gateway       │       │  API Gateway       │
23
          │  (Kong/AWS API GW) │       │  (Kong/AWS API GW) │
24
          │  ┌───────────────┐ │       │  ┌───────────────┐ │
25
          │  │ Rate Limiter  │ │       │  │ Rate Limiter  │ │
26
          │  │ Auth/JWT      │ │       │  │ Auth/JWT      │ │
27
          │  │ Router         │ │       │  │ Router        │ │
28
          │  │熔断器/Circuit  │ │       │  │ 熔断器/Circuit │ │
29
          │  └───────────────┘ │       │  └───────────────┘ │
30
          └────────┬───────────┘       └─────────┬─────────┘
31
                   │                               │
32
                   └─────────────┬─────────────────┘
33
                                 │
34
                                 ▼
35
                ┌────────────────────────────────────────┐
36
                │         Kubernetes Cluster (K8s)        │
37
                │  ┌──────────────────────────────────┐  │
38
                │  │         Ingress Controller         │  │
39
                │  └──────────────────────────────────┘  │
40
                │                                          │
41
                │  ┌─────────┐  ┌─────────┐  ┌─────────┐ │
42
                │  │ API Pod │  │ API Pod │  │ API Pod │ │
43
                │  │  (3+ replicas)  │  │  │  │ │
44
                │  └─────────┘  └─────────┘  └─────────┘ │
45
                │                                          │
46
                │  ┌──────────────────────────────────┐  │
47
                │  │       HPA (自动扩缩容)             │  │
48
                │  │  基于 CPU / Memory / RPS 指标      │  │
49
                │  └──────────────────────────────────┘  │
50
                │                                          │
51
                └──────────────────────────────────────────┘
52
                                 │
53
          ┌──────────────────────┼──────────────────────┐
54
          │                      │                      │
55
          ▼                      ▼                      ▼
56
  ┌───────────────┐    ┌───────────────┐    ┌───────────────┐
57
  │ Resume Worker │    │ JD Worker     │    │ Match Worker  │
58
  │ Pool (5-20)  │    │ Pool (2-8)    │    │ Pool (5-20)   │
59
  │ HPA enabled  │    │ HPA enabled  │    │ HPA enabled   │
60
  └───────────────┘    └───────────────┘    └───────────────┘
61
          │                      │                      │
62
          └──────────────────────┼──────────────────────┘
63
                                 │
64
                                 ▼
65
                ┌────────────────────────────────────────┐
66
                │          Redis Cluster (Queue + Cache)  │
67
                │   ┌────────┐ ┌────────┐ ┌────────┐   │
68
                │   │Master  │ │ Slave1  │ │ Slave2 │   │
69
                │   └────────┘ └────────┘ └────────┘   │
70
                │         Sentinel / Cluster Mode         │
71
                └────────────────────────────────────────┘
72
                                 │
73
          ┌──────────────────────┼──────────────────────┐
74
          ▼                      ▼                      ▼
75
  ┌───────────────┐    ┌───────────────┐    ┌───────────────┐
76
  │ PostgreSQL    │    │ Weaviate      │    │  Neo4j        │
77
  │ (主从+读 replica) │  │ (多副本)      │    │ (多副本)      │
78
  │ ┌───┐ ┌───┐   │    │ ┌───┐ ┌───┐   │    │ ┌───┐ ┌───┐   │
79
  │ │Primary│ │Read │   │ │Node│ │Node│   │    │ │Primary│ │Read │
80
  │ │    │ │Replica│   │ │ 1 │ │ 2 │   │    │ │    │ │Replica│ │
81
  │ └───┘ └───┘   │    │ └───┘ └───┘   │    │ └───┘ └───┘   │
82
  └───────────────┘    └───────────────┘    └───────────────┘

生产环境架构选型与规划#

1.1 Redis 作为 MQ 的核心问题#

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    Redis 不适合做主力 MQ 的原因                    │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  1. 消息持久化问题                                                │─┐
6
  │     ├── Redis 持久化是"建议性"的，断电可能丢消息                    │
7
  │     ├── AOF + fsync every sec 模式下，最坏丢 1 秒数据              │┤
8
  │     └── 生产环境：简历数据丢了 = 灾难                              ││
9
  │                                                                  │──┤
10
  │  2. 消息堆积能力                                                  │ │
11
  │     ├── Redis 所有数据在内存，堆积消息 = OOM                       │┤
12
  │     ├── 简历处理峰值 10万/小时，峰谷比 10:1                       │ │
13
  │     └── 专业 MQ 磁盘持久化，堆积百万级消息                         │┤
14
  │                                                                  │  │
15
  │  3. 消息顺序保证                                                  │─┘
16
  │     ├── Redis Stream 虽然有 consumer group，但无法保证全局顺序      │
17
  │     ├── 批量筛选需要：JD 解析先于匹配，简历按序处理                 │
18
  │     └── Kafka/RocketMQ 靠分区保证顺序                              │
19
  │                                                                  │
20
  │  4. 事务与exactly-once                                            │
21
  │     ├── 简历解析完成 → 写入 PG → 写入向量库 → 发送通知            │
22
  │     ├── Redis 无法保证跨系统的分布式事务                           │
23
  │     └── RocketMQ 事务消息 = 本地事务 + 消息投递原子性              │
24
  │                                                                  │
25
  │  5. 延迟/定时消息                                                │
26
  │     ├── 简历重试、HR 通知提醒、定时任务                            │
27
  │     ├── Redis 用 Sorted Set 模拟，复杂且不可靠                     │
28
  │     └── RocketMQ 延迟消息是原生支持                                │
29
  │                                                                  │
30
  │  6. 死信队列 / 消息回溯                                            │
31
  │     ├── 消费失败 → 死信队列 → 人工处理                            │
32
  │     ├── Redis 需要自己实现                                        │
33
  │     └── Kafka/RocketMQ 原生支持                                   │
34
  │                                                                  │
35
  └─────────────────────────────────────────────────────────────────┘

1
  ┌────────────┬──────────────────────────────────┐
2
  1.2 消息队列选型对比       解决方案             │
3
  ├────────────┼──────────────────────────────────┤
4
  ┌──────────────┬──────────────┬────────────────────┬────────────────┐
5
  │     特性     │   RocketMQ   │       Kafka        │  Redis Stream  │
6
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
7
  │ 消息持久化   │ 磁盘，TB 级  │ 磁盘，PB 级        │ 内存优先       │
8
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
9
  │ 吞吐量       │ 10万/秒      │ 100万/秒           │ 20万/秒        │
10
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
11
  │ 消息堆积     │ 强，磁盘无限 │ 极强，保留 7-30 天 │ 弱，受内存限制 │
12
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
13
  │ 顺序消息     │ 支持全局顺序 │ 分区内有序         │ 不保证         │
14
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
15
  │ 事务消息     │ 原生支持     │ 需自研             │ 不支持         │
16
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
17
  │ 延迟消息     │ 原生支持     │ 需插件             │ 模拟实现       │可用。
18
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
19
  │ 死信队列     │ 原生         │ 原生               │ 需自研         │
20
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
21
  │ 消息回溯     │ 支持         │ 支持               │ 不支持         │
22
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
23
  │ 运维难度     │ 中           │ 高                 │ 低             │
24
  ├──────────────┼──────────────┼────────────────────┼────────────────┤
25
  │ 单条消息成本 │ 中           │ 低                 │ 低             │
26
  └──────────────┴──────────────┴────────────────────┴────────────────┘

1.3 推荐方案

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                      生产环境 MQ 选型建议                          │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  ┌─────────────────────────────────────────────────────────────┐│
6
  │  │                   RocketMQ (推荐)                            ││
7
  │  │                                                              ││
8
  │  │  ✅ 事务消息（简历处理链路的原子性）                          ││
9
  │  │  ✅ 延迟消息（重试、通知调度）                               ││
10
  │  │  ✅ 顺序消息（简历按序处理）                                  ││
11
  │  │  ✅ 消息堆积（峰值削峰）                                      ││
12
  │  │  ✅ 死信队列（失败处理）                                      ││
13
  │  │  ✅ Java 生态（团队技能匹配）                                ││
14
  │  │                                                              ││
15
  │  │  适用场景:                                                   ││
16
  │  │  - 简历处理 Pipeline (解析→标准化→向量化→存储)                ││
17
  │  │  - 筛选任务分发                                              ││
18
  │  │  - HR 通知消息                                               ││
19
  │  └─────────────────────────────────────────────────────────────┘│
20
  │                                                                  │
21
  │  ┌─────────────────────────────────────────────────────────────┐│
22
  │  │                   Kafka (备选/大数据场景)                    ││
23
  │  │                                                              ││
24
  │  │  ✅ 极高吞吐量（HR SaaS 多租户日志、审计日志）                ││
25
  │  │  ✅ 消息回溯（重新处理历史简历）                              ││
26
  │  │  ✅ 生态丰富（与 Flink/Spark 集成）                          ││
27
  │  │                                                              ││
28
  │  │  适用场景:                                                   ││
29
  │  │  - 简历原始文件上传事件                                       ││
30
  │  │  - 审计日志/操作日志                                          ││
31
  │  │  - 实时数据分析 (筛选漏斗、HR 行为分析)                       ││
32
  │  └─────────────────────────────────────────────────────────────┘│
33
  │                                                                  │
34
  │  ┌─────────────────────────────────────────────────────────────┐│
35
  │  │                   Redis (仅限缓存，不做 MQ)                  ││
36
  │  │                                                              ││
37
  │  │  ✅ Session 缓存                                             ││
38
  │  │  ✅ 计算结果缓存 (JD Schema, Match Results)                  ││
39
  │  │  ✅ 分布式锁                                                 ││
40
  │  │  ✅ HPA 指标存储 (队列深度采集)                              ││
41
  │  │  ❌ 不做消息队列                                             ││
42
  │  └─────────────────────────────────────────────────────────────┘│
43
  └─────────────────────────────────────────────────────────────────┘

二、其他架构改进点

2.1 向量数据库选型问题

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    Weaviate/Pinecone 生产问题                      │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  问题 1: Weaviate 是 Java 服务，内存消耗大                        │
6
  │  ├── 官方建议 16GB+ 内存                                         │
7
  │  └── 多副本 = 内存成本乘以副本数                                  │
8
  │                                                                  │
9
  │  问题 2: 混合搜索的局限                                          │
10
  │  ├── BM25 + Vector 融合不如专业方案                               │
11
  │  └── RRF 融合是自己实现，后期维护成本高                          │
12
  │                                                                  │
13
  │  推荐方案:                                                        │
14
  │  ┌───────────────────────────────────────────────────────────┐  │
15
  │  │  Milvus (推荐)                                            │  │
16
  │  │  ├── 专为向量设计，性能优                                  │  │
17
  │  │  ├── 混合搜索插件丰富                                      │  │
18
  │  │  ├── GPU 加速支持                                          │  │
19
  │  │  └── 国产开源，社区活跃                                    │  │
20
  │  │                                                            │  │
21
  │  │  或:                                                       │  │
22
  │  │                                                            │  │
23
  │  │  PgVector (简单场景)                                        │  │
24
  │  │  ├── PostgreSQL 生态，运维简单                              │  │
25
  │  │  ├── <10万向量足够                                         │  │
26
  │  │  └── 不足: 扩展性一般                                       │  │
27
  │  └───────────────────────────────────────────────────────────┘  │
28
  └─────────────────────────────────────────────────────────────────┘

2.2 知识图谱必要性评估

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    知识图谱真的是必须的吗？                         │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  当前设计: Neo4j 存储技能图谱                                      │
6
  │                                                                  │
7
  │  生产问题:                                                       │
8
  │  ├── 技能图谱数据从哪来？维护成本极高                             │
9
  │  ├── "微服务" 的同义词: [分布式系统, SOA, MSA] 谁来维护？         │
10
  │  ├── JD 和简历的技能匹配，用 embedding 语义相似度已经能解决 80%   │
11
  │  └── 引入 Neo4j = 多一套存储 + 多一套运维                         │
12
  │                                                                  │
13
  │  简化方案:                                                       │
14
  │  ┌───────────────────────────────────────────────────────────┐  │
15
  │  │  用 Embedding + 同义词表替代知识图谱                         │  │
16
  │  │                                                            │  │
17
  │  │  skill_synonyms = {                                        │  │
18
  │  │    "微服务架构": ["分布式系统", "SOA", "MSA", "服务化"],    │  │
19
  │  │    "Python": ["Python3"],                                  │  │
20
  │  │    "机器学习": ["ML", "Machine Learning"]                   │  │
21
  │  │  }                                                         │  │
22
  │  │                                                            │  │
23
  │  │  匹配时:                                                   │  │
24
  │  │  1. 直接匹配                                               │  │
25
  │  │  2. 同义词扩展匹配                                          │  │
26
  │  │  3. 向量语义相似度兜底                                      │  │
27
  │  │                                                            │  │
28
  │  │  收益: -Neo4j 依赖，-运维成本，+系统简单性                  │  │
29
  │  └───────────────────────────────────────────────────────────┘  │
30
  │                                                                  │
31
  │  结论: 知识图谱适合前期 POC 验证，业务验证跑通后再考虑引入          │
32
  │                                                                  │
33
  └─────────────────────────────────────────────────────────────────┘

2.3 多租户隔离问题

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    当前架构多租户隔离不足                          │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  问题:                                                          │
6
  │  ├── 所有租户共用一套 PostgreSQL/Weaviate/Redis                  │
7
  │  ├── 租户 A 的简历可能通过向量相似度 召回 租户 B 的简历          │
8
  │  ├── 数据泄露风险                                                │
9
  │  └── 资源竞争: 租户 A 批量导入影响 租户 B 的筛选延迟            │
10
  │                                                                  │
11
  │  改进方案:                                                      │
12
  │                                                                  │
13
  │  方案 A: Schema 隔离 (简单场景)                                  │
14
  │  ├── PostgreSQL: schema per tenant                              │
15
  │  ├── Weaviate: tenant_id 字段隔离                               │
16
  │  └── 优点: 简单，缺点: 跨租户查询困难                           │
17
  │                                                                  │
18
  │  方案 B: Namespace 隔离 (推荐)                                   │
19
  │  ├── 每个租户独立的 namespace                                   │
20
  │  ├── 消息队列: tenant_id 分区                                    │
21
  │  ├── 向量库: namespace 隔离                                      │
22
  │  └── 优点: 隔离性好，缺点: 资源成本 x N                         │
23
  │                                                                  │
24
  │  方案 C: 资源配额 + 逻辑隔离 (成本敏感场景)                       │
25
  │  ├── 租户级别资源配额 (QPS limit, storage quota)                 │
26
  │  ├── 租户 ID 标记所有数据                                        │
27
  │  ├── 查询时强制加 tenant_id 过滤                                 │
28
  │  └── 优点: 成本低，缺点: 隔离性弱                                │
29
  │                                                                  │
30
  │  推荐: 初期用方案 C，验证业务后升级到方案 B                        │
31
  │                                                                  │
32
  └─────────────────────────────────────────────────────────────────┘

三、生产环境关键改进

3.1 LLM 调用的高可用问题

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    LLM API 是单点故障                            │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  当前设计: 直接调用 OpenAI/Anthropic API                         │
6
  │                                                                  │
7
  │  生产问题:                                                       │
8
  │  ├── OpenAI API 故障 = 系统不可用                               │
9
  │  ├── API 限流 = 批量处理中断                                    │
10
  │  ├── Token 成本不可预测 = 预算失控                               │
11
  │  └── API 响应时间波动大 = SLA 无法保证                           │
12
  │                                                                  │
13
  │  改进方案:                                                       │
14
  │                                                                  │
15
  │  ┌───────────────────────────────────────────────────────────┐  │
16
  │  │                   LLM Gateway 架构                          │  │
17
  │  │                                                            │  │
18
  │  │  ┌─────────┐   ┌─────────┐   ┌─────────┐                  │  │
19
  │  │  │ OpenAI  │   │ Anthropic│   │ Azure   │   ┌─────────┐ │  │
20
  │  │  │ GPT-4   │   │ Claude   │   │ OpenAI  │   │ 本地模型 │ │  │
21
  │  │  └────┬────┘   └────┬────┘   └────┬────┘   └────┬────┘ │  │
22
  │  │       │              │              │              │        │  │
23
  │  │       └──────────────┼──────────────┼──────────────┘        │  │
24
  │  │                      │              │                        │  │
25
  │  │                      ▼              ▼                        │  │
26
  │  │               ┌─────────────────────────────┐               │  │
27
  │  │               │       LLM Gateway            │               │  │
28
  │  │               │  ┌─────────────────────────┐ │               │  │
29
  │  │               │  │ 多模型路由 (策略模式)    │ │               │  │
30
  │  │               │  │ - Primary/Secondary    │ │               │  │
31
  │  │               │  │ - 成本优先              │ │               │  │
32
  │  │               │  │ - 延迟优先              │ │               │  │
33
  │  │               │  └─────────────────────────┘ │               │  │
34
  │  │               │  ┌─────────────────────────┐ │               │  │
35
  │  │               │  │ 熔断器 (每模型独立)      │ │               │  │
36
  │  │               │  │ - 失败率 > 50% → 切换  │ │               │  │
37
  │  │               │  └─────────────────────────┘ │               │  │
38
  │  │               │  ┌─────────────────────────┐ │               │  │
39
  │  │               │  │ 限流 + 配额管理          │ │               │  │
40
  │  │               │  │ - per tenant QPS        │ │               │  │
41
  │  │               │  │ - per model limit       │ │               │  │
42
  │  │               │  └─────────────────────────┘ │               │  │
43
  │  │               │  ┌─────────────────────────┐ │               │  │
44
  │  │               │  │ 响应缓存 (semantic cache)│ │               │  │
45
  │  │               │  │ - 相同 JD 解析结果缓存  │ │               │  │
46
  │  │               │  │ - LLM 调用 -50%        │ │               │  │
47
  │  │               │  └─────────────────────────┘ │               │  │
48
  │  │               └─────────────────────────────┘               │  │
49
  │  └───────────────────────────────────────────────────────────┘  │
50
  │                                                                  │
51
  │  开源方案:                                                       │
52
  │  ├── LiteLLM (Python) - 支持 50+ LLM API                         │
53
  │  ├── PortKey (SaaS) - LLM 网关 + 分析                           │
54
  │  └── GPTCache - 本地语义缓存                                     │
55
  │                                                                  │
56
  └─────────────────────────────────────────────────────────────────┘

3.2 简历处理链路的 Exactly-Once 问题

1
  ┌─────────────────────────────────────────────────────────────────┐
2
  │                    简历处理 Exactly-Once 问题                     │
3
  ├─────────────────────────────────────────────────────────────────┤
4
  │                                                                  │
5
  │  当前设计的问题:                                                 │
6
  │                                                                  │
7
  │  简历上传 → Resume Worker → Ingestion → Vector → Graph → 通知    │
8
  │       │                    │           │         │        │    │
9
  │       │                 写入 PG      写入向量   写入图    发邮件 │
10
  │       │                    │           │         │        │    │
11
  │       ▼                    ▼           ▼         ▼        ▼    │
12
  │    可能失败点: 任意一步失败，简历状态不一致                         │
13
  │                                                                  │
14
  │  问题场景:                                                       │
15
  │  1. Ingestion 成功，但 Vector Agent 失败 → PG 有数据，向量库没有  │
16
  │  2. 重试后，向量库重复写入 → 数据重复                             │
17
  │  3. Graph Agent 失败 → 技能图谱不完整                             │
18
  │                                                                  │
19
  │  改进方案: RocketMQ 事务消息                                      │
20
  │                                                                  │
21
  │  ┌───────────────────────────────────────────────────────────┐  │
22
  │  │  RocketMQ 事务消息处理:                                     │  │
23
  │  │                                                            │  │
24
  │  │  Producer                 Broker          Consumer         │  │
25
  │  │     │                       │                │            │  │
26
  │  │     │  发送 half 消息        │                │            │  │
27
  │  │     │──────────────────────>│                │            │  │
28
  │  │     │                       │                │            │  │
29
  │  │     │  执行本地事务          │                │            │  │
30
  │  │     │  (写入 PG)             │                │            │  │
31
  │  │     │                       │                │            │  │
32
  │  │     │  commit/rollback      │                │            │  │
33
  │  │     │──────────────────────>│                │            │  │
34
  │  │     │                       │                │            │  │
35
  │  │     │                       │ 投递消息        │            │  │
36
  │  │     │                       │───────────────>│            │  │
37
  │  │     │                       │                │            │  │
38
  │  │     │                       │         处理向量/图/通知       │  │
39
  │  │     │                       │                │            │  │
40
  │  │     │                       │         commit  │            │  │
41
  │  │     │                       │<───────────────│            │  │
42
  │  │     │                       │                │            │  │
43
  │  └───────────────────────────────────────────────────────────┘  │
44
  │                                                                  │
45
  │  事务状态表设计:                                                 │
46
  │  ┌─────────────────────────────────────────────────────────┐    │
47
  │  │  resume_transaction                                     │    │
48
  │  │  ─────────────────                                      │    │
49
  │  │  transaction_id: UUID                                   │    │
50
  │  │  candidate_id: UUID                                    │    │
51
  │  │  status: PENDING|COMMITTED|ROLLBACK                     │    │
52
  │  │  steps: {                                               │    │
53
  │  │    ingestion: DONE,                                    │    │
54
  │  │    vector: PENDING,                                    │    │
55
  │  │    graph: PENDING,                                     │    │
56
  │  │    notification: PENDING                              │    │
57
  │  │  }                                                     │    │
58
  │  │  created_at, updated_at                                │    │
59
  │  └─────────────────────────────────────────────────────────┘    │
60
  │                                                                  │
61
  └─────────────────────────────────────────────────────────────────┘

四、完整改进后的架构图

1
  ┌─────────────────────────────────────────────────────────────────────────────┐
2
  │                         生产级改进架构                                        │
3
  ├─────────────────────────────────────────────────────────────────────────────┤
4
  │                                                                              │
5
  │  ┌─────────────────────────────────────────────────────────────────────┐    │
6
  │  │                          接入层                                       │    │
7
  │  │  ┌───────────────┐      ┌───────────────┐      ┌───────────────┐    │    │
8
  │  │  │  Kong API GW  │      │  Kong API GW  │      │  Kong API GW  │    │    │
9
  │  │  │  (区域 A)     │      │  (区域 B)     │      │  (区域 C)     │    │    │
10
  │  │  │  Rate Limit   │      │  Rate Limit   │      │  Rate Limit   │    │    │
11
  │  │  │  Auth         │      │  Auth         │      │  Auth         │    │    │
12
  │  │  │  WAF          │      │  WAF          │      │  WAF          │    │    │
13
  │  │  └───────────────┘      └───────────────┘      └───────────────┘    │    │
14
  │  └─────────────────────────────────────────────────────────────────────┘    │
15
  │                                      │                                       │
16
  │                                      ▼                                       │
17
  │  ┌─────────────────────────────────────────────────────────────────────┐    │
18
  │  │                      LLM Gateway (LiteLLM)                            │    │
19
  │  │  ┌─────────┐  ┌─────────┐  ┌─────────┐  ┌─────────────────────────┐ │    │
20
  │  │  │ OpenAI  │  │Claude   │  │ Azure   │  │ 语义缓存 (GPTCache)     │ │    │
21
  │  │  └─────────┘  └─────────┘  └─────────┘  └─────────────────────────┘ │    │
22
  │  └─────────────────────────────────────────────────────────────────────┘    │
23
  │                                      │                                       │
24
  │                                      ▼                                       │
25
  │  ┌─────────────────────────────────────────────────────────────────────┐    │
26
  │  │                    RocketMQ (事务消息 + 延迟消息)                       │    │
27
  │  │  ┌──────────────┐  ┌──────────────┐  ┌──────────────┐               │    │
28
  │  │  │ resume:parse │  │  resume:sync │  │ match:batch  │               │    │
29
  │  │  │              │  │              │  │              │               │    │
30
  │  │  │ 延迟重试      │  │  跨系统同步  │  │  批量筛选    │               │    │
31
  │  │  │ 死信队列      │  │  顺序保证    │  │  结果聚合    │               │    │
32
  │  │  └──────────────┘  └──────────────┘  └──────────────┘               │    │
33
  │  └─────────────────────────────────────────────────────────────────────┘    │
34
  │                                      │                                       │
35
  │          ┌──────────────────────────┼──────────────────────────┐         │
36
  │          ▼                          ▼                          ▼         │
37
  │  ┌───────────────┐        ┌───────────────┐        ┌───────────────┐    │
38
  │  │ Resume Worker │        │ Ingestion     │        │ Match Worker  │    │
39
  │  │ Pool (HPA)    │───────▶│ Agent         │───────▶│ Pool (HPA)    │    │
40
  │  │               │        │               │        │               │    │
41
  │  │ - 格式解析    │        │ - 事务写入    │        │ - 向量召回    │    │
42
  │  │ - LLM 提取    │        │ - 去重检测    │        │ - 深度匹配    │    │
43
  │  │               │        │ - 质量评分    │        │ - 排序        │    │
44
  │  └───────────────┘        └───────┬───────┘        └───────────────┘    │
45
  │                                   │                                      │
46
  │                                   ▼                                      │
47
  │  ┌─────────────────────────────────────────────────────────────────────┐  │
48
  │  │                         存储层 (多租户隔离)                            │  │
49
  │  │                                                                      │  │
50
  │  │  ┌─────────────┐   ┌─────────────┐   ┌─────────────┐              │  │
51
  │  │  │ PostgreSQL  │   │  Milvus     │   │   Redis     │              │  │
52
  │  │  │ (读写分离)  │   │ (向量存储)  │   │  (缓存)     │              │  │
53
  │  │  │             │   │             │   │             │              │  │
54
  │  │  │ schema per  │   │ namespace   │   │ - Session   │              │  │
55
  │  │  │ tenant      │   │ per tenant  │   │ - Results   │              │  │
56
  │  │  │             │   │             │   │ - Metrics   │              │  │
57
  │  │  └─────────────┘   └─────────────┘   └─────────────┘              │  │
58
  │  │                                                                      │  │
59
  │  └─────────────────────────────────────────────────────────────────────┘  │
60
  │                                                                              │
61
  │  ┌─────────────────────────────────────────────────────────────────────┐  │
62
  │  │                         可观测性层                                     │  │
63
  │  │  ┌─────────────┐   ┌─────────────┐   ┌─────────────┐              │  │
64
  │  │  │  Jaeger     │   │ Prometheus  │   │  Grafana    │              │  │
65
  │  │  │  (Trace)    │   │ (Metrics)   │   │  (Dashboard)│              │  │
66
  │  │  └─────────────┘   └─────────────┘   └─────────────┘              │  │
67
  │  │                                                                      │  │
68
  │  └─────────────────────────────────────────────────────────────────────┘  │
69
  │                                                                              │
70
  └─────────────────────────────────────────────────────────────────────────────┘

五、改进清单汇总

1
  ┌──────────────┬──────────────┬────────────────────────────────┬────────┐
2
  │     问题     │   当前方案   │            推荐改进            │ 优先级 │
3
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
4
  │ MQ 选型      │ Redis Stream │ RocketMQ (事务消息)            │ P0     │
5
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
6
  │ LLM 可用性   │ 直接调用 API │ LLM Gateway (多模型+熔断+缓存) │ P0     │
7
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
8
  │ 向量库选型   │ Weaviate     │ Milvus (性能+GPU支持)          │ P1     │
9
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
10
  │ Exactly-Once │ 无           │ RocketMQ 事务消息              │ P0     │
11
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
12
  │ 多租户隔离   │ 逻辑隔离     │ Namespace 隔离 + 资源配额      │ P1     │
13
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
14
  │ 知识图谱     │ Neo4j        │ 简化为同义词表 + Embedding     │ P2     │
15
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
16
  │ 监控告警     │ 简单指标     │ 全链路追踪 + 业务指标          │ P1     │
17
  ├──────────────┼──────────────┼────────────────────────────────┼────────┤
18
  │ 成本控制     │ 无           │ LLM Gateway 配额 + 缓存        │ P1     │
19
  └──────────────┴──────────────┴────────────────────────────────┴────────┘

六、总结

1
  ┌────────┬──────────────┬───────────────────┐
2
  │  维度  │    原设计    │      改进后       │
3
  ├────────┼──────────────┼───────────────────┤
4
  │ MQ     │ Redis Stream │ RocketMQ          │
5
  ├────────┼──────────────┼───────────────────┤
6
  │ 向量库 │ Weaviate     │ Milvus            │
7
  ├────────┼──────────────┼───────────────────┤
8
  │ LLM    │ 直连 API     │ LLM Gateway       │
9
  ├────────┼──────────────┼───────────────────┤
10
  │ 多租户 │ 逻辑隔离     │ Namespace + 配额  │
11
  ├────────┼──────────────┼───────────────────┤
12
  │ 事务   │ 无           │ RocketMQ 事务消息 │
13
  ├────────┼──────────────┼───────────────────┤
14
  │ 图谱   │ Neo4j        │ 同义词表          │
15
  ├────────┼──────────────┼───────────────────┤
16
  │ 缓存   │ 无           │ GPTCache          │
17
  └────────┴──────────────┴───────────────────┘

核心原则:

生产环境 Redis 不做 MQ - 用 RocketMQ
LLM 调用必须加网关 - 可用性 > 成本
先简化再迭代 - 知识图谱不是必须项
多租户隔离要提前考虑 - 后期改造成本高