XiMind · Tech Architecture (Planning)
XiMind 技术架构设计(规划版)
云原生 LLM + RAG + MCP 工具调用 + 车端 Agent
规划骨架 · 2027 Q4 立项后细化
6
架构层
2029
v1.0 GA 目标
4
核心子系统
XiMind 技术架构设计(规划版)
规划版状态
本文档是 XiMind v1.0 规划版的技术架构草案,用于 2027 Q4 立项评审与 2028 开发启动。 具体技术选型(基础模型厂商 / 向量库版本 / 云服务商)将在立项阶段细化并锁定。本文档优先确立架构骨架、分层原则与关键接口。
摘要
本文档规划 XiMind v1.0 GA(2029 Q2 目标)的完整技术架构,覆盖 客户端接入、API 网关、AI 编排器、LLM + RAG + 工具调用、车端 Agent、数据平台 六个层级,以及层间协议、安全边界与水平扩展策略。 规划面向云端与算法团队、DevOps、以及后续商业化阶段的私有化部署实施方。
1. 架构总览(规划)
1.1 六层分层模型
graph TB
subgraph L0["L0 · 客户端接入"]
Desk[XiStudio/XiForge 桌面]
WebA[Web APP]
CarA[车主 APP]
Veh[车端 Agent<br/>XiAmp AI / XiBox AI]
end
subgraph L1["L1 · API 网关"]
Gw[API Gateway<br/>Kong/Envoy]
end
subgraph L2["L2 · AI 编排层"]
Orch[AI Orchestrator<br/>FastAPI+Celery]
end
subgraph L3["L3 · 核心服务层"]
LLM[LLM 推理<br/>vLLM]
RAG[RAG 检索<br/>Milvus]
Tools[工具调用层<br/>MCP/Function Calling]
end
subgraph L4["L4 · 下游产品集成"]
XF[XiForge API]
XS[XiStudio API]
XT[XiTest API]
XTu[XiTune API]
MQTT[车端 MQTT]
end
subgraph L5["L5 · 数据与基础设施"]
PG[(PostgreSQL)]
Mil[(Milvus)]
CH[(ClickHouse)]
S3[(MinIO/S3)]
Prom[(Prometheus)]
end
Desk --> Gw
WebA --> Gw
CarA --> Gw
Veh --> Gw
Gw --> Orch
Orch --> LLM
Orch --> RAG
Orch --> Tools
Tools --> XF
Tools --> XS
Tools --> XT
Tools --> XTu
Tools --> MQTT
Orch --> PG
RAG --> Mil
Orch --> CH
LLM --> S3
Orch --> Prom
class Desk,WebA,CarA,Veh xyL4
class Gw xyL3
class Orch xyL5
class LLM,RAG,Tools xyL5
class XF,XS,XT,XTu,MQTT xyL3
class PG,Mil,CH,S3,Prom xySuccess
1.2 设计原则(规划)
| 原则 | 说明 |
|---|---|
| 分层解耦 | 推理 / 检索 / 工具 / 数据 相互独立 · 可各自替换 |
| 开放协议 | REST / gRPC / WS / MQTT 均采用业界通用协议 |
| 云原生 | K8s + Istio · 所有服务容器化 · 水平可扩展 |
| 多区域 | 华东主 + 华南备 + 海外(北美/欧洲)· 就近路由 |
| 合规优先 | 数据境内化 · GDPR / 个保法 从架构层面支持 |
| 模型无关 | 编排器不绑定具体 LLM · 可切换第三方 / 自研 |
2. AI 编排层(Orchestrator)
2.1 核心职责
- 解析用户意图(根据 context · 调用合适模型)
- 拆解复杂任务为多步调用(Planning)
- 协调 LLM / RAG / 工具 完成端到端
- 追踪会话状态(多轮对话)
- 计费埋点(Token 统计)
2.2 ReAct 执行流(规划)
graph LR
In[用户输入]
In --> Parse[意图解析]
Parse --> Plan[Planning<br/>拆分步骤]
Plan --> Exec[ReAct 循环]
Exec --> Think[Thought<br/>LLM 推理]
Think --> Act[Action<br/>RAG/Tool 调用]
Act --> Obs[Observation<br/>结果]
Obs --> More{需要<br/>继续?}
More -->|是| Think
More -->|否| Fin[最终回复]
class In xyL5
class Parse,Plan,Exec xyL2
class Think,Act,Obs xyL3
class More xyL4
class Fin xySuccess
2.3 会话管理
- 会话 ID(session_id)· 24h 无活动后归档
- 上下文窗口:16K / 32K / 128K Token(按套餐)
- 摘要压缩:超过窗口时自动摘要早期对话
- 历史存储:PostgreSQL(会话元数据)+ S3(完整 trace · 加密)
3. LLM 推理子系统
3.1 模型层次(规划)
| 模型 | 用途 | 基础 | 部署形态 |
|---|---|---|---|
| 通用模型 | 对话 / 意图理解 | 第三方 + Fine-tune | vLLM · 多副本 |
| 声学领域模型 | DSP / 调音 推理 | 自研 Fine-tune | vLLM · 专用池 |
| 代码模型 | C/C++ 生成 | Code-LLM Fine-tune | vLLM · 专用池 |
| 车端轻量模型 | 场景识别 | 蒸馏 < 1B | 车端运行 |
基础模型选型
具体基础模型(第三方厂商 or 开源基础)将在 2027 Q4 立项阶段完成三家评估对比,届时锁定。本文档不绑定任何具体厂商。
3.2 推理优化
- vLLM PagedAttention · 提升吞吐
- 模型并行 + 张量并行(规划 · 超大模型)
- 动态批处理(Continuous Batching)
- KV Cache 复用(同会话)
3.3 模型热更新
- 灰度发布:5% → 25% → 100% 流量
- 回滚:失败率 > 1% 自动回滚
- 蓝绿部署:双模型池并行服务
4. RAG 检索子系统
4.1 知识库构成(规划)
| 类型 | 来源 | 更新频率 |
|---|---|---|
| XiAlgo 文档 | 产品文档 Git | 实时(Webhook) |
| 历史 Bug 与修复 | 内部 Issue Tracker | 每日同步 |
| 调音案例库 | XiTune 历史预设 | 每周同步 |
| 车型参数库 | OEM 合作数据 | 按车型上新 |
| 声学论文 | 公开学术文献 | 季度 |
4.2 Embedding 与索引
- Embedding:2048-dim · 领域 Fine-tune(声学术语增强)
- 索引:Milvus HNSW · 支持动态增删
- 分片:按类型 + 语言分 collection
- 多语言:中 / 英双索引(v1.1+ 扩展)
4.3 Retrieve + Rerank
graph LR
Q[Query]
Q --> Emb[Embedding]
Emb --> HNSW[HNSW Top-20]
HNSW --> Rerank[BGE Reranker]
Rerank --> Top5[Top-5]
Top5 --> LLM[LLM Context]
class Q,LLM xyL5
class Emb,HNSW xyL3
class Rerank,Top5 xyL2
4.4 知识鲜度保证
- Webhook 触发增量索引(秒级延迟)
- 定期全量重建(月)
- 版本化(保留历史版本 · 可回退)
5. 工具调用层(Tool Layer)
5.1 工具注册机制
- 协议:MCP(Model Context Protocol)+ OpenAI Function Calling 风格(双协议并存)
- 每个下游产品提供 Tool Manifest:
- 名称 / 描述 / 输入 Schema / 输出 Schema
- 权限要求(user role / quota)
5.2 已规划工具列表(v1.0 GA)
| 工具 | 驱动产品 | 典型用途 |
|---|---|---|
xistudio.create_flow |
XiStudio | 新建算法流图 |
xistudio.add_node |
XiStudio | 流图插入节点 |
xiforge.generate_code |
XiForge | 生成算法代码 |
xiforge.compile |
XiForge | 编译验证 |
xitest.run_smoke |
XiTest | 触发 smoke 回归 |
xitest.generate_cases |
XiTest | AI 生成新用例 |
xitune.suggest_preset |
XiTune | 推荐调音预设 |
vehicle.dispatch_params |
MQTT | 车端下发参数 |
rag.search_algo_docs |
RAG | 检索 XiAlgo 知识 |
5.3 权限与配额
- 基于用户角色(RBAC)· 限制可用工具范围
- 基于套餐(Token 配额)· 限制调用频次
- 基于安全策略(如车端下发需二次确认)
5.4 工具执行隔离
- 每次工具调用在独立 sandbox 执行
- 超时保护(默认 30s · 可配置)
- 失败重试 ≤ 2 次 · 带指数退避
6. 车端 Agent 架构
6.1 车端 Agent 组件
graph TB
CarUI[车端 UI<br/>语音 / APP]
CarUI --> Agent[车端 Agent]
Agent --> LocalNLU[本地 NLU<br/>场景识别]
Agent --> Cache[本地策略缓存]
Agent --> Cloud[云端 XiMind]
LocalNLU --> DSP[XiDSP 参数应用]
Cache --> DSP
Cloud --> Cache
Cloud --> Data[(云端数据平台)]
Agent -.匿名遥测.-> Data
class CarUI xyL5
class Agent,LocalNLU,Cache xyL3
class Cloud xyL5
class DSP xyL0
class Data xySuccess
6.2 本地 vs 云端决策边界
| 场景 | 决策位置 | 原因 |
|---|---|---|
| 常见场景(隧道/高速/停车) | 本地 | 快速 · 离线可用 |
| 用户语音微调 | 本地 | 实时性要求高 |
| 复杂场景 / 新车型首调 | 云端 | 需要最新模型 |
| 长期学习 | 云端 | 聚合多车数据 |
6.3 离线能力
- 本地缓存最近 N 条策略(TTL 7 天)
- 网络断开时使用本地策略
- 联网后补传遥测数据
7. 数据平台
7.1 数据分类与存储
| 类型 | 存储 | 保留期 | 合规要求 |
|---|---|---|---|
| 用户对话 | PostgreSQL | 1 年 | 可删除 |
| 知识向量 | Milvus | 永久 | - |
| 车端遥测(匿名) | ClickHouse | 2 年 | 个保法合规 |
| 计费日志 | ClickHouse | 2 年 | 审计用 |
| 训练数据 | S3/MinIO 加密 | 永久 | 加密 + 访问控制 |
| 审计日志 | S3 冷存 | 2 年 | 合规必需 |
7.2 数据流
graph LR
Usr[用户请求] --> Orch[AI Orchestrator]
Orch --> PG[(PostgreSQL<br/>会话)]
Orch --> CH[(ClickHouse<br/>计费)]
Car[车端遥测] --> Mqtt[MQTT Broker]
Mqtt --> Stream[Flink Stream]
Stream --> CH
Doc[文档更新] --> Hook[Webhook]
Hook --> Indexer[Indexer]
Indexer --> Mil[(Milvus)]
Train[训练任务] --> S3[(S3/MinIO)]
class Usr,Car,Doc,Train xyL5
class Orch,Mqtt,Stream,Hook,Indexer xyL2
class PG,CH,Mil,S3 xySuccess
7.3 数据合规架构
- 中国车辆数据 → 境内 K8s 集群
- 欧盟车辆数据 → 欧盟数据中心
- 跨境需用户明示同意 + 脱敏
- 用户数据导出 / 删除 API:24h 内响应
8. 可观测性(规划)
8.1 Metrics(Prometheus)
| 指标 | 类型 | 说明 |
|---|---|---|
ximind_requests_total |
Counter | 按 endpoint / status |
ximind_token_usage_total |
Counter | 按用户 / 模型 / 类型 |
ximind_latency_seconds |
Histogram | P50/P95/P99 |
ximind_llm_queue_depth |
Gauge | 推理队列 |
ximind_vehicle_agents_online |
Gauge | 在线车端数 |
8.2 Tracing(OpenTelemetry)
- 从客户端到 Orchestrator 到 LLM/RAG/Tool 全链路
- 与 XiStudio/XiForge/XiTest 的 trace 打通(工具调用场景)
8.3 告警规则(规划)
| 规则 | 阈值 | 处理 |
|---|---|---|
| 推理错误率 > 1% | 持续 5m | On-call 通知 |
| LLM P95 > 5s | 持续 10m | 扩容 LLM 池 |
| 车端下发失败 > 2% | 持续 15m | 通知 IoT 团队 |
| Token 异常消耗(欺诈) | 即时 | 冻结账户 + 人工 review |
9. 水平扩展与容灾
9.1 扩缩策略
- API Gateway / Orchestrator:K8s HPA · CPU/QPS 触发
- LLM 推理:GPU 资源池 · 队列长度触发
- RAG:Milvus 分片 + 查询副本
- 数据平台:PostgreSQL 读写分离 · ClickHouse 分布式
9.2 多区域多活
- 华东主 · 华南备 · 跨区 ≤ 30ms
- 海外:北美(us-west-2)· 欧洲(eu-central-1)
- 会话粘性:同一 session 路由到同区
- 故障切换:自动(30s 内)· 手动(复杂场景)
9.3 灾备
- 每日快照 · 异地存放
- RTO ≤ 10 分钟(单区故障)
- RPO ≤ 1 小时
10. 私有化部署架构(v1.1+ 规划)
10.1 交付形态
- Helm Chart + Terraform · 一键部署
- 客户侧 K8s 集群(≥ 20 节点推荐)
- GPU 服务器:A100 × 4+(LLM 推理)
10.2 与 SaaS 版本差异
| 维度 | SaaS | 私有化 |
|---|---|---|
| 更新 | 云端自动 | 客户按需升级 |
| 数据 | Xisound 托管 | 客户私有 |
| 监控 | Xisound 运营 | 客户自管 + 远程支持 |
| 成本 | 订阅 + Token | 一次性授权 + 年维护 |
11. 与生态产品接口(规划)
| 产品 | 接口协议 | 规划用途 |
|---|---|---|
| XiForge | REST + WS | 代码生成 · 编译验证 |
| XiStudio | REST | 流图 CRUD |
| XiTest | REST | 用例生成 · 触发回归 |
| XiTune | REST | 调音预设推荐 |
| XiAmp AI / XiBox AI | MQTT + HTTPS | 参数下发 · 遥测回传 |
| XiAlgo | 向量库查询 | 知识检索 |
| 第三方客户 IDE | OAuth 2.0 + REST | 企业套餐开放 |
12. 已知技术风险与对策(规划)
12.1 风险矩阵
| 风险 | 等级 | 对策 |
|---|---|---|
| 基础模型选型锁定供应商 | 中 | 编排层抽象 · 可替换 |
| LLM 推理成本失控 | 高 | RAG 优先 + 小模型路由 + 缓存 |
| 车端数据合规 | 高 | 匿名化 + 区域化存储 + 法务前置 |
| Prompt Injection | 中 | 输入过滤 + 输出审核 + 沙盒工具调用 |
| 生成代码质量 | 高 | XiTest 强制回归 + 人工 Review 闸门 |
12.2 立项阶段需细化的决策
- 基础 LLM 厂商(自研 / 第三方 · 中 / 英 / 双)
- 向量库选型(Milvus vs Pinecone vs Weaviate)
- GPU 方案(自建集群 vs 云 GPU)
- 车端模型压缩策略(量化 / 蒸馏 / 剪枝)
13. 附录
13.1 关联文档
13.2 技术栈候选清单(规划)
| 组件 | 候选 |
|---|---|
| LLM 服务 | vLLM / TGI / TensorRT-LLM |
| 向量库 | Milvus / Weaviate / Pinecone |
| 编排 | FastAPI + Celery / LangChain |
| 消息 | MQTT 5.0 / Kafka |
| 数据库 | PostgreSQL / ClickHouse / TiDB |
| K8s 发行版 | 阿里 ACK / 腾讯 TKE / 自建 |
13.3 版本历史
| 版本 | 日期 | 要点 |
|---|---|---|
| v1.0 | 2026-05-05 | 首版(规划版)· 六层架构 + 2027 Q4 立项指南 |
tech-arch.md · D2-P8-TECH-001 · v1.0 · 2026-05-05 · Xisound 研发中心 · 云端与算法团队