XiMind · Tech Architecture (Planning)

XiMind 技术架构设计（规划版）

云原生 LLM + RAG + MCP 工具调用 + 车端 Agent

文档编号：D2-P8-TECH-001 · 版本：v1.0（规划）· 发布：2026-05-05

规划骨架 · 2027 Q4 立项后细化

6

架构层

2029

v1.0 GA 目标

4

核心子系统

XiMind 技术架构设计（规划版）

规划版状态

本文档是 XiMind v1.0 规划版的技术架构草案，用于 2027 Q4 立项评审与 2028 开发启动。具体技术选型（基础模型厂商 / 向量库版本 / 云服务商）将在立项阶段细化并锁定。本文档优先确立架构骨架、分层原则与关键接口。

摘要

本文档规划 XiMind v1.0 GA（2029 Q2 目标）的完整技术架构，覆盖 客户端接入、API 网关、AI 编排器、LLM + RAG + 工具调用、车端 Agent、数据平台 六个层级，以及层间协议、安全边界与水平扩展策略。规划面向云端与算法团队、DevOps、以及后续商业化阶段的私有化部署实施方。

1. 架构总览（规划）

1.1 六层分层模型

graph TB
    subgraph L0["L0 · 客户端接入"]
        Desk[XiStudio/XiForge 桌面]
        WebA[Web APP]
        CarA[车主 APP]
        Veh[车端 Agent<br/>XiAmp AI / XiBox AI]
    end

    subgraph L1["L1 · API 网关"]
        Gw[API Gateway<br/>Kong/Envoy]
    end

    subgraph L2["L2 · AI 编排层"]
        Orch[AI Orchestrator<br/>FastAPI+Celery]
    end

    subgraph L3["L3 · 核心服务层"]
        LLM[LLM 推理<br/>vLLM]
        RAG[RAG 检索<br/>Milvus]
        Tools[工具调用层<br/>MCP/Function Calling]
    end

    subgraph L4["L4 · 下游产品集成"]
        XF[XiForge API]
        XS[XiStudio API]
        XT[XiTest API]
        XTu[XiTune API]
        MQTT[车端 MQTT]
    end

    subgraph L5["L5 · 数据与基础设施"]
        PG[(PostgreSQL)]
        Mil[(Milvus)]
        CH[(ClickHouse)]
        S3[(MinIO/S3)]
        Prom[(Prometheus)]
    end

    Desk --> Gw
    WebA --> Gw
    CarA --> Gw
    Veh --> Gw
    Gw --> Orch
    Orch --> LLM
    Orch --> RAG
    Orch --> Tools
    Tools --> XF
    Tools --> XS
    Tools --> XT
    Tools --> XTu
    Tools --> MQTT
    Orch --> PG
    RAG --> Mil
    Orch --> CH
    LLM --> S3
    Orch --> Prom

    class Desk,WebA,CarA,Veh xyL4
    class Gw xyL3
    class Orch xyL5
    class LLM,RAG,Tools xyL5
    class XF,XS,XT,XTu,MQTT xyL3
    class PG,Mil,CH,S3,Prom xySuccess

1.2 设计原则（规划）

原则	说明
分层解耦	推理 / 检索 / 工具 / 数据相互独立 · 可各自替换
开放协议	REST / gRPC / WS / MQTT 均采用业界通用协议
云原生	K8s + Istio · 所有服务容器化 · 水平可扩展
多区域	华东主 + 华南备 + 海外（北美/欧洲）· 就近路由
合规优先	数据境内化 · GDPR / 个保法从架构层面支持
模型无关	编排器不绑定具体 LLM · 可切换第三方 / 自研

2. AI 编排层（Orchestrator）

2.1 核心职责

解析用户意图（根据 context · 调用合适模型）
拆解复杂任务为多步调用（Planning）
协调 LLM / RAG / 工具完成端到端
追踪会话状态（多轮对话）
计费埋点（Token 统计）

2.2 ReAct 执行流（规划）

graph LR
    In[用户输入]
    In --> Parse[意图解析]
    Parse --> Plan[Planning<br/>拆分步骤]
    Plan --> Exec[ReAct 循环]
    Exec --> Think[Thought<br/>LLM 推理]
    Think --> Act[Action<br/>RAG/Tool 调用]
    Act --> Obs[Observation<br/>结果]
    Obs --> More{需要<br/>继续?}
    More -->|是| Think
    More -->|否| Fin[最终回复]

    class In xyL5
    class Parse,Plan,Exec xyL2
    class Think,Act,Obs xyL3
    class More xyL4
    class Fin xySuccess

2.3 会话管理

会话 ID（session_id）· 24h 无活动后归档
上下文窗口：16K / 32K / 128K Token（按套餐）
摘要压缩：超过窗口时自动摘要早期对话
历史存储：PostgreSQL（会话元数据）+ S3（完整 trace · 加密）

3. LLM 推理子系统

3.1 模型层次（规划）

模型	用途	基础	部署形态
通用模型	对话 / 意图理解	第三方 + Fine-tune	vLLM · 多副本
声学领域模型	DSP / 调音推理	自研 Fine-tune	vLLM · 专用池
代码模型	C/C++ 生成	Code-LLM Fine-tune	vLLM · 专用池
车端轻量模型	场景识别	蒸馏 < 1B	车端运行

基础模型选型

具体基础模型（第三方厂商 or 开源基础）将在 2027 Q4 立项阶段完成三家评估对比，届时锁定。本文档不绑定任何具体厂商。

3.2 推理优化

vLLM PagedAttention · 提升吞吐
模型并行 + 张量并行（规划 · 超大模型）
动态批处理（Continuous Batching）
KV Cache 复用（同会话）

3.3 模型热更新

灰度发布：5% → 25% → 100% 流量
回滚：失败率 > 1% 自动回滚
蓝绿部署：双模型池并行服务

4. RAG 检索子系统

4.1 知识库构成（规划）

类型	来源	更新频率
XiAlgo 文档	产品文档 Git	实时（Webhook）
历史 Bug 与修复	内部 Issue Tracker	每日同步
调音案例库	XiTune 历史预设	每周同步
车型参数库	OEM 合作数据	按车型上新
声学论文	公开学术文献	季度

4.2 Embedding 与索引

Embedding：2048-dim · 领域 Fine-tune（声学术语增强）
索引：Milvus HNSW · 支持动态增删
分片：按类型 + 语言分 collection
多语言：中 / 英双索引（v1.1+ 扩展）

4.3 Retrieve + Rerank

graph LR
    Q[Query]
    Q --> Emb[Embedding]
    Emb --> HNSW[HNSW Top-20]
    HNSW --> Rerank[BGE Reranker]
    Rerank --> Top5[Top-5]
    Top5 --> LLM[LLM Context]

    class Q,LLM xyL5
    class Emb,HNSW xyL3
    class Rerank,Top5 xyL2

4.4 知识鲜度保证

Webhook 触发增量索引（秒级延迟）
定期全量重建（月）
版本化（保留历史版本 · 可回退）

5. 工具调用层（Tool Layer）

5.1 工具注册机制

协议：MCP（Model Context Protocol）+ OpenAI Function Calling 风格（双协议并存）
每个下游产品提供 Tool Manifest：
名称 / 描述 / 输入 Schema / 输出 Schema
权限要求（user role / quota）

5.2 已规划工具列表（v1.0 GA）

工具	驱动产品	典型用途
`xistudio.create_flow`	XiStudio	新建算法流图
`xistudio.add_node`	XiStudio	流图插入节点
`xiforge.generate_code`	XiForge	生成算法代码
`xiforge.compile`	XiForge	编译验证
`xitest.run_smoke`	XiTest	触发 smoke 回归
`xitest.generate_cases`	XiTest	AI 生成新用例
`xitune.suggest_preset`	XiTune	推荐调音预设
`vehicle.dispatch_params`	MQTT	车端下发参数
`rag.search_algo_docs`	RAG	检索 XiAlgo 知识

5.3 权限与配额

基于用户角色（RBAC）· 限制可用工具范围
基于套餐（Token 配额）· 限制调用频次
基于安全策略（如车端下发需二次确认）

5.4 工具执行隔离

每次工具调用在独立 sandbox 执行
超时保护（默认 30s · 可配置）
失败重试 ≤ 2 次 · 带指数退避

6. 车端 Agent 架构

6.1 车端 Agent 组件

graph TB
    CarUI[车端 UI<br/>语音 / APP]
    CarUI --> Agent[车端 Agent]
    Agent --> LocalNLU[本地 NLU<br/>场景识别]
    Agent --> Cache[本地策略缓存]
    Agent --> Cloud[云端 XiMind]

    LocalNLU --> DSP[XiDSP 参数应用]
    Cache --> DSP
    Cloud --> Cache

    Cloud --> Data[(云端数据平台)]
    Agent -.匿名遥测.-> Data

    class CarUI xyL5
    class Agent,LocalNLU,Cache xyL3
    class Cloud xyL5
    class DSP xyL0
    class Data xySuccess

6.2 本地 vs 云端决策边界

场景	决策位置	原因
常见场景（隧道/高速/停车）	本地	快速 · 离线可用
用户语音微调	本地	实时性要求高
复杂场景 / 新车型首调	云端	需要最新模型
长期学习	云端	聚合多车数据

6.3 离线能力

本地缓存最近 N 条策略（TTL 7 天）
网络断开时使用本地策略
联网后补传遥测数据

7. 数据平台

7.1 数据分类与存储

类型	存储	保留期	合规要求
用户对话	PostgreSQL	1 年	可删除
知识向量	Milvus	永久	-
车端遥测（匿名）	ClickHouse	2 年	个保法合规
计费日志	ClickHouse	2 年	审计用
训练数据	S3/MinIO 加密	永久	加密 + 访问控制
审计日志	S3 冷存	2 年	合规必需

7.2 数据流

graph LR
    Usr[用户请求] --> Orch[AI Orchestrator]
    Orch --> PG[(PostgreSQL<br/>会话)]
    Orch --> CH[(ClickHouse<br/>计费)]

    Car[车端遥测] --> Mqtt[MQTT Broker]
    Mqtt --> Stream[Flink Stream]
    Stream --> CH

    Doc[文档更新] --> Hook[Webhook]
    Hook --> Indexer[Indexer]
    Indexer --> Mil[(Milvus)]

    Train[训练任务] --> S3[(S3/MinIO)]

    class Usr,Car,Doc,Train xyL5
    class Orch,Mqtt,Stream,Hook,Indexer xyL2
    class PG,CH,Mil,S3 xySuccess

7.3 数据合规架构

中国车辆数据 → 境内 K8s 集群
欧盟车辆数据 → 欧盟数据中心
跨境需用户明示同意 + 脱敏
用户数据导出 / 删除 API：24h 内响应

8. 可观测性（规划）

8.1 Metrics（Prometheus）

指标	类型	说明
`ximind_requests_total`	Counter	按 endpoint / status
`ximind_token_usage_total`	Counter	按用户 / 模型 / 类型
`ximind_latency_seconds`	Histogram	P50/P95/P99
`ximind_llm_queue_depth`	Gauge	推理队列
`ximind_vehicle_agents_online`	Gauge	在线车端数

8.2 Tracing（OpenTelemetry）

从客户端到 Orchestrator 到 LLM/RAG/Tool 全链路
与 XiStudio/XiForge/XiTest 的 trace 打通（工具调用场景）

8.3 告警规则（规划）

规则	阈值	处理
推理错误率 > 1%	持续 5m	On-call 通知
LLM P95 > 5s	持续 10m	扩容 LLM 池
车端下发失败 > 2%	持续 15m	通知 IoT 团队
Token 异常消耗（欺诈）	即时	冻结账户 + 人工 review

9. 水平扩展与容灾

9.1 扩缩策略

API Gateway / Orchestrator：K8s HPA · CPU/QPS 触发
LLM 推理：GPU 资源池 · 队列长度触发
RAG：Milvus 分片 + 查询副本
数据平台：PostgreSQL 读写分离 · ClickHouse 分布式

9.2 多区域多活

华东主 · 华南备 · 跨区 ≤ 30ms
海外：北美（us-west-2）· 欧洲（eu-central-1）
会话粘性：同一 session 路由到同区
故障切换：自动（30s 内）· 手动（复杂场景）

9.3 灾备

每日快照 · 异地存放
RTO ≤ 10 分钟（单区故障）
RPO ≤ 1 小时

10. 私有化部署架构（v1.1+ 规划）

10.1 交付形态

Helm Chart + Terraform · 一键部署
客户侧 K8s 集群（≥ 20 节点推荐）
GPU 服务器：A100 × 4+（LLM 推理）

10.2 与 SaaS 版本差异

维度	SaaS	私有化
更新	云端自动	客户按需升级
数据	Xisound 托管	客户私有
监控	Xisound 运营	客户自管 + 远程支持
成本	订阅 + Token	一次性授权 + 年维护

11. 与生态产品接口（规划）

产品	接口协议	规划用途
XiForge	REST + WS	代码生成 · 编译验证
XiStudio	REST	流图 CRUD
XiTest	REST	用例生成 · 触发回归
XiTune	REST	调音预设推荐
XiAmp AI / XiBox AI	MQTT + HTTPS	参数下发 · 遥测回传
XiAlgo	向量库查询	知识检索
第三方客户 IDE	OAuth 2.0 + REST	企业套餐开放

12. 已知技术风险与对策（规划）

12.1 风险矩阵

风险	等级	对策
基础模型选型锁定供应商	中	编排层抽象 · 可替换
LLM 推理成本失控	高	RAG 优先 + 小模型路由 + 缓存
车端数据合规	高	匿名化 + 区域化存储 + 法务前置
Prompt Injection	中	输入过滤 + 输出审核 + 沙盒工具调用
生成代码质量	高	XiTest 强制回归 + 人工 Review 闸门

12.2 立项阶段需细化的决策

基础 LLM 厂商（自研 / 第三方 · 中 / 英 / 双）
向量库选型（Milvus vs Pinecone vs Weaviate）
GPU 方案（自建集群 vs 云 GPU）
车端模型压缩策略（量化 / 蒸馏 / 剪枝）

13. 附录

13.1 关联文档

13.2 技术栈候选清单（规划）

组件	候选
LLM 服务	vLLM / TGI / TensorRT-LLM
向量库	Milvus / Weaviate / Pinecone
编排	FastAPI + Celery / LangChain
消息	MQTT 5.0 / Kafka
数据库	PostgreSQL / ClickHouse / TiDB
K8s 发行版	阿里 ACK / 腾讯 TKE / 自建

13.3 版本历史

版本	日期	要点
v1.0	2026-05-05	首版（规划版）· 六层架构 + 2027 Q4 立项指南

tech-arch.md · D2-P8-TECH-001 · v1.0 · 2026-05-05 · Xisound 研发中心 · 云端与算法团队