XiDSP · Tech Architecture
XiDSP 技术架构设计 v1.0
五层架构 · RTL · 总线 · 存储 · DFT · 物理实现 · 封装
让每一个晶体管都为声学服务 · 让每一条总线都可以追溯
5
架构分层
AXI/APB
主要总线
AEC-Q100
车规目标
XiDSP 技术架构设计 v1.0
摘要
本文档是 XiDSP 系列芯片 的技术架构详设,与 spec.md 互补:spec 定义 "做什么"(Datasheet 数字契约),本文回答 "怎么做"(RTL 模块 / 总线 / 存储 / DFT / 物理实现 / 封装)。
目标读者:芯片架构师、RTL / DV 工程师、SoC Integrator、Tier1 硬件工程师。本文数字以 XiDSP-D1 首发型号为主,D2/D3/D4/A1 以增量方式说明差异。
芯片文档红线
- 所有 RTL 模块、总线、存储容量、频率均为架构目标值,tapeout 前可能随 PDK / PPA 调优微调
- 工艺节点、频率、面积数字以最终 Datasheet为准,本文给架构方向而非流片承诺
- 车规 / ASIL / AEC-Q100 相关部分全部为目标 / 规划 / 认证路线图,尚未完成认证
- 流片前任何架构变更必须走
ic-dev-spec.md§7 Tapeout 八不放 红线
1. 架构原则
XiDSP 架构五条原则
- 声学专用:MAC / ASRC / 滤波流水线为音频算法定制,不追求通用 DSP 全能
- 分层可替换:DSP Core / 音频子系统 / 通信子系统 / 安全子系统各自独立 RTL
- 总线契约:内部采用标准 AMBA AXI / APB,便于 IP 复用与 SoC 集成
- 可测试优先:DFT(Scan / MBIST / IJTAG)从第一行 RTL 开始同步设计
- 车规可升级:D1 工业级起步,A1 以相同架构核迁至 16FF+ 并走 AEC-Q100 Grade 1 认证
2. 总体分层
2.1 五层架构
graph TB
L5[L5 · 应用层<br/>XiAlgo 库 · 客户固件]
L4[L4 · IP 与子系统层<br/>DSP Core · Audio IF · CommSub · SecEng · PMU]
L3[L3 · 互连层<br/>AXI Interconnect · APB Bridge · DMA]
L2[L2 · 时钟电源层<br/>PLL · CGU · PMU · Reset]
L1[L1 · 物理实现层<br/>Standard Cell · SRAM · IO · Pad]
L0[L0 · 封装层<br/>LQFP-64 / BGA-100 / BGA-400]
L5 --> L4
L4 --> L3
L3 --> L2
L2 --> L1
L1 --> L0
class L5 xyL5
class L4 xyL4
class L3 xyL3
class L2 xyL2
class L1 xyL1
class L0 xyL0
2.2 各层职责
| 层 | 职责 | 主要 IP / 组件 | 交付物 |
|---|---|---|---|
| L5 应用层 | 客户固件 + XiAlgo | C 代码 / ASM | .xifw |
| L4 IP 子系统层 | DSP Core + 音频 IF + 通信 + 安全 + PMU | RTL Verilog / SV | RTL 库 |
| L3 互连层 | AXI-4 / APB / DMA / 仲裁 | Interconnect IP | SoC Netlist |
| L2 时钟电源层 | PLL × 3 / CGU / PMU / Reset | Analog IP + 数字控制 | Clock Tree |
| L1 物理实现层 | Std-Cell / SRAM / IO / Pad | Foundry PDK | GDS-II |
| L0 封装层 | 封装 + 键合 + 基板 | OSAT 协同 | 最终芯片 |
3. 核心 IP 与子系统详设
3.1 DSP Core(Xi-D1 Core)
graph TB
PC[PC 寄存器] --> Fetch[指令取指<br/>I-Cache 16KB]
Fetch --> Decode[VLIW 译码器<br/>4-issue/cycle]
Decode --> ALU1[ALU 1]
Decode --> ALU2[ALU 2]
Decode --> MAC1[MAC 1<br/>32×32]
Decode --> MAC2[MAC 2<br/>32×32]
ALU1 & ALU2 & MAC1 & MAC2 --> RF[寄存器堆<br/>32×32-bit + 8 累加器]
RF --> LSU[Load/Store Unit]
LSU --> DCache[D-Cache 32KB<br/>4-way]
DCache --> XBAR[Core 内 Crossbar]
Fetch --> XBAR
XBAR --> AXI[AXI Master]
class PC,Fetch,Decode xyL0
class ALU1,ALU2 xyL2
class MAC1,MAC2 xyL3
class RF,LSU xyL2
class DCache xyL1
class XBAR,AXI xyL4
- 架构:32-bit VLIW,4-issue / cycle
- 流水线:5 级(Fetch / Decode / Issue / Execute / Writeback)
- MAC 单元:2× 32×32-bit,累加 72-bit(饱和可选)
- 浮点:D1 仅定点;D2+ 规划单精度 IEEE-754
- Cache:I$ 16KB 2-way,D$ 32KB 4-way,均带 ECC(SEC-DED)
- 中断:32 级优先级 + NMI + 尾链(Tail-chaining)
ISA(XiDSP-ISA v1.0)
自研指令集,面向声学信号处理优化:
- 单周期 Vector MAC(最多 4-way SIMD)
- 圆形缓冲区寻址(Modulo Addressing)— FIR / IIR / 延迟线友好
- 饱和加减 / 截位 / Q-Format 转换原生指令
- Bit-reverse 寻址 — FFT 友好
- 完整指令集详见 api.md §2
3.2 Audio Interface 子系统
graph LR
I2S_IN[I²S In × 8] --> ASRC1[ASRC 1]
PDM_IN[PDM In × 4] --> PDM2PCM[PDM-to-PCM]
TDM_IN[TDM In × 2] --> TDMdecoder[TDM 解复用]
ASRC1 & PDM2PCM & TDMdecoder --> AudioBus[Audio Bus<br/>内部 32-bit @ 48kHz]
AudioBus --> DMA[Audio DMA<br/>16-channel]
DMA --> SRAM[片上 SRAM]
AudioBus --> ASRC2[ASRC 2]
ASRC2 --> I2S_OUT[I²S Out × 8]
ASRC2 --> TDM_OUT[TDM Out × 2]
class I2S_IN,PDM_IN,TDM_IN xyL0
class ASRC1,ASRC2,PDM2PCM,TDMdecoder xyL3
class AudioBus xyL2
class DMA xyL4
class SRAM xyL1
class I2S_OUT,TDM_OUT xySuccess
- I²S:8 输入 + 8 输出,独立时钟域;每路支持主/从切换
- TDM:TDM-4 / TDM-8 / TDM-16,位宽 16/24/32
- PDM:4 路 PDM 输入(数字麦),集成 Decimator + HPF
- ASRC:2 路异步采样率转换,THD+N ≤ -120 dB
- Audio DMA:16 channel,支持链表 + 双缓冲,降低 CPU 中断频率
3.3 Communication 子系统
| 接口 | 数量 | 关键参数 | 物理层 |
|---|---|---|---|
| CAN-FD | 2 | 5 Mbps,ISO 11898-1 | 外接 Transceiver |
| UART | 2 | 6 Mbps,带 DMA | LVCMOS 3.3V |
| SPI | 2 | 50 MHz,主/从 | LVCMOS 3.3V |
| I²C | 2 | 1 MHz Fast+ | Open-Drain |
| GPIO | 32 | 复用 | 5V 容忍 |
| JTAG | 1 | IEEE 1149.1 + IJTAG | 独立 Pad |
3.4 Security Engine(SecEng)
graph LR
HostBus[APB Host] --> CtrlReg[控制寄存器]
CtrlReg --> Dispatcher[任务调度]
Dispatcher --> AES[AES-128/256<br/>ECB/CBC/CTR/GCM]
Dispatcher --> SHA[SHA-1/256/512]
Dispatcher --> RSA[RSA-2048]
Dispatcher --> ECC[ECDSA-P256]
Dispatcher --> TRNG[TRNG<br/>NIST SP800-90B]
AES & SHA & RSA & ECC & TRNG --> KeyVault[Key Vault<br/>OTP 根密钥]
class HostBus xyL0
class CtrlReg,Dispatcher xyL2
class AES,SHA,RSA,ECC,TRNG xyL3
class KeyVault xyWarn
- 对称:AES-128/256,硬件加速,典型吞吐 > 200 MB/s @ 400 MHz
- 哈希:SHA-1/256/512
- 非对称:RSA-2048 签名验证 / ECDSA-P256
- TRNG:真随机数,通过 NIST SP800-90B 自检
- Secure Boot:ROM 启动时校验 OTP 存储的 Root Key,验证 Flash 固件签名
- 国密(D2+ 选配):SM2/SM3/SM4
3.5 PMU(电源管理单元)
- 四级功耗模式:Active / Sleep / Deep Sleep / Shutdown
- 时钟门控:细粒度到每个子系统
- 电压域:Core 0.95-1.05V / IO 3.3V / PLL 1.8V / Flash 1.8V
- 唤醒源:GPIO / RTC / CAN-FD / UART 边沿
4. 互连与总线
4.1 AXI / APB 层次
graph TB
Core[DSP Core<br/>AXI Master] --> AXIBUS[AXI Interconnect<br/>AXI-4 128-bit]
AXIBUS --> SRAMC[SRAM Controller<br/>256KB]
AXIBUS --> FlashC[SPI Flash XiP Ctrl<br/>≤ 128MB]
AXIBUS --> DMA[Audio DMA]
AXIBUS --> Bridge[AXI-to-APB Bridge]
Bridge --> APBBUS[APB Bus<br/>APB3]
APBBUS --> AudioIF[Audio IF]
APBBUS --> CAN[CAN-FD × 2]
APBBUS --> UART[UART × 2]
APBBUS --> SPI[SPI × 2]
APBBUS --> I2C[I²C × 2]
APBBUS --> GPIO[GPIO]
APBBUS --> SecEng[Security Engine]
APBBUS --> PMU[PMU]
class Core xyL4
class AXIBUS xyL3
class Bridge xyL2
class APBBUS xyL2
class SRAMC,FlashC,DMA xyL1
class AudioIF,CAN,UART,SPI,I2C,GPIO,SecEng,PMU xyL0
4.2 总线参数
| 总线 | 位宽 | 时钟 | 仲裁 | 备注 |
|---|---|---|---|---|
| AXI Main | 128-bit | 200 MHz | QoS + Round-Robin | DSP Core / DMA / Flash 共用 |
| APB | 32-bit | 100 MHz | 单 Master | 所有外设寄存器 |
| AHB-Lite(内部) | 32-bit | 400 MHz | 单 Master | DSP Core 到 Cache |
4.3 DMA 架构
- 16 通道,每通道独立描述符链表
- 支持 Memory-to-Memory / Memory-to-Peripheral / Peripheral-to-Memory
- 音频专用通道带双缓冲,降低采样周期抖动
- 可被中断 / Event 触发,支持跨周期对齐(关键于多通道 TDM)
5. 存储层次
5.1 层次视图
graph TB
L0C[L0 · 寄存器堆<br/>32×32b · 0 cycle]
L1C[L1 · I$/D$<br/>16KB/32KB · 1 cycle]
L2C[L2 · 片上 SRAM<br/>256KB · 1-2 cycle · ECC]
L3C[L3 · ROM<br/>64KB · 1 cycle]
L4C[L4 · OTP<br/>4KB · 密钥/校准]
L5C[L5 · 外部 Flash<br/>≤128MB · XiP 10-20 cycle]
L0C --> L1C
L1C --> L2C
L2C --> L3C
L2C --> L4C
L2C --> L5C
class L0C xyL5
class L1C xyL4
class L2C xyL3
class L3C xyL2
class L4C xyWarn
class L5C xyL1
5.2 SRAM 分区(D1 256KB)
| 分区 | 大小 | 用途 | ECC |
|---|---|---|---|
| Code Region | 128 KB | 指令(从 Flash XiP 或 Copy) | ✅ |
| Data Region | 96 KB | 算法状态变量 / 音频 Buffer | ✅ |
| Stack / Heap | 16 KB | 运行时栈 + 堆 | ✅ |
| Scratchpad | 16 KB | DMA 中转 / 临时 | ❌(性能优先) |
5.3 XiP(Execute in Place)
- SPI NOR Flash 通过 Flash Controller 映射到 AXI 地址空间
- 4 读命令:0x03 / 0xEB(Quad SPI)/ 0x0B(Fast Read)
- 预取队列:8 个 cache-line
- 典型延迟:冷启动 10-20 cycle,命中预取 2 cycle
6. DFT(可测试性设计)
6.1 DFT 总览
graph LR
TAP[JTAG TAP<br/>IEEE 1149.1] --> IJTAG[IJTAG Network<br/>IEEE 1687]
IJTAG --> Scan[Scan Chain<br/>Stuck-at + Transition]
IJTAG --> MBIST[Memory BIST<br/>SRAM / ROM]
IJTAG --> LBIST[Logic BIST<br/>车规 D2+ 选配]
IJTAG --> BS[Boundary Scan<br/>PCB 测试]
Scan --> ATPG[ATPG 测试向量<br/>目标 > 99% Coverage]
MBIST --> MBISTReport[MBIST 报告]
LBIST --> LBISTReport[LBIST Self-test]
BS --> BSReport[BS 边界测试]
class TAP xyL0
class IJTAG xyL3
class Scan,MBIST,LBIST,BS xyL2
class ATPG,MBISTReport,LBISTReport,BSReport xySuccess
6.2 DFT 清单(D1)
| 机制 | 覆盖范围 | 目标 |
|---|---|---|
| Scan Chain | 所有组合逻辑 + 触发器 | Stuck-at 覆盖 > 99% |
| Transition Fault Scan | 时序路径 | > 95% |
| MBIST | 所有 SRAM / ROM | 100%,在线自检可选 |
| Boundary Scan | 所有数字 IO | IEEE 1149.1 合规 |
| Secure Debug | JTAG Lock + 密码解锁 | 量产后锁定 |
6.3 车规 DFT 增强(A1)
- LBIST(Logic BIST):在线自检,ISO 26262 ASIL-B 要求
- ECC 错误注入:触发 Fault 响应,验证安全机制
- Lockstep 双核(A1 可选):两个 DSP Core 同步执行 + 比对
7. 时钟与电源
7.1 时钟树
graph LR
XTAL[外部晶振<br/>25 MHz] --> PLL1[CPU PLL<br/>→ 400 MHz]
XTAL --> PLL2[Audio PLL<br/>→ 24.576 MHz / 22.579 MHz]
XTAL --> PLL3[Interface PLL<br/>→ 200 MHz]
PLL1 --> CoreClk[Core Clock]
PLL2 --> AudioClk[Audio MCLK]
PLL3 --> AXIClk[AXI Clock]
PLL3 --> APBClk[APB Clock]
CoreClk --> CGU[CGU<br/>时钟门控]
AudioClk --> CGU
AXIClk --> CGU
APBClk --> CGU
class XTAL xyL0
class PLL1,PLL2,PLL3 xyL3
class CGU xyL2
class CoreClk,AudioClk,AXIClk,APBClk xySuccess
7.2 PLL 参数
| PLL | 输入 | 输出范围 | 抖动 | 锁定时间 |
|---|---|---|---|---|
| CPU PLL | 25 MHz | 100-500 MHz | < 50 ps pk-pk | < 100 µs |
| Audio PLL | 25 MHz | 11.2896 / 22.5792 / 24.576 MHz | < 30 ps RMS(关键于音频) | < 100 µs |
| Interface PLL | 25 MHz | 100-300 MHz | < 100 ps | < 100 µs |
7.3 电源域
graph TB
VDD_IO[VDD IO<br/>3.3V] --> IOPad[IO Pad Ring]
VDD_CORE[VDD Core<br/>1.0V] --> Core[DSP Core + Audio Sub]
VDD_PLL[VDD PLL<br/>1.8V] --> PLLDomain[PLL 区]
VDD_FLASH[VDD Flash<br/>1.8V] --> FlashIF[Flash 接口]
VDD_BACKUP[VDD Backup<br/>3.3V] --> RTCDomain[RTC + 唤醒逻辑]
class VDD_IO,VDD_CORE,VDD_PLL,VDD_FLASH xyL3
class VDD_BACKUP xyWarn
class IOPad,Core,PLLDomain,FlashIF,RTCDomain xyL1
8. 物理实现
8.1 工艺与库
| 项 | D1 | D2 | A1 |
|---|---|---|---|
| 工艺 | SMIC 28HPC | GF 22FDX | TSMC 16FF+ |
| Std-Cell 库 | 9-track HVT/SVT/LVT | 多 Vt | 多 Vt + 车规库 |
| SRAM 编译器 | 配套 28HPC Memory Compiler | 22FDX MC | 16FF+ 车规 MC |
| IO 库 | 3.3V LVCMOS / 差分 | 3.3V + 1.8V | 3.3V + 车规 ESD |
工艺选型注意
具体工艺节点与 PDK 版本以 Foundry 正式合同 + RTL 冻结时版本为准。本文数字为 2026-05 规划方向,仍可能随 Supply Chain / MPW 时间窗口调整。
8.2 面积预估(D1 架构目标)
| 子系统 | 面积占比(典型) |
|---|---|
| DSP Core | ~25% |
| SRAM 256KB | ~35% |
| Audio IF + ASRC | ~10% |
| Comm Sub (CAN/UART/SPI/I²C) | ~5% |
| Security Engine | ~8% |
| PLL / PMU / Clock | ~7% |
| IO Ring + Pad | ~10% |
总 Die 面积目标:≤ 4 mm²(28HPC 节点,不含 IO Ring)。
8.3 关键时序路径
- Critical Path 1:MAC 累加链(MAC1 → MAC2 → RF writeback) · 目标 2.5 ns
- Critical Path 2:Flash XiP 读到 Decode · 目标可容忍的 Wait-state 允许
- Critical Path 3:AXI Crossbar 多主仲裁 · 目标 5 ns @ 200 MHz
9. 封装
9.1 封装选项
| 封装 | 型号 | 尺寸 | 间距 | 引脚 | 目标市场 |
|---|---|---|---|---|---|
| LQFP-64 | D1-L | 10×10 mm | 0.5 mm | 64 | 消费 / 后装 |
| BGA-100 | D1-B | 7×7 mm | 0.5 mm | 100 | Tier1 前装 |
| BGA-196 | D2-B | 9×9 mm | 0.5 mm | 196 | 前装高通道 |
| BGA-400 | A1-B | 17×17 mm | 0.8 mm | 400 | 车规 ASIL |
9.2 车规封装要点(A1)
- 基板材料:车规 BT 基板 + 无卤阻燃
- 焊球:SAC305 车规,耐温循环 -40 ~ +125°C ≥ 1000 次
- Underfill:车规底填胶
- 键合丝:金线 / 铜线,依车厂要求
- MSL Level:目标 Level 3(客户要求可降至 Level 2)
9.3 热设计
- D1 典型 500 mW @ 400 MHz → 无散热片可工作
- A1 预估 2-3 W → 需 PCB 散热铜箔 + 可选导热胶
- 结温目标 Tj ≤ 125°C(车规 Grade 1 目标 Tj ≤ 150°C)
10. Tapeout 与流片策略
10.1 流片节奏
graph LR
RTL[RTL 冻结<br/>2026 Q2] --> A0[A0 流片<br/>2026 Q3]
A0 --> A0_Bringup[A0 Bring-up<br/>2026 Q4]
A0_Bringup --> A1_Spin[A1 Metal-Spin<br/>2027 Q1]
A1_Spin --> B0[B0 全掩膜<br/>2027 Q2]
B0 --> MP[Mass Production<br/>2027 Q3]
class RTL xyL0
class A0,A1_Spin xyWarn
class A0_Bringup xyL3
class B0 xyL4
class MP xySuccess
10.2 Tapeout 八不放(引用 ic-dev-spec §7)
严格遵守 ic-dev-spec.md §7:
- DV 覆盖率不达标不放 — Code ≥ 99% / Functional ≥ 95%
- 关键 Bug 未清不放 — P0/P1 = 0
- 时序不收敛不放 — Slack ≥ 0,WNS / TNS 达标
- PPA 不满足不放 — Power / Performance / Area 达标
- DRC/LVS 不 Clean 不放 — 物理验证零违规
- DFT 覆盖不达标不放 — Stuck-at > 99%,MBIST 全覆盖
- Signoff 未全签不放 — RTL / DV / PD / DFT / Analog 五方 Sign-off
- Foundry Review 未过不放 — Mask 订单需 Foundry 工程 Review
10.3 Errata 与 PCN
- Errata:每个 Silicon Revision 维护 Errata 清单,详见
changelog.md - PCN(Product Change Notification):封装 / 工艺 / Mask 变更至少提前 90 天通知客户
11. 演进路线
11.1 未来 3 年架构演进
| 时间 | 演进项 | 影响层 |
|---|---|---|
| 2026 Q3 | D1 A0 流片(28HPC) | L1-L4 |
| 2027 Q2 | D1 B0 量产 | L1-L4 |
| 2027 Q3 | D2 预研启动(22FDX + AI 协处理) | L4 + L1 |
| 2028 Q2 | D2 Tapeout · ASIL-B 路线 | L1-L5 |
| 2028 Q4 | D3 规划(4 核 + 更高通道数) | L4 |
| 2029+ | A1 车规 16FF+ · AEC-Q100 G1 目标 | L0-L5 |
11.2 技术债提示
已识别的技术债(D1 阶段接受)
- 无硬件浮点 — 仅定点,D2 标配 FP32
- ASRC 仅 2 路 — D2 扩至 4-8 路
- 无 AI 加速器 — 依靠外部 XiAmp / A1 专芯
- Ethernet 缺失 — D3 起规划
- 28HPC 工艺老化风险 — Foundry 长期可供预期纳入 SCM 预案
12. 附录
12.1 与其他文档的引用关系
| 关联文档 | 引用点 |
|---|---|
| XiDSP 产品概述 | 产品定位 / 四型号对照 |
| XiDSP PRD | 功能需求 / 目标客户 |
| XiDSP 产品规格书 | Datasheet 数字契约(本文数字源) |
| XiDSP API 文档 | 寄存器 / ISA / 驱动 SDK |
| XiDSP 版本更新日志 | A0/A1/B0 + Errata + PCN |
| 芯片开发流程规范 | Tapeout 八不放 |
| 硬件开发规范 | EVK / EVT / DVT |
| 测试规范 | AEC-Q100 / THD+N |
12.2 外部标准参考
- AMBA AXI-4 / APB3 Specification
- IEEE 1149.1(JTAG)/ IEEE 1687(IJTAG)
- NIST SP800-90B(TRNG)
- AEC-Q100 Rev-J
- ISO 26262:2018
- JESD78(Latch-up)/ JESD22(可靠性)
12.3 版本历史
| 版本 | 日期 | 要点 |
|---|---|---|
| v1.0 | 2026-05-05 | 首版 · 五层架构 + RTL IP 详设 + DFT + 物理实现 + 封装 + Tapeout 策略 |
tech-arch.md · D2-P2-TECH-001 · v1.0 · 2026-05-05 · Xisound 研发中心 · 芯片团队