跳转至
XiDSP · Tech Architecture

XiDSP 技术架构设计 v1.0

五层架构 · RTL · 总线 · 存储 · DFT · 物理实现 · 封装
文档编号:D2-P2-TECH-001 · 版本:v1.0 · 发布:2026-05-05
让每一个晶体管都为声学服务 · 让每一条总线都可以追溯
5
架构分层
AXI/APB
主要总线
AEC-Q100
车规目标

XiDSP 技术架构设计 v1.0

摘要

本文档是 XiDSP 系列芯片技术架构详设,与 spec.md 互补:spec 定义 "做什么"(Datasheet 数字契约),本文回答 "怎么做"(RTL 模块 / 总线 / 存储 / DFT / 物理实现 / 封装)。 目标读者:芯片架构师、RTL / DV 工程师、SoC Integrator、Tier1 硬件工程师。本文数字以 XiDSP-D1 首发型号为主,D2/D3/D4/A1 以增量方式说明差异。

芯片文档红线

  • 所有 RTL 模块、总线、存储容量、频率均为架构目标值,tapeout 前可能随 PDK / PPA 调优微调
  • 工艺节点、频率、面积数字以最终 Datasheet为准,本文给架构方向而非流片承诺
  • 车规 / ASIL / AEC-Q100 相关部分全部为目标 / 规划 / 认证路线图,尚未完成认证
  • 流片前任何架构变更必须走 ic-dev-spec.md §7 Tapeout 八不放 红线

1. 架构原则

XiDSP 架构五条原则

  1. 声学专用:MAC / ASRC / 滤波流水线为音频算法定制,不追求通用 DSP 全能
  2. 分层可替换:DSP Core / 音频子系统 / 通信子系统 / 安全子系统各自独立 RTL
  3. 总线契约:内部采用标准 AMBA AXI / APB,便于 IP 复用与 SoC 集成
  4. 可测试优先:DFT(Scan / MBIST / IJTAG)从第一行 RTL 开始同步设计
  5. 车规可升级:D1 工业级起步,A1 以相同架构核迁至 16FF+ 并走 AEC-Q100 Grade 1 认证

2. 总体分层

2.1 五层架构

graph TB
    L5[L5 · 应用层<br/>XiAlgo 库 · 客户固件]
    L4[L4 · IP 与子系统层<br/>DSP Core · Audio IF · CommSub · SecEng · PMU]
    L3[L3 · 互连层<br/>AXI Interconnect · APB Bridge · DMA]
    L2[L2 · 时钟电源层<br/>PLL · CGU · PMU · Reset]
    L1[L1 · 物理实现层<br/>Standard Cell · SRAM · IO · Pad]
    L0[L0 · 封装层<br/>LQFP-64 / BGA-100 / BGA-400]

    L5 --> L4
    L4 --> L3
    L3 --> L2
    L2 --> L1
    L1 --> L0

    class L5 xyL5
    class L4 xyL4
    class L3 xyL3
    class L2 xyL2
    class L1 xyL1
    class L0 xyL0

2.2 各层职责

职责 主要 IP / 组件 交付物
L5 应用层 客户固件 + XiAlgo C 代码 / ASM .xifw
L4 IP 子系统层 DSP Core + 音频 IF + 通信 + 安全 + PMU RTL Verilog / SV RTL 库
L3 互连层 AXI-4 / APB / DMA / 仲裁 Interconnect IP SoC Netlist
L2 时钟电源层 PLL × 3 / CGU / PMU / Reset Analog IP + 数字控制 Clock Tree
L1 物理实现层 Std-Cell / SRAM / IO / Pad Foundry PDK GDS-II
L0 封装层 封装 + 键合 + 基板 OSAT 协同 最终芯片

3. 核心 IP 与子系统详设

3.1 DSP Core(Xi-D1 Core)

graph TB
    PC[PC 寄存器] --> Fetch[指令取指<br/>I-Cache 16KB]
    Fetch --> Decode[VLIW 译码器<br/>4-issue/cycle]

    Decode --> ALU1[ALU 1]
    Decode --> ALU2[ALU 2]
    Decode --> MAC1[MAC 1<br/>32×32]
    Decode --> MAC2[MAC 2<br/>32×32]

    ALU1 & ALU2 & MAC1 & MAC2 --> RF[寄存器堆<br/>32×32-bit + 8 累加器]

    RF --> LSU[Load/Store Unit]
    LSU --> DCache[D-Cache 32KB<br/>4-way]

    DCache --> XBAR[Core 内 Crossbar]
    Fetch --> XBAR
    XBAR --> AXI[AXI Master]

    class PC,Fetch,Decode xyL0
    class ALU1,ALU2 xyL2
    class MAC1,MAC2 xyL3
    class RF,LSU xyL2
    class DCache xyL1
    class XBAR,AXI xyL4
  • 架构:32-bit VLIW,4-issue / cycle
  • 流水线:5 级(Fetch / Decode / Issue / Execute / Writeback)
  • MAC 单元:2× 32×32-bit,累加 72-bit(饱和可选)
  • 浮点:D1 仅定点;D2+ 规划单精度 IEEE-754
  • Cache:I$ 16KB 2-way,D$ 32KB 4-way,均带 ECC(SEC-DED)
  • 中断:32 级优先级 + NMI + 尾链(Tail-chaining)

ISA(XiDSP-ISA v1.0)

自研指令集,面向声学信号处理优化: - 单周期 Vector MAC(最多 4-way SIMD) - 圆形缓冲区寻址(Modulo Addressing)— FIR / IIR / 延迟线友好 - 饱和加减 / 截位 / Q-Format 转换原生指令 - Bit-reverse 寻址 — FFT 友好 - 完整指令集详见 api.md §2

3.2 Audio Interface 子系统

graph LR
    I2S_IN[I²S In × 8] --> ASRC1[ASRC 1]
    PDM_IN[PDM In × 4] --> PDM2PCM[PDM-to-PCM]
    TDM_IN[TDM In × 2] --> TDMdecoder[TDM 解复用]

    ASRC1 & PDM2PCM & TDMdecoder --> AudioBus[Audio Bus<br/>内部 32-bit @ 48kHz]

    AudioBus --> DMA[Audio DMA<br/>16-channel]
    DMA --> SRAM[片上 SRAM]

    AudioBus --> ASRC2[ASRC 2]
    ASRC2 --> I2S_OUT[I²S Out × 8]
    ASRC2 --> TDM_OUT[TDM Out × 2]

    class I2S_IN,PDM_IN,TDM_IN xyL0
    class ASRC1,ASRC2,PDM2PCM,TDMdecoder xyL3
    class AudioBus xyL2
    class DMA xyL4
    class SRAM xyL1
    class I2S_OUT,TDM_OUT xySuccess
  • I²S:8 输入 + 8 输出,独立时钟域;每路支持主/从切换
  • TDM:TDM-4 / TDM-8 / TDM-16,位宽 16/24/32
  • PDM:4 路 PDM 输入(数字麦),集成 Decimator + HPF
  • ASRC:2 路异步采样率转换,THD+N ≤ -120 dB
  • Audio DMA:16 channel,支持链表 + 双缓冲,降低 CPU 中断频率

3.3 Communication 子系统

接口 数量 关键参数 物理层
CAN-FD 2 5 Mbps,ISO 11898-1 外接 Transceiver
UART 2 6 Mbps,带 DMA LVCMOS 3.3V
SPI 2 50 MHz,主/从 LVCMOS 3.3V
I²C 2 1 MHz Fast+ Open-Drain
GPIO 32 复用 5V 容忍
JTAG 1 IEEE 1149.1 + IJTAG 独立 Pad

3.4 Security Engine(SecEng)

graph LR
    HostBus[APB Host] --> CtrlReg[控制寄存器]
    CtrlReg --> Dispatcher[任务调度]

    Dispatcher --> AES[AES-128/256<br/>ECB/CBC/CTR/GCM]
    Dispatcher --> SHA[SHA-1/256/512]
    Dispatcher --> RSA[RSA-2048]
    Dispatcher --> ECC[ECDSA-P256]
    Dispatcher --> TRNG[TRNG<br/>NIST SP800-90B]

    AES & SHA & RSA & ECC & TRNG --> KeyVault[Key Vault<br/>OTP 根密钥]

    class HostBus xyL0
    class CtrlReg,Dispatcher xyL2
    class AES,SHA,RSA,ECC,TRNG xyL3
    class KeyVault xyWarn
  • 对称:AES-128/256,硬件加速,典型吞吐 > 200 MB/s @ 400 MHz
  • 哈希:SHA-1/256/512
  • 非对称:RSA-2048 签名验证 / ECDSA-P256
  • TRNG:真随机数,通过 NIST SP800-90B 自检
  • Secure Boot:ROM 启动时校验 OTP 存储的 Root Key,验证 Flash 固件签名
  • 国密(D2+ 选配):SM2/SM3/SM4

3.5 PMU(电源管理单元)

  • 四级功耗模式:Active / Sleep / Deep Sleep / Shutdown
  • 时钟门控:细粒度到每个子系统
  • 电压域:Core 0.95-1.05V / IO 3.3V / PLL 1.8V / Flash 1.8V
  • 唤醒源:GPIO / RTC / CAN-FD / UART 边沿

4. 互连与总线

4.1 AXI / APB 层次

graph TB
    Core[DSP Core<br/>AXI Master] --> AXIBUS[AXI Interconnect<br/>AXI-4 128-bit]

    AXIBUS --> SRAMC[SRAM Controller<br/>256KB]
    AXIBUS --> FlashC[SPI Flash XiP Ctrl<br/>≤ 128MB]
    AXIBUS --> DMA[Audio DMA]
    AXIBUS --> Bridge[AXI-to-APB Bridge]

    Bridge --> APBBUS[APB Bus<br/>APB3]
    APBBUS --> AudioIF[Audio IF]
    APBBUS --> CAN[CAN-FD × 2]
    APBBUS --> UART[UART × 2]
    APBBUS --> SPI[SPI × 2]
    APBBUS --> I2C[I²C × 2]
    APBBUS --> GPIO[GPIO]
    APBBUS --> SecEng[Security Engine]
    APBBUS --> PMU[PMU]

    class Core xyL4
    class AXIBUS xyL3
    class Bridge xyL2
    class APBBUS xyL2
    class SRAMC,FlashC,DMA xyL1
    class AudioIF,CAN,UART,SPI,I2C,GPIO,SecEng,PMU xyL0

4.2 总线参数

总线 位宽 时钟 仲裁 备注
AXI Main 128-bit 200 MHz QoS + Round-Robin DSP Core / DMA / Flash 共用
APB 32-bit 100 MHz 单 Master 所有外设寄存器
AHB-Lite(内部) 32-bit 400 MHz 单 Master DSP Core 到 Cache

4.3 DMA 架构

  • 16 通道,每通道独立描述符链表
  • 支持 Memory-to-Memory / Memory-to-Peripheral / Peripheral-to-Memory
  • 音频专用通道带双缓冲,降低采样周期抖动
  • 可被中断 / Event 触发,支持跨周期对齐(关键于多通道 TDM)

5. 存储层次

5.1 层次视图

graph TB
    L0C[L0 · 寄存器堆<br/>32×32b · 0 cycle]
    L1C[L1 · I$/D$<br/>16KB/32KB · 1 cycle]
    L2C[L2 · 片上 SRAM<br/>256KB · 1-2 cycle · ECC]
    L3C[L3 · ROM<br/>64KB · 1 cycle]
    L4C[L4 · OTP<br/>4KB · 密钥/校准]
    L5C[L5 · 外部 Flash<br/>≤128MB · XiP 10-20 cycle]

    L0C --> L1C
    L1C --> L2C
    L2C --> L3C
    L2C --> L4C
    L2C --> L5C

    class L0C xyL5
    class L1C xyL4
    class L2C xyL3
    class L3C xyL2
    class L4C xyWarn
    class L5C xyL1

5.2 SRAM 分区(D1 256KB)

分区 大小 用途 ECC
Code Region 128 KB 指令(从 Flash XiP 或 Copy)
Data Region 96 KB 算法状态变量 / 音频 Buffer
Stack / Heap 16 KB 运行时栈 + 堆
Scratchpad 16 KB DMA 中转 / 临时 ❌(性能优先)

5.3 XiP(Execute in Place)

  • SPI NOR Flash 通过 Flash Controller 映射到 AXI 地址空间
  • 4 读命令:0x03 / 0xEB(Quad SPI)/ 0x0B(Fast Read)
  • 预取队列:8 个 cache-line
  • 典型延迟:冷启动 10-20 cycle,命中预取 2 cycle

6. DFT(可测试性设计)

6.1 DFT 总览

graph LR
    TAP[JTAG TAP<br/>IEEE 1149.1] --> IJTAG[IJTAG Network<br/>IEEE 1687]

    IJTAG --> Scan[Scan Chain<br/>Stuck-at + Transition]
    IJTAG --> MBIST[Memory BIST<br/>SRAM / ROM]
    IJTAG --> LBIST[Logic BIST<br/>车规 D2+ 选配]
    IJTAG --> BS[Boundary Scan<br/>PCB 测试]

    Scan --> ATPG[ATPG 测试向量<br/>目标 > 99% Coverage]
    MBIST --> MBISTReport[MBIST 报告]
    LBIST --> LBISTReport[LBIST Self-test]
    BS --> BSReport[BS 边界测试]

    class TAP xyL0
    class IJTAG xyL3
    class Scan,MBIST,LBIST,BS xyL2
    class ATPG,MBISTReport,LBISTReport,BSReport xySuccess

6.2 DFT 清单(D1)

机制 覆盖范围 目标
Scan Chain 所有组合逻辑 + 触发器 Stuck-at 覆盖 > 99%
Transition Fault Scan 时序路径 > 95%
MBIST 所有 SRAM / ROM 100%,在线自检可选
Boundary Scan 所有数字 IO IEEE 1149.1 合规
Secure Debug JTAG Lock + 密码解锁 量产后锁定

6.3 车规 DFT 增强(A1)

  • LBIST(Logic BIST):在线自检,ISO 26262 ASIL-B 要求
  • ECC 错误注入:触发 Fault 响应,验证安全机制
  • Lockstep 双核(A1 可选):两个 DSP Core 同步执行 + 比对

7. 时钟与电源

7.1 时钟树

graph LR
    XTAL[外部晶振<br/>25 MHz] --> PLL1[CPU PLL<br/>→ 400 MHz]
    XTAL --> PLL2[Audio PLL<br/>→ 24.576 MHz / 22.579 MHz]
    XTAL --> PLL3[Interface PLL<br/>→ 200 MHz]

    PLL1 --> CoreClk[Core Clock]
    PLL2 --> AudioClk[Audio MCLK]
    PLL3 --> AXIClk[AXI Clock]
    PLL3 --> APBClk[APB Clock]

    CoreClk --> CGU[CGU<br/>时钟门控]
    AudioClk --> CGU
    AXIClk --> CGU
    APBClk --> CGU

    class XTAL xyL0
    class PLL1,PLL2,PLL3 xyL3
    class CGU xyL2
    class CoreClk,AudioClk,AXIClk,APBClk xySuccess

7.2 PLL 参数

PLL 输入 输出范围 抖动 锁定时间
CPU PLL 25 MHz 100-500 MHz < 50 ps pk-pk < 100 µs
Audio PLL 25 MHz 11.2896 / 22.5792 / 24.576 MHz < 30 ps RMS(关键于音频) < 100 µs
Interface PLL 25 MHz 100-300 MHz < 100 ps < 100 µs

7.3 电源域

graph TB
    VDD_IO[VDD IO<br/>3.3V] --> IOPad[IO Pad Ring]
    VDD_CORE[VDD Core<br/>1.0V] --> Core[DSP Core + Audio Sub]
    VDD_PLL[VDD PLL<br/>1.8V] --> PLLDomain[PLL 区]
    VDD_FLASH[VDD Flash<br/>1.8V] --> FlashIF[Flash 接口]
    VDD_BACKUP[VDD Backup<br/>3.3V] --> RTCDomain[RTC + 唤醒逻辑]

    class VDD_IO,VDD_CORE,VDD_PLL,VDD_FLASH xyL3
    class VDD_BACKUP xyWarn
    class IOPad,Core,PLLDomain,FlashIF,RTCDomain xyL1

8. 物理实现

8.1 工艺与库

D1 D2 A1
工艺 SMIC 28HPC GF 22FDX TSMC 16FF+
Std-Cell 库 9-track HVT/SVT/LVT 多 Vt 多 Vt + 车规库
SRAM 编译器 配套 28HPC Memory Compiler 22FDX MC 16FF+ 车规 MC
IO 库 3.3V LVCMOS / 差分 3.3V + 1.8V 3.3V + 车规 ESD

工艺选型注意

具体工艺节点与 PDK 版本以 Foundry 正式合同 + RTL 冻结时版本为准。本文数字为 2026-05 规划方向,仍可能随 Supply Chain / MPW 时间窗口调整。

8.2 面积预估(D1 架构目标)

子系统 面积占比(典型)
DSP Core ~25%
SRAM 256KB ~35%
Audio IF + ASRC ~10%
Comm Sub (CAN/UART/SPI/I²C) ~5%
Security Engine ~8%
PLL / PMU / Clock ~7%
IO Ring + Pad ~10%

总 Die 面积目标:≤ 4 mm²(28HPC 节点,不含 IO Ring)。

8.3 关键时序路径

  • Critical Path 1:MAC 累加链(MAC1 → MAC2 → RF writeback) · 目标 2.5 ns
  • Critical Path 2:Flash XiP 读到 Decode · 目标可容忍的 Wait-state 允许
  • Critical Path 3:AXI Crossbar 多主仲裁 · 目标 5 ns @ 200 MHz

9. 封装

9.1 封装选项

封装 型号 尺寸 间距 引脚 目标市场
LQFP-64 D1-L 10×10 mm 0.5 mm 64 消费 / 后装
BGA-100 D1-B 7×7 mm 0.5 mm 100 Tier1 前装
BGA-196 D2-B 9×9 mm 0.5 mm 196 前装高通道
BGA-400 A1-B 17×17 mm 0.8 mm 400 车规 ASIL

9.2 车规封装要点(A1)

  • 基板材料:车规 BT 基板 + 无卤阻燃
  • 焊球:SAC305 车规,耐温循环 -40 ~ +125°C ≥ 1000 次
  • Underfill:车规底填胶
  • 键合丝:金线 / 铜线,依车厂要求
  • MSL Level:目标 Level 3(客户要求可降至 Level 2)

9.3 热设计

  • D1 典型 500 mW @ 400 MHz → 无散热片可工作
  • A1 预估 2-3 W → 需 PCB 散热铜箔 + 可选导热胶
  • 结温目标 Tj ≤ 125°C(车规 Grade 1 目标 Tj ≤ 150°C)

10. Tapeout 与流片策略

10.1 流片节奏

graph LR
    RTL[RTL 冻结<br/>2026 Q2] --> A0[A0 流片<br/>2026 Q3]
    A0 --> A0_Bringup[A0 Bring-up<br/>2026 Q4]
    A0_Bringup --> A1_Spin[A1 Metal-Spin<br/>2027 Q1]
    A1_Spin --> B0[B0 全掩膜<br/>2027 Q2]
    B0 --> MP[Mass Production<br/>2027 Q3]

    class RTL xyL0
    class A0,A1_Spin xyWarn
    class A0_Bringup xyL3
    class B0 xyL4
    class MP xySuccess

10.2 Tapeout 八不放(引用 ic-dev-spec §7)

严格遵守 ic-dev-spec.md §7:

  1. DV 覆盖率不达标不放 — Code ≥ 99% / Functional ≥ 95%
  2. 关键 Bug 未清不放 — P0/P1 = 0
  3. 时序不收敛不放 — Slack ≥ 0,WNS / TNS 达标
  4. PPA 不满足不放 — Power / Performance / Area 达标
  5. DRC/LVS 不 Clean 不放 — 物理验证零违规
  6. DFT 覆盖不达标不放 — Stuck-at > 99%,MBIST 全覆盖
  7. Signoff 未全签不放 — RTL / DV / PD / DFT / Analog 五方 Sign-off
  8. Foundry Review 未过不放 — Mask 订单需 Foundry 工程 Review

10.3 Errata 与 PCN

  • Errata:每个 Silicon Revision 维护 Errata 清单,详见 changelog.md
  • PCN(Product Change Notification):封装 / 工艺 / Mask 变更至少提前 90 天通知客户

11. 演进路线

11.1 未来 3 年架构演进

时间 演进项 影响层
2026 Q3 D1 A0 流片(28HPC) L1-L4
2027 Q2 D1 B0 量产 L1-L4
2027 Q3 D2 预研启动(22FDX + AI 协处理) L4 + L1
2028 Q2 D2 Tapeout · ASIL-B 路线 L1-L5
2028 Q4 D3 规划(4 核 + 更高通道数) L4
2029+ A1 车规 16FF+ · AEC-Q100 G1 目标 L0-L5

11.2 技术债提示

已识别的技术债(D1 阶段接受)

  1. 无硬件浮点 — 仅定点,D2 标配 FP32
  2. ASRC 仅 2 路 — D2 扩至 4-8 路
  3. 无 AI 加速器 — 依靠外部 XiAmp / A1 专芯
  4. Ethernet 缺失 — D3 起规划
  5. 28HPC 工艺老化风险 — Foundry 长期可供预期纳入 SCM 预案

12. 附录

12.1 与其他文档的引用关系

关联文档 引用点
XiDSP 产品概述 产品定位 / 四型号对照
XiDSP PRD 功能需求 / 目标客户
XiDSP 产品规格书 Datasheet 数字契约(本文数字源)
XiDSP API 文档 寄存器 / ISA / 驱动 SDK
XiDSP 版本更新日志 A0/A1/B0 + Errata + PCN
芯片开发流程规范 Tapeout 八不放
硬件开发规范 EVK / EVT / DVT
测试规范 AEC-Q100 / THD+N

12.2 外部标准参考

  • AMBA AXI-4 / APB3 Specification
  • IEEE 1149.1(JTAG)/ IEEE 1687(IJTAG)
  • NIST SP800-90B(TRNG)
  • AEC-Q100 Rev-J
  • ISO 26262:2018
  • JESD78(Latch-up)/ JESD22(可靠性)

12.3 版本历史

版本 日期 要点
v1.0 2026-05-05 首版 · 五层架构 + RTL IP 详设 + DFT + 物理实现 + 封装 + Tapeout 策略

tech-arch.md · D2-P2-TECH-001 · v1.0 · 2026-05-05 · Xisound 研发中心 · 芯片团队