AI 全链路技术架构

从声音输入到行动输出,每个环节都有自研核心技术支撑。13 项软件著作权,100% 自主知识产权。

系统架构总览

从用户开口说话到 AI 完成执行,六层架构环环相扣。

1
用户层 — AI 原生终端
第一代 AI 情感陪伴终端 / 第二代 AI 社交终端
BB机 相框 社交终端 下一代
2
前端交互层 [软著02, 12]
智能 VAD 门控 · 状态感知 UI · WebSocket 通信
VAD 预缓冲 300ms 预缓冲 Next.js 15 AudioWorklet
3
通信与音频层 [软著03]
实时音频 IO · 消息总线 · 会话管理
WebSocket 全双工 Message Bus PCM/Opus 背压控制
4
决策与控制层 [软著01, 04, 05]
双脑决策引擎 · 事件驱动状态机 · AudioManus 主动对话
逻辑脑 情感脑 三态转换 9种路径
5
AI 能力层 [软著06-11]
ASR · LLM · TTS · 记忆 · 声音复刻 · 端云协同
分布式ASR [09] 多后端LLM [07] 多源TTS [08] 记忆框架 [06] 声音复刻 [10] 端云协同 [11]
6
Token 大平台 [软著13]
多模型聚合网关 · 智能渠道调度 · Token 密钥管理 · 算力池管理
40+ 模型服务商 Go+Gin 10万QPS 格式互转 Docker 容器化 640GB 显存
STAGE 01
语音输入
Voice Input & ASR Pipeline

从用户开口说话的第一个音节开始,VAD 门控在 300ms 内完成预缓冲,分布式 ASR 聚合引擎将语音实时转化为文本,支持流式识别和多方言适配。

VAD 语音活动检测 300ms 预缓冲 分布式 ASR 聚合 流式语音识别 多方言适配 声纹识别
99.9%
首字捕捉率
300ms
预缓冲延迟
95%+
VAD 准确率
VAD Active
PCM 音频流
VAD 预缓冲 (300ms)
分布式 ASR 聚合
流式文本输出
→ "你好帕修斯,今天天气怎么样?"
AudioManus 双脑架构
逻辑脑
Left Brain
事实核查
推理规划
工具调用
安全校验
情感脑
Right Brain
共情理解
社交感知
语气适配
主动关怀
Idle
Listen
Speak
短期记忆
长期记忆
用户画像
RAG 检索
STAGE 02
AudioManus 对话中枢
Left-Brain Logic + Right-Brain Emotion

独创左右脑双重处理架构:逻辑脑负责事实核查与推理规划,情感脑负责共情理解与社交感知。多层记忆系统支持 10K+ 轮长对话,RAG 用户画像实现个性化响应。

左右脑双重处理 逻辑脑(事实+推理) 情感脑(共情+社交) 多层记忆系统 RAG 用户画像 事件驱动状态机
10K+
长对话轮次
9
状态转换路径
>80%
情感识别率
STAGE 03
LLM 推理引擎
Deep Thinking & Multi-Model Orchestration

深度思考推理模式让 AI 在复杂任务中"想清楚再回答"。多模型智能路由在 40+ 模型服务商间自动选择最优模型,支持 OpenAI/Claude/Gemini 格式互转,流式文本+音频双通道输出。

深度思考推理 多模型智能路由 40+ 模型聚合 格式互转 流式双通道
<50ms
服务器响应
40+
模型服务商
10万
QPS 承载
多模型路由引擎
智能路由中枢
OpenAI
GPT-4o / o1
Claude
3.5 Sonnet
Gemini
2.0 Flash
DeepSeek
V3 / R1
Qwen
Max / Plus
更多...
40+ 服务商
深度思考模式
语音合成管线
"今天深圳晴转多云,气温22-28°C"
字节火山
阿里通义
FlashTTS
FMStream
声音复刻(1句样本)
开心
安慰
激动
温柔
STAGE 04
语音合成输出
TTS & Voice Cloning

多 TTS 引擎聚合确保最优音质与稳定性。声音复刻仅需一句话样本即可克隆用户声音。情感语调控制让 AI 说话不再冰冷,支持开心、安慰、激动等多种情感表达。

多 TTS 引擎聚合 声音复刻(1句样本) 情感语调控制 流式音频输出 字节/阿里/FlashTTS/FMStream
>90%
打断精准度
1句
复刻样本
4+
TTS 引擎
STAGE 05
行动执行
Agent Tool Use & Edge-Cloud Collaboration

端云多智能体协同架构:隐私优先的本地计算处理敏感数据,云端大模型处理复杂推理。工具调用框架支持 MCP/OpenAPI 协议,H100 GPU 加速推理,缓存优化节省 80% 带宽。

端云多智能体协同 工具调用 (MCP/OpenAPI) 隐私优先本地计算 H100 GPU 加速 缓存优化与连接复用
80%
带宽节省
640GB
GPU 显存
<500ms
端到端延迟
端云协同架构
端侧智能
隐私数据处理
本地推理加速
离线模式支持
缓存与复用
协同
云端算力
H100 加速推理
大模型调用
知识库检索
API 聚合网关
邮件
日历
搜索
文档
代码
API
解析
规划
执行
验证

核心技术指标

100K+
平台 QPS 承载
640GB
异构 GPU 总显存
40+
聚合模型服务商
13
软件著作权
<500ms
端到端延迟
>95%
VAD 检测准确率
>80%
情感识别准确率
1
声音复刻所需样本
Token 大平台 · 算力中枢
Iluvatar MR-V50 × 16 (256GB)
NVIDIA A40 × 8 (384GB)
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
V50
A40
A40
A40
A40
A40
A40
A40
A40
640 GB
异构算力集群总显存 · 支持主流开源模型运行

13 项软件著作权

100% 自主知识产权,覆盖 AI 全链路每个环节。