技术 — Perseus

系统架构总览

从用户开口说话到 AI 完成执行，六层架构环环相扣。

用户层 — AI 原生终端

第一代 AI 情感陪伴终端 / 第二代 AI 社交终端

BB机相框社交终端下一代

↓

前端交互层 [软著02, 12]

智能 VAD 门控 · 状态感知 UI · WebSocket 通信

VAD 预缓冲 300ms 预缓冲 Next.js 15 AudioWorklet

↓

通信与音频层 [软著03]

实时音频 IO · 消息总线 · 会话管理

WebSocket 全双工 Message Bus PCM/Opus 背压控制

↓

决策与控制层 [软著01, 04, 05]

双脑决策引擎 · 事件驱动状态机 · AudioManus 主动对话

逻辑脑情感脑三态转换 9种路径

↓

AI 能力层 [软著06-11]

ASR · LLM · TTS · 记忆 · 声音复刻 · 端云协同

分布式ASR [09] 多后端LLM [07] 多源TTS [08] 记忆框架 [06] 声音复刻 [10] 端云协同 [11]

↓

Token 大平台 [软著13]

多模型聚合网关 · 智能渠道调度 · Token 密钥管理 · 算力池管理

40+ 模型服务商 Go+Gin 10万QPS 格式互转 Docker 容器化 640GB 显存

STAGE 01

语音输入

Voice Input & ASR Pipeline

从用户开口说话的第一个音节开始，VAD 门控在 300ms 内完成预缓冲，分布式 ASR 聚合引擎将语音实时转化为文本，支持流式识别和多方言适配。

VAD 语音活动检测 300ms 预缓冲分布式 ASR 聚合流式语音识别多方言适配声纹识别

99.9%

首字捕捉率

300ms

预缓冲延迟

95%+

VAD 准确率

VAD Active

PCM 音频流

VAD 预缓冲 (300ms)

分布式 ASR 聚合

流式文本输出

→ "你好帕修斯，今天天气怎么样？"

AudioManus 双脑架构

逻辑脑

Left Brain

事实核查

推理规划

工具调用

安全校验

情感脑

Right Brain

共情理解

社交感知

语气适配

主动关怀

Idle

Listen

Speak

短期记忆

长期记忆

用户画像

RAG 检索

STAGE 02

AudioManus 对话中枢

Left-Brain Logic + Right-Brain Emotion

独创左右脑双重处理架构：逻辑脑负责事实核查与推理规划，情感脑负责共情理解与社交感知。多层记忆系统支持 10K+ 轮长对话，RAG 用户画像实现个性化响应。

左右脑双重处理逻辑脑（事实+推理）情感脑（共情+社交）多层记忆系统 RAG 用户画像事件驱动状态机

10K+

长对话轮次

状态转换路径

>80%

情感识别率

STAGE 03

LLM 推理引擎

Deep Thinking & Multi-Model Orchestration

深度思考推理模式让 AI 在复杂任务中"想清楚再回答"。多模型智能路由在 40+ 模型服务商间自动选择最优模型，支持 OpenAI/Claude/Gemini 格式互转，流式文本+音频双通道输出。

深度思考推理多模型智能路由 40+ 模型聚合格式互转流式双通道

<50ms

服务器响应

40+

模型服务商

10万

QPS 承载

多模型路由引擎

智能路由中枢

OpenAI

GPT-4o / o1

Claude

3.5 Sonnet

Gemini

2.0 Flash

DeepSeek

V3 / R1

Qwen

Max / Plus

更多...

40+ 服务商

深度思考模式

语音合成管线

"今天深圳晴转多云，气温22-28°C"

字节火山

阿里通义

FlashTTS

FMStream

声音复刻（1句样本）

开心

安慰

激动

温柔

STAGE 04

语音合成输出

TTS & Voice Cloning

多 TTS 引擎聚合确保最优音质与稳定性。声音复刻仅需一句话样本即可克隆用户声音。情感语调控制让 AI 说话不再冰冷，支持开心、安慰、激动等多种情感表达。

多 TTS 引擎聚合声音复刻（1句样本）情感语调控制流式音频输出字节/阿里/FlashTTS/FMStream

>90%

打断精准度

1句

复刻样本

TTS 引擎

STAGE 05

行动执行

Agent Tool Use & Edge-Cloud Collaboration

端云多智能体协同架构：隐私优先的本地计算处理敏感数据，云端大模型处理复杂推理。工具调用框架支持 MCP/OpenAPI 协议，H100 GPU 加速推理，缓存优化节省 80% 带宽。

端云多智能体协同工具调用 (MCP/OpenAPI) 隐私优先本地计算 H100 GPU 加速缓存优化与连接复用

80%

带宽节省

640GB

GPU 显存

<500ms

端到端延迟

端云协同架构

端侧智能

隐私数据处理

本地推理加速

离线模式支持

缓存与复用

协同

云端算力

H100 加速推理

大模型调用

知识库检索

API 聚合网关

邮件

日历

搜索

文档

代码

API

解析

→

规划

→

执行

→

验证

核心技术指标

100K+

平台 QPS 承载

640GB

异构 GPU 总显存

40+

聚合模型服务商

13项

软件著作权

<500ms

端到端延迟

>95%

VAD 检测准确率

>80%

情感识别准确率

1句

声音复刻所需样本

Token 大平台 · 算力中枢

Iluvatar MR-V50 × 16 (256GB)

NVIDIA A40 × 8 (384GB)

V50

A40

640 GB

异构算力集群总显存 · 支持主流开源模型运行

13 项软件著作权

100% 自主知识产权，覆盖 AI 全链路每个环节。

AudioManus 主动式 AI 对话系统软件

对话中枢

智能 VAD 语音活动检测与门控系统软件

语音输入

超低延迟实时音频通信系统软件

通信层

双脑协同对话决策引擎软件

对话中枢

事件驱动对话状态机控制软件

对话中枢

通用 AI 对话记忆框架软件

记忆系统

大语言模型多后端集成服务软件

LLM 引擎

多源语音合成聚合服务软件

语音合成

分布式语音识别聚合服务系统软件

语音输入

声音复刻与个性化语音生成软件

语音合成

端云多智能体协同计算软件

行动执行

AI 原生终端实时交互前端软件

前端交互

多模型 AI 算力聚合调度与 Token 管理平台软件

算力平台

AI 全链路技术架构

系统架构总览

核心技术指标

13 项软件著作权