PilotTTS：支持情绪控制的AI语音合成

chengfeng · 发表于 2 小时前

PilotTTS 是一款基于大语言模型（LLM）的文本转语音系统，采用“简化但高效”的架构设计，在完全开源组件基础上，通过高质量数据工程实现了接近业界顶级水平的语音生成效果。相比依赖复杂闭源流程的传统 TTS 系统，PilotTTS 更强调开放性、可控性与高质量训练数据构建。
该系统不仅在说话人相似度与文本内容准确率方面表现出色，还支持丰富的情绪与副语言控制，使生成语音更加自然、生动且富有表现力。

下载地址：

https://pan.quark.cn/s/ba3d3423dc73

核心功能：
高质量文本转语音（TTS）：生成自然流畅的人声语音
高相似度语音克隆：精准还原目标说话人音色
内容一致性控制：降低发音错误与文本偏差
情绪控制生成：支持 11 种情绪类别
副语言控制：支持笑声、呼吸、哭泣、咳嗽等表达
全开源数据处理流程：完整公开的数据清洗与标注管线

支持情绪类别：
Happy、Sad、Fear、Angry、Surprise、Serious、Concern 等 11 种情绪表达。

支持副语言控制：
LAUGH（笑声）、BREATH（呼吸）、CRY（哭泣）、COUGH（咳嗽）等。

技术亮点：
基于 LLM 的语音生成架构
全开源数据工程与处理流程
Seed-TTS 测试集上达到 SOTA 级说话人相似度
降低高质量 TTS 数据构建成本

应用场景：
AI 数字人与虚拟主播
有声书与播客生成
游戏角色配音
AI 情感语音交互
视频旁白与内容创作

账号		自动登录	找回密码
密码			创建账号

[软件美化] PilotTTS：支持情绪控制的AI语音合成

本帖子中包含更多资源