VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型

Latest AI Resources3mos agorelease AI Sharing Circle

VoiceSculptor是什么

VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型，基于 LLaSA-3B 和 CosyVoice2 开发，专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频等属性的细粒度控制，引入了类似 CoT 的推理机制，通过属性 Token 和自然语言指令联合训练，显著提升了模型对指令的理解和执行能力。VoiceSculptor支持检索增强生成，利用 Qwen3-Embedding-0.6B 模型和 Milvus vector database，对域外指令进行语义相似度检索，增强了模型的泛化性和鲁棒性。

VoiceSculptor的功能特色

自然语言控制音色生成：通过自然语言指令直接设计音色，用户可以用文字描述期望的音色特征，如“一位年轻女性，声音温柔且语速稍快”，模型据此生成相应音色的语音。
细粒度属性可控：支持对多种音频属性进行精确控制，包括性别、年龄、语速、基频、音量、情感等，用户可以根据需求调整这些属性，实现高度个性化的语音合成。
Search Enhanced Generation：具备外挂RAG检索功能，通过向量数据库检索与输入指令语义相似的样本，增强模型对未见过的自然语言指令的理解和生成能力，提升泛化性和鲁棒性。
音色克隆与风格转换：能基于少量参考音频克隆特定音色，在此基础上进行风格转换，比如将一个普通新闻播报音色转换为带有情感色彩的风格。
Multi-scenario application support：适用于多种应用场景，如虚拟人声、有声读物、智能客服等，为不同领域提供灵活的语音合成解决方案。

VoiceSculptor的核心优势

自然语言指令驱动：用户可以通过自然语言直接描述音色特征和需求，如“一位中年男性，声音沉稳，语速适中”，模型能够精准理解和生成符合描述的语音。
细粒度属性控制：支持对性别、年龄、语速、基频、音量、情感等多维度属性进行精确调整，实现高度个性化的语音合成。
检索增强机制：通过外挂 RAG 检索库，利用向量数据库检索与输入指令语义相似的样本，显著提升模型对域外指令的泛化性和鲁棒性。
高性能与低资源需求：仅使用 9k 小时标注数据和 3B 参数量，其指令控制能力优于使用上亿小时数据和 7B 参数量的 MiMo-Audio，展现出极高的效率。
Open Source and Ease of Use：完全开源，提供预训练模型权重、推理代码及交互式 Demo，方便开发者快速上手和应用。