综合介绍
LiteAvatar 是由 HumanAIGC 团队(阿里旗下)开发的一款开源工具,专注于通过音频实时驱动2D虚拟形象生成面部动画。它仅依靠CPU就能以30帧每秒(fps)的速度运行,特别适合需要低功耗的场景,比如实时2D视频聊天或移动设备上的虚拟形象应用。LiteAvatar结合了语音识别(ASR)和口型预测技术,能够根据输入的音频特征生成同步的面部表情和口型动作,动画效果流畅自然。项目托管在 GitHub 上,提供完整代码和文档,开发者可以免费获取并根据需求进行二次开发。无论是用于娱乐、教育还是虚拟主播,这款工具都展现了轻量化与高效能的完美结合。
部署 LiteAvatar 实时互动版:https://github.com/HumanAIGC-Engineering/OpenAvatarChat
功能列表
- 音频驱动动画生成:通过输入音频,实时生成虚拟形象的面部表情和口型动画。
- 轻量化运行:仅依赖CPU即可实现30fps的流畅动画,无需GPU支持。
- 口型同步预测:利用ASR模型提取音频特征,生成与语音内容匹配的口型动作。
- 支持移动设备:优化后的模型适配低功耗设备,适合手机或平板使用。
- 开源代码支持:提供完整源代码,允许用户自定义功能或集成到其他项目中。
- 实时处理能力:低延迟处理音频输入,确保动画与声音高度同步。
使用帮助
LiteAvatar 是一个基于 GitHub 的开源项目,用户需要一定的技术基础来安装和使用。以下是详细的安装与使用指南,帮助你快速上手这款音频驱动的2D虚拟形象工具。
安装流程
- 环境准备
- 确保你的电脑已安装 Python 3.8 或以上版本。可以通过命令
python --version
检查版本。 - 安装 Git,用于从 GitHub 下载代码。Windows 用户可在官网下载 Git,Linux 或 macOS 用户可通过包管理器安装(如
sudo apt install git
)。 - 准备一个支持命令行的终端(如 Windows 的 CMD、PowerShell,或 Linux/macOS 的 Terminal)。
- 确保你的电脑已安装 Python 3.8 或以上版本。可以通过命令
- 下载 LiteAvatar 项目
- 打开终端,输入以下命令克隆代码仓库:
git clone https://github.com/HumanAIGC/lite-avatar.git
- 克隆完成后,进入项目目录:
cd lite-avatar
- 打开终端,输入以下命令克隆代码仓库:
- 安装依赖
- 项目需要一些 Python 库支持。运行以下命令安装依赖:
pip install -r requirements.txt
- 如果
requirements.txt
文件中未列出具体依赖,可以参考项目文档,常见依赖可能包括numpy
、torch
(CPU版本)、modelscope
等。手动安装示例:pip install numpy torch modelscope
- 项目需要一些 Python 库支持。运行以下命令安装依赖:
- 验证安装
- 安装完成后,运行一个简单测试命令(具体命令以项目 README 为准,例如:
python demo.py
- 如果没有报错,说明环境配置成功。
- 安装完成后,运行一个简单测试命令(具体命令以项目 README 为准,例如:
使用方法
LiteAvatar 的核心功能是通过音频驱动虚拟形象生成动画。以下是详细操作步骤:
准备音频文件
- 音频格式:支持常见格式如
.wav
或.mp3
。建议使用清晰的单声道音频,采样率在16kHz左右效果最佳。 - 音频来源:可以是你录制的语音,或从视频中提取的音频。推荐工具:Audacity(免费音频编辑软件)。
运行实时动画
- 启动程序
- 在项目目录下,运行主脚本(假设为
main.py
,具体文件名以 README 为准):python main.py --audio_path your_audio_file.wav
- 参数说明:
--audio_path
:指定音频文件路径。--output
:可选参数,指定生成的动画视频保存路径,默认可能直接显示。
- 在项目目录下,运行主脚本(假设为
- 实时输入测试
- 如果支持麦克风输入,可尝试实时模式(需确认 README 是否提供此功能)。示例命令:
python main.py --live
- 程序会监听麦克风输入,实时生成动画。
- 如果支持麦克风输入,可尝试实时模式(需确认 README 是否提供此功能)。示例命令:
查看结果
- 动画输出:运行后,程序会在屏幕上显示虚拟形象的动画,或生成一个视频文件(如
output.mp4
)。 - 调整参数:若动画效果不理想,可参考文档调整模型参数,比如帧率或口型灵敏度(具体取决于代码实现)。
特色功能操作
音频驱动动画生成
- 步骤:
- 准备好音频文件,例如
test.wav
。 - 运行命令:
python main.py --audio_path test.wav --output result.mp4
- 程序调用 ModelScope 的 ASR 模型提取音频特征,再通过口型预测模型生成动画。
- 准备好音频文件,例如
- 效果:虚拟形象的嘴型和表情会随音频变化,比如说“hello”时嘴张开,唱歌时节奏感更强。
移动设备部署
- 前提:需将模型导出为轻量格式(如 ONNX),并在移动端集成。
- 操作:
- 在本地转换模型(具体脚本待项目文档补充,示例假设为
export.py
):python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
- 将
.onnx
文件部署到移动端,使用支持 ONNX 的框架(如 NCNN)运行。
- 在本地转换模型(具体脚本待项目文档补充,示例假设为
- 结果:在手机上实现低功耗实时动画,适合视频聊天应用。
注意事项
- 性能优化:若运行卡顿,可降低帧率(如从30fps调至15fps),方法是修改配置文件或命令行参数。
- 调试:若报错,检查依赖版本是否匹配,或查看 GitHub Issues 页面寻求社区帮助。
- 扩展性:想添加新功能(如表情控制),可 fork 项目并修改代码,HumanAIGC 团队欢迎贡献者提交 Pull Request。
通过以上步骤,你可以轻松安装并使用 LiteAvatar,体验音频驱动的虚拟形象动画生成过程。无论是开发测试还是实际应用,这款工具都提供了高效便捷的解决方案。