LiteAvatar：音频驱动2D人像的实时互动数字人，CPU运行30fps

1.5K 00

综合介绍

LiteAvatar 是由 HumanAIGC 团队（阿里旗下）开发的一款开源工具，专注于通过音频实时驱动2D虚拟形象生成面部动画。它仅依靠CPU就能以30帧每秒（fps）的速度运行，特别适合需要低功耗的场景，比如实时2D视频聊天或移动设备上的虚拟形象应用。LiteAvatar结合了语音识别（ASR）和口型预测技术，能够根据输入的音频特征生成同步的面部表情和口型动作，动画效果流畅自然。项目托管在 GitHub 上，提供完整代码和文档，开发者可以免费获取并根据需求进行二次开发。无论是用于娱乐、教育还是虚拟主播，这款工具都展现了轻量化与高效能的完美结合。

部署 LiteAvatar 实时互动版：https://github.com/HumanAIGC-Engineering/OpenAvatarChat

功能列表

音频驱动动画生成：通过输入音频，实时生成虚拟形象的面部表情和口型动画。
轻量化运行：仅依赖CPU即可实现30fps的流畅动画，无需GPU支持。
口型同步预测：利用ASR模型提取音频特征，生成与语音内容匹配的口型动作。
支持移动设备：优化后的模型适配低功耗设备，适合手机或平板使用。
开源代码支持：提供完整源代码，允许用户自定义功能或集成到其他项目中。
实时处理能力：低延迟处理音频输入，确保动画与声音高度同步。

使用帮助

LiteAvatar 是一个基于 GitHub 的开源项目，用户需要一定的技术基础来安装和使用。以下是详细的安装与使用指南，帮助你快速上手这款音频驱动的2D虚拟形象工具。

安装流程

环境准备
- 确保你的电脑已安装 Python 3.8 或以上版本。可以通过命令 python --version 检查版本。
- 安装 Git，用于从 GitHub 下载代码。Windows 用户可在官网下载 Git，Linux 或 macOS 用户可通过包管理器安装（如 sudo apt install git）。
- 准备一个支持命令行的终端（如 Windows 的 CMD、PowerShell，或 Linux/macOS 的 Terminal）。
下载 LiteAvatar 项目
- 打开终端，输入以下命令克隆代码仓库：
```
git clone https://github.com/HumanAIGC/lite-avatar.git
```
- 克隆完成后，进入项目目录：
```
cd lite-avatar
```
安装依赖
- 项目需要一些 Python 库支持。运行以下命令安装依赖：
```
pip install -r requirements.txt
```
- 如果 requirements.txt 文件中未列出具体依赖，可以参考项目文档，常见依赖可能包括 numpy、torch（CPU版本）、modelscope 等。手动安装示例：
```
pip install numpy torch modelscope
```
验证安装
- 安装完成后，运行一个简单测试命令（具体命令以项目 README 为准，例如：
```
python demo.py
```
- 如果没有报错，说明环境配置成功。

使用方法

LiteAvatar 的核心功能是通过音频驱动虚拟形象生成动画。以下是详细操作步骤：

准备音频文件

音频格式：支持常见格式如 .wav 或 .mp3。建议使用清晰的单声道音频，采样率在16kHz左右效果最佳。
音频来源：可以是你录制的语音，或从视频中提取的音频。推荐工具：Audacity（免费音频编辑软件）。

运行实时动画

启动程序
- 在项目目录下，运行主脚本（假设为 main.py，具体文件名以 README 为准）：
```
python main.py --audio_path your_audio_file.wav
```
- 参数说明：
  - --audio_path：指定音频文件路径。
  - --output：可选参数，指定生成的动画视频保存路径，默认可能直接显示。
实时输入测试
- 如果支持麦克风输入，可尝试实时模式（需确认 README 是否提供此功能）。示例命令：
```
python main.py --live
```
- 程序会监听麦克风输入，实时生成动画。

查看结果

动画输出：运行后，程序会在屏幕上显示虚拟形象的动画，或生成一个视频文件（如 output.mp4）。
调整参数：若动画效果不理想，可参考文档调整模型参数，比如帧率或口型灵敏度（具体取决于代码实现）。

特色功能操作

音频驱动动画生成

步骤：
1. 准备好音频文件，例如 test.wav。
2. 运行命令：
```
python main.py --audio_path test.wav --output result.mp4
```
3. 程序调用 ModelScope 的 ASR 模型提取音频特征，再通过口型预测模型生成动画。
效果：虚拟形象的嘴型和表情会随音频变化，比如说“hello”时嘴张开，唱歌时节奏感更强。

移动设备部署

前提：需将模型导出为轻量格式（如 ONNX），并在移动端集成。
操作：
1. 在本地转换模型（具体脚本待项目文档补充，示例假设为 export.py）：
```
python export.py --model lite_avatar_model.pth --output lite_avatar.onnx
```
2. 将 .onnx 文件部署到移动端，使用支持 ONNX 的框架（如 NCNN）运行。
结果：在手机上实现低功耗实时动画，适合视频聊天应用。