综合介绍
Linly-Talker 是一个创新的数字人对话系统,结合了大语言模型(LLMs)与视觉模型,创造出一种新颖的人机互动方式。该系统集成了多种技术,如 Whisper、Linly、Microsoft Speech Services 和 SadTalker 生成系统,旨在提供逼真的数字人对话体验。Linly-Talker 支持用户上传图像进行对话,并通过多轮对话系统增强互动性和现实感。该项目由 Kedreamix 开发,并在 GitHub 上开源,供开发者和研究人员使用和改进。
功能列表
- 多轮对话系统:支持上下文关联的多轮对话,增强互动性和现实感。
- 图像上传对话:用户可以上传图像,与数字人进行对话。
- 语音合成与识别:集成 Microsoft TTS 和 FunASR,提供多种语音类型和快速语音识别。
- 视频字幕生成:支持视频字幕生成,增强视觉效果。
- 语音克隆:通过 GPT-SoVITS 模型,使用一分钟的语音数据即可克隆声音。
- 个性化角色生成:支持个性化角色生成,提供多种模型和选项。
- 实时对话:集成 MuseTalk,实现基本的实时对话功能。
使用帮助
安装流程
- 克隆项目:在终端中运行以下命令克隆项目:
git clone https://github.com/Kedreamix/Linly-Talker.git
- 安装依赖:进入项目目录并安装所需依赖:
cd Linly-Talker
pip install -r requirements_app.txt
pip install -r requirements_webui.txt
- 配置环境:根据需要配置环境变量和证书,确保系统正常运行。
使用指南
- 启动 WebUI:运行以下命令启动 WebUI:
python webui.py
打开浏览器访问 http://localhost:7860
,即可进入 Linly-Talker 的 Web 界面。
- 上传图像进行对话:
- 在 WebUI 界面中,点击“上传图像”按钮,选择要上传的图像文件。
- 图像上传后,系统会自动生成对话内容,用户可以与数字人进行互动。
- 语音合成与识别:
- 在对话框中输入文本,选择语音类型,点击“生成语音”按钮,系统会合成语音并播放。
- 用户也可以通过麦克风输入语音,系统会自动识别并生成文本。
- 视频字幕生成:
- 上传视频文件,系统会自动生成字幕并嵌入视频中,用户可以下载带字幕的视频文件。
- 语音克隆:
- 上传目标人物的语音样本,系统会使用 GPT-SoVITS 模型进行语音克隆,生成与目标人物相似的语音。
- 个性化角色生成:
- 在 WebUI 界面中,选择“个性化角色生成”选项,输入角色信息,系统会生成个性化的数字人角色。
- 实时对话:
- 选择 MuseTalk 模块,系统会开启实时对话功能,用户可以与数字人进行实时互动。