Linly-Talker：数字人智能对话系统，结合大语言模型与视觉模型，实现互动新体验

90.2K 00

综合介绍

Linly-Talker 是一个创新的数字人对话系统，结合了大语言模型（LLMs）与视觉模型，创造出一种新颖的人机互动方式。该系统集成了多种技术，如 Whisper、Linly、Microsoft Speech Services 和 SadTalker 生成系统，旨在提供逼真的数字人对话体验。Linly-Talker 支持用户上传图像进行对话，并通过多轮对话系统增强互动性和现实感。该项目由 Kedreamix 开发，并在 GitHub 上开源，供开发者和研究人员使用和改进。

Linly-Talker：数字人智能对话系统，结合大语言模型与视觉模型，实现互动新体验

功能列表

多轮对话系统：支持上下文关联的多轮对话，增强互动性和现实感。
图像上传对话：用户可以上传图像，与数字人进行对话。
语音合成与识别：集成 Microsoft TTS 和 FunASR，提供多种语音类型和快速语音识别。
视频字幕生成：支持视频字幕生成，增强视觉效果。
语音克隆：通过 GPT-SoVITS 模型，使用一分钟的语音数据即可克隆声音。
个性化角色生成：支持个性化角色生成，提供多种模型和选项。
实时对话：集成 MuseTalk，实现基本的实时对话功能。

使用帮助

安装流程

克隆项目：在终端中运行以下命令克隆项目：

   git clone https://github.com/Kedreamix/Linly-Talker.git

安装依赖：进入项目目录并安装所需依赖：

   cd Linly-Talker
pip install -r requirements_app.txt
pip install -r requirements_webui.txt

配置环境：根据需要配置环境变量和证书，确保系统正常运行。

使用指南

启动 WebUI：运行以下命令启动 WebUI：

   python webui.py

打开浏览器访问 http://localhost:7860，即可进入 Linly-Talker 的 Web 界面。

上传图像进行对话：
- 在 WebUI 界面中，点击“上传图像”按钮，选择要上传的图像文件。
- 图像上传后，系统会自动生成对话内容，用户可以与数字人进行互动。
语音合成与识别：
- 在对话框中输入文本，选择语音类型，点击“生成语音”按钮，系统会合成语音并播放。
- 用户也可以通过麦克风输入语音，系统会自动识别并生成文本。
视频字幕生成：
- 上传视频文件，系统会自动生成字幕并嵌入视频中，用户可以下载带字幕的视频文件。
语音克隆：
- 上传目标人物的语音样本，系统会使用 GPT-SoVITS 模型进行语音克隆，生成与目标人物相似的语音。
个性化角色生成：
- 在 WebUI 界面中，选择“个性化角色生成”选项，输入角色信息，系统会生成个性化的数字人角色。
实时对话：
- 选择 MuseTalk 模块，系统会开启实时对话功能，用户可以与数字人进行实时互动。