AI no jimaku gumi：借助AI实现视频多语言字幕自动生成和翻译

62.2K 00

综合介绍

AI no jimaku gumi（AI の字幕組）是一个强大的命令行视频字幕处理工具，专注于实现自动化的视频字幕提取、转录和翻译功能。该工具集成了先进的AI技术，包括 Whisper 语音识别模型和多种翻译后端（如DeepL、LLM等），能够高效处理视频音频内容并生成高质量的字幕文件。它支持多种语言之间的转换，包括英语、日语、中文、韩语等主流语言，并提供灵活的字幕输出选项。作为一个开源项目，它不仅提供了完整的源代码，还支持跨平台使用，可以在Linux、macOS等主流操作系统上运行。

功能列表

自动从视频提取音频内容并识别语音
支持多种字幕来源：音频识别、容器提取、OCR识别
集成多个翻译后端：DeepL、LLM等
支持多种主流语言之间的互译
可配置的字幕输出格式（当前支持SRT格式）
支持视频片段截取和处理
提供调试模式：仅音频提取、仅转录、仅翻译等选项
支持自定义AI模型路径和配置
跨平台支持（Linux、macOS，Windows待支持）

使用帮助

1. 环境准备

Windows 系统筹备中...

Linux系统安装依赖：

Ubuntu用户：

apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev

Fedora用户：

dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config

Arch Linux用户：

pacman -S clang cmake ffmpeg make pkgconf

macOS系统安装依赖：

使用Homebrew包管理器：

brew install cmake ffmpeg

2. 安装步骤

克隆代码仓库：

git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi

编译项目：

cargo build

下载Whisper模型：

wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. 基本使用

工具提供多个配置选项：

--input-video-path：指定输入视频文件路径（必需）
--source-language：源语言（默认：ja）
--target-language：目标语言（默认：en）
--ggml-model-path：AI模型路径（默认：ggml-tiny.bin）
--subtitle-output-path：字幕输出路径（默认：output.srt）

4. 翻译后端配置

DeepL翻译后端（默认）：

设置环境变量：

export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM翻译后端：

设置环境变量：

export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx

使用示例：

./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin