综合介绍
AI no jimaku gumi(AI の字幕組)是一个强大的命令行视频字幕处理工具,专注于实现自动化的视频字幕提取、转录和翻译功能。该工具集成了先进的AI技术,包括 Whisper 语音识别模型和多种翻译后端(如DeepL、LLM等),能够高效处理视频音频内容并生成高质量的字幕文件。它支持多种语言之间的转换,包括英语、日语、中文、韩语等主流语言,并提供灵活的字幕输出选项。作为一个开源项目,它不仅提供了完整的源代码,还支持跨平台使用,可以在Linux、macOS等主流操作系统上运行。
功能列表
- 自动从视频提取音频内容并识别语音
- 支持多种字幕来源:音频识别、容器提取、OCR识别
- 集成多个翻译后端:DeepL、LLM等
- 支持多种主流语言之间的互译
- 可配置的字幕输出格式(当前支持SRT格式)
- 支持视频片段截取和处理
- 提供调试模式:仅音频提取、仅转录、仅翻译等选项
- 支持自定义AI模型路径和配置
- 跨平台支持(Linux、macOS,Windows待支持)
使用帮助
1. 环境准备
Windows 系统筹备中...
Linux系统安装依赖:
- Ubuntu用户:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
- Fedora用户:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
- Arch Linux用户:
pacman -S clang cmake ffmpeg make pkgconf
macOS系统安装依赖:
使用Homebrew包管理器:
brew install cmake ffmpeg
2. 安装步骤
- 克隆代码仓库:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
- 编译项目:
cargo build
- 下载Whisper模型:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin
3. 基本使用
工具提供多个配置选项:
--input-video-path
:指定输入视频文件路径(必需)--source-language
:源语言(默认:ja)--target-language
:目标语言(默认:en)--ggml-model-path
:AI模型路径(默认:ggml-tiny.bin)--subtitle-output-path
:字幕输出路径(默认:output.srt)
4. 翻译后端配置
DeepL翻译后端(默认):
- 设置环境变量:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com # 付费API版本需要
LLM翻译后端:
- 设置环境变量:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
- 使用示例:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin
5. 高级功能
- 使用
--start-time
和--end-time
可以处理特定视频片段 --only-extract-audio
:仅提取音频(调试用)--only-transcript
:仅生成原语言字幕--only-translate
:仅执行翻译功能- 支持多种字幕来源选择:audio(默认)、container、ocr