AI个人学习
和实操指南

AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

综合介绍

AI no jimaku gumi(AI の字幕組)是一个强大的命令行视频字幕处理工具,专注于实现自动化的视频字幕提取、转录和翻译功能。该工具集成了先进的AI技术,包括 Whisper 语音识别模型和多种翻译后端(如DeepL、LLM等),能够高效处理视频音频内容并生成高质量的字幕文件。它支持多种语言之间的转换,包括英语、日语、中文、韩语等主流语言,并提供灵活的字幕输出选项。作为一个开源项目,它不仅提供了完整的源代码,还支持跨平台使用,可以在Linux、macOS等主流操作系统上运行。

 

功能列表

  • 自动从视频提取音频内容并识别语音
  • 支持多种字幕来源:音频识别、容器提取、OCR识别
  • 集成多个翻译后端:DeepL、LLM等
  • 支持多种主流语言之间的互译
  • 可配置的字幕输出格式(当前支持SRT格式)
  • 支持视频片段截取和处理
  • 提供调试模式:仅音频提取、仅转录、仅翻译等选项
  • 支持自定义AI模型路径和配置
  • 跨平台支持(Linux、macOS,Windows待支持)

 

使用帮助

1. 环境准备

Windows 系统筹备中...

 

Linux系统安装依赖:

  • Ubuntu用户:
apt-get install -y clang cmake make pkg-config libavcodec-dev libavdevice-dev libavfilter-dev libavformat-dev libavutil-dev libpostproc-dev libswresample-dev libswscale-dev
  • Fedora用户:
dnf install clang cmake ffmpeg-free-devel make pkgconf-pkg-config
  • Arch Linux用户:
pacman -S clang cmake ffmpeg make pkgconf

macOS系统安装依赖:

使用Homebrew包管理器:

brew install cmake ffmpeg

2. 安装步骤

  1. 克隆代码仓库:
git clone https://github.com/Inokinoki/ai-no-jimaku-gumi.git
cd ai-no-jimaku-gumi
  1. 编译项目:
cargo build
  1. 下载Whisper模型:
wget https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-tiny.bin

3. 基本使用

工具提供多个配置选项:

  • --input-video-path:指定输入视频文件路径(必需)
  • --source-language:源语言(默认:ja)
  • --target-language:目标语言(默认:en)
  • --ggml-model-path:AI模型路径(默认:ggml-tiny.bin)
  • --subtitle-output-path:字幕输出路径(默认:output.srt)

4. 翻译后端配置

DeepL翻译后端(默认):

  1. 设置环境变量:
export DEEPL_API_KEY=你的API密钥
export DEEPL_API_URL=https://api.deepl.com  # 付费API版本需要

LLM翻译后端:

  1. 设置环境变量:
export CUSTOM_API_KEY=sk-xxxxxxxxxxxxxxxxxxxxxxx
  1. 使用示例:
./target/debug/ainojimakugumi --input-video-path video.webm \
--translator-backend llm \
--llm-api-base https://your-api-endpoint.com/v1/ \
--llm-prompt 'translate this to English' \
--llm-model-name 'gpt-4o-mini' \
--ggml-model-path ggml-small.bin

5. 高级功能

  • 使用--start-time--end-time可以处理特定视频片段
  • --only-extract-audio:仅提取音频(调试用)
  • --only-transcript:仅生成原语言字幕
  • --only-translate:仅执行翻译功能
  • 支持多种字幕来源选择:audio(默认)、container、ocr

未经允许不得转载:首席AI分享圈 » AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文