AI个人学习
和实操指南
豆包Marscode1

KrillinAI:一键翻译和配音的视频多语言全球化工具

综合介绍

KrillinAI 是一个开源的视频处理工具,专注于用人工智能帮助用户翻译视频并自动配音。它能从视频下载开始,一直到生成适配不同平台的成品,全程只需几次点击。开发者在 GitHub 上提供了免费代码,用户可以下载到本地运行。KrillinAI 使用大语言模型(LLM)技术,提供高质量的翻译和字幕生成,目前支持 56 种语言翻译,输入语言包括中文、英语、日语等。它还能调整视频格式,适配 YouTube、TikTok、抖音等平台,适合内容创作者快速制作多语言视频。

KrillinAI:一键翻译和配音的视频全球化工具-1


 

功能列表

  • 视频下载与上传:支持从 YouTube、抖音、Bilibili 下载视频,或上传本地文件。
  • 精准字幕生成:用 Whisper 技术识别语音,生成高准确度的字幕。
  • 智能字幕分割:通过大语言模型自然分割字幕,保持语义完整。
  • 专业翻译:整段翻译,确保上下文一致,接近人工水平。
  • 配音与声音克隆:提供 CosyVoice 的男女配音,或上传音频克隆声音。
  • 视频格式调整:自动生成横屏或竖屏视频,适配不同平台。
  • 术语替换:支持一键替换专业领域的词汇。

 

使用帮助

安装流程

KrillinAI 需要本地安装运行,以下是详细步骤:

  1. 下载文件
    • 打开 https://github.com/krillinai/KrillinAI。
    • 点击页面右上角的“Releases”,下载适合你系统的版本(如 Windows、macOS)。
    • 解压文件到一个空文件夹。
  2. 配置环境
    • 在文件夹内创建 config 文件夹。
    • 在 config 文件夹中新建 config.toml 文件。
    • 从 GitHub 的 config-example.toml 复制内容到 config.toml,然后填写配置。
    • 最简单配置:只用 OpenAI 服务,填入以下内容:
      [openai]
      apikey = "你的OpenAI API密钥"
      transcription_provider = "openai"
      llm_provider = "openai"
      
    • 如果需要代理或自定义模型,可添加 app.proxy 或 openai.base_url
  3. 运行程序
    • Windows:双击可执行文件启动。
    • macOS:因未签名,需手动信任:
      • 打开终端,进入文件目录。
      • 输入命令:
        sudo x'attr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
        sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
        ./KrillinAI_1.0.0_macOS_arm64
        
    • 启动后,服务运行在 http://127.0.0.1:8888(端口可改)。
  4. Docker 部署(可选)
    • 在 GitHub 的 docs/docker.md 查看详细步骤。
    • 安装 Docker,拉取镜像后运行。

操作主要功能

视频翻译与字幕生成

  • 步骤
    1. 启动服务后,浏览器访问 http://127.0.0.1:8888
    2. 输入视频链接(如 https://www.youtube.com/watch?v=xxx)或上传文件。
    3. 选择输入语言(如中文)和目标语言(如英语)。
    4. 点击“开始”,程序自动识别语音、生成字幕并翻译。
  • 结果:字幕文件保存在 tasks 文件夹。
  • 注意:若下载失败,需配置 cookies.txt,见 docs/get_cookies.md

配音功能

  • 步骤
    1. 字幕生成后,点击“配音”选项。
    2. 选择 CosyVoice 的男声或女声,或上传音频样本克隆声音。
    3. 点击“生成”,程序自动合成配音。
  • 结果:配音与视频合并,生成新文件。
  • 特色:支持跨语言配音,音轨与字幕精准对齐。

视频格式调整

  • 步骤
    1. 在生成视频时,选择“横屏”或“竖屏”。
    2. 点击“完成”,程序调整分辨率和字幕布局。
  • 结果:输出适配 YouTube(横屏)或 TikTok(竖屏)的视频。
  • 提示:字幕超长会自动换行,确保画面整洁。

特色功能操作

智能字幕分割

  • 程序用大语言模型分析语音,按语义分割字幕。比如,一段 10 秒对话,会根据句子完整性分成几段,而不是按固定时间切分。
  • 无需手动设置,处理时自动完成。

术语替换

  • 步骤
    1. 在 config.toml 添加替换规则,如:
      [custom_vocab]
      "AI" = "人工智能"
      "LLM" = "大语言模型"
      
    2. 重启程序,翻译时自动替换。
  • 用途:适合技术、教育等领域,确保术语准确。

声音克隆

  • 步骤
    1. 在配音界面上传 10-30 秒的音频样本。
    2. 选择“克隆声音”,程序生成相似音色。
  • 要求:若用阿里云服务,需配置 aliyun.oss,见 docs/aliyun.md

补充配置选项

  • 本地模型:设置 transcription_provider = "fasterwhisper",需填 local_model.faster_whisper,模型会自动下载(macOS 暂不支持)。
  • 阿里云服务:若用阿里云的大模型或配音,需配置 aliyun.bailian 或 aliyun.speech

 

应用场景

  1. 多语言内容创作
    • YouTube 博主想把中文视频翻译成英语和法语。KrillinAI 能快速生成字幕和配音,适配横屏格式。
  2. 短视频推广
    • 商家用抖音推广产品,KrillinAI 将视频转为竖屏并配上当地语言,提升吸引力。
  3. 教育资源分享
    • 教师把课程视频翻译成多语言,KrillinAI 提供精准字幕和配音,方便全球学生学习。

 

QA

  1. 为什么启动时提示缺少 API?
    • 需在 config.toml 中填入 OpenAI 的 apikey,去 OpenAI 官网获取。
  2. 支持哪些输入语言?
    • 当前支持中文、英语、日语、德语、土耳其语,更多语言开发中。
  3. 翻译和配音需要多久?
    • 处理 10 分钟视频约需 5-10 分钟,视网络和配置而定。
  4. 如何解决下载失败?
    • 配置 cookies.txt,参考 docs/get_cookies.md 导出浏览器 cookies。
未经允许不得转载:首席AI分享圈 » KrillinAI:一键翻译和配音的视频多语言全球化工具
zh_CN简体中文