AIパーソナル・ラーニング
と実践的なガイダンス

ebook2audiobook: 電子書籍をオーディオブックに変換する、多言語サポートと音声クローンを持つオープンソースツール

はじめに

ebook2audiobookは、強力なオープンソースの電子書籍からオーディオブックツールです。複数の形式の電子書籍を、完全なチャプターマーカーとメタデータ付きのオーディオブックに変換することができます。このツールは、電子書籍フォーマットの変換にCalibreを使用し、高品質のテキスト読み上げにCoquiのXTTSv2とFairseqを使用し、中国語を含む1124の言語をサポートし、ボイスクローニングを提供します。このツールは、直感的なWeb GUIが付属しており、CPUとGPUの操作をサポートし、実行するためにわずか4GBのRAMを必要とする低リソース要件を持っています。個人使用でもバッチ変換でも、プロ級のオーディオブック作成が可能です。

ebook2audiobook: 電子書籍をオーディオブックに変換、多言語サポートとボイスクローニングを備えたオープンソースツール-1

オンライン経験:https://huggingface.co/spaces/drewThomasson/ebook2audiobook


 

ebook2audiobook: 電子書籍をオーディオブックに変換、多言語サポートとボイスクローニングを備えたオープンソースツール-1

 

機能一覧

  • epub、pdf、mobiと20以上のフォーマットを含む様々な電子書籍フォーマットの変換をサポートしています。
  • 電子書籍のチャプター構造を自動認識・保持
  • 先進のXTTSv2エンジンによる高品質音声合成
  • 1124言語の音声合成をサポート
  • 声のクローニング機能を提供して下さい、読書の声をカスタマイズできます
  • 完全なチャプター情報とメタデータを含むm4bフォーマットを出力
  • ウェブグラフィカルインターフェースを提供し、シンプルで直感的な操作
  • Dockerコンテナのデプロイをサポートし、クロスプラットフォームの互換性を確保します。
  • オプションのGPUアクセラレーションによる処理速度の向上
  • バッチ変換機能をサポートする

 

ヘルプの使用

グーグルコラボは無料

1.設置方法

1.1 Dockerを使う(推奨)

Dockerは最も簡単なインストール方法で、均一で安定した実行環境を保証する。

CPUバージョン実行コマンド:

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

GPUバージョンのrunコマンド(NVIDIAグラフィックカードが必要):

docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

1.2 ローカル・インストール

  1. コードリポジトリをクローンする:
git clone https://github.com/DrewThomasson/ebook2audiobook.git
  1. 依存関係をインストールします:
  • Python 3.x
  • キャリバー(電子書籍変換ツール)
  • FFmpeg(オーディオ処理ツール)
  • Python パッケージ: tts, pydub, nltk, beautifulsoup4, ebooklib, tqdm

2.使用方法

2.1 グラフィカル・インターフェースの使用

  1. プログラム起動後、ブラウザでhttp://localhost:7860。
  2. ウェブインターフェースでeBookファイルをアップロードする
  3. ターゲット言語とサウンドファイルの選択(オプション)
  4. クリックして変換を開始する

2.2 コマンドラインの使い方

基本的なコマンドの形式:

python app.py --headless --book  --language  -voice <サウンドファイルのパス

3.重要なパラメータの説明

  • --ebook: 電子書籍ファイルのパス (必須)
  • --language: 対象言語コード (オプション、デフォルトは英語)
  • --voice: 音声ファイルのパス(オプション、音声クローン用)
  • --device: CPUとGPUのどちらを使うかを選択する。
  • -speed:音声スピード調整(デフォルト1.0)

4.対応ファイル形式

入力フォーマット:

  • epub(推奨、ベストサポート)
  • pdf
  • モビ
  • テキスト
  • その他のフォーマット:html、rtf、chm、lit、pdb、fb2、odtなど。

出力フォーマット:

  • m4b(チャプターマーカーとメタデータを含むオーディオフォーマット)

5.高度な機能

5.1 スピーチクローニング

  1. 16khzまたは24khzのターゲットサウンドサンプルファイルを用意する
  2. 変換時にサウンドファイルのパスを指定する
  3. ターゲットボイスで読み上げます。

5.2 一括変換

  1. input-folderディレクトリを作成し、そこにeBookファイルを置く。
  2. オーディオブック出力ディレクトリの作成
  3. バッチ変換コマンドによる複数ファイルの処理

6.一般的な問題の解決

  1. CPUの変換速度が遅い
  • 解決策:GPUアクセラレーションを使用するか、クラウドサービスを利用する。
  • 推奨:ハギング・フェイス・スペースまたはGoogle Colabの利用
  1. インストールに依存する問題
  • 依存性の問題を回避するための推奨Dockerバージョン
  • システムの互換性と依存バージョンをチェックする
  1. 音声トランケーションの問題
  • 入力テキストの書式をチェックする
  • テキスト分割パラメータの調整
  • サポート向上のため、特定の言語問題を報告する
無断転載を禁じます:チーフAIシェアリングサークル " ebook2audiobook: 電子書籍をオーディオブックに変換する、多言語サポートと音声クローンを持つオープンソースツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語