はじめに
Infini-Megrezは、Infinigence AIによって開発されたエッジインテリジェンスソリューションであり、ハードウェアとソフトウェアの共同設計によって効率的なマルチモーダル理解と分析を実現することを目指している。このプロジェクトの中心はMegrez-3Bモデルであり、高精度と高速推論で画像、テキスト、音声の統合理解をサポートする。Megrez-3Bモデルは、多くの主流ベンチマークで優れた性能を発揮し、シーン理解や光学式文字認識(OCR)などのタスクに適している。このプロジェクトでは、開発者が様々なプラットフォームで簡単に適用できるように、完全なデプロイメントコードを提供している。
機能一覧
- 図形理解SigLip-400M を用いて画像マーカーを構築し、MME、MMVet、OCRBench などのベンチマークで良好な結果を得ています。
- 言語理解優れたテキスト理解力を維持し、C-EVALやMMLUなどのベンチマークテストでも好成績を収めています。
- 音声理解中国語と英語の音声入力、マルチラウンド対話、音声コマンド応答をサポートします。
- 高速推論ハードウェアとソフトウェアの協調設計により、最大300%の推論高速化を実現。
- 使いやすい古典的なLLaMAアーキテクチャを採用しているため、開発者はさまざまなプラットフォームに簡単に導入できます。
- リッチアプリケーション検索呼び出しのタイミングを自動的に決定し、より良いサマリー結果を提供するフルスタックのWeb検索ソリューションを提供します。
ヘルプの使用
設置プロセス
- クローン倉庫ターミナルで以下のコマンドを実行して、Infini-Megrezリポジトリをクローンする:
git clone https://github.com/infinigence/Infini-Megrez.git
- 依存関係のインストールプロジェクト・ディレクトリに移動し、必要な依存関係をインストールする:
cd Infini-Megrez
pip install -r requirements.txt
- ダウンロードモデルREADMEファイルのガイドラインに従って必要なモデルファイルをダウンロードし、指定されたディレクトリに配置します。
使用ガイドライン
- 図形理解::
- 指定したディレクトリに画像ファイルを置く。
- 画像理解スクリプトを実行する:
python image_understanding.py --input_dir ./画像
- 画像マーカーと分析結果の出力を表示します。
- 言語理解::
- テキストファイルを指定されたディレクトリに置く。
- 言語理解スクリプトの実行:
python text_understanding.py --input_dir ./テキスト
- テキスト分析と理解の結果を含む出力を表示します。
- 音声理解::
- 指定したディレクトリにオーディオファイルを配置する。
- 音声理解スクリプトを実行する:
バッシュ
python speech_understanding.py --input_dir ./audios
- 音声テキスト化された出力と分析結果を表示します。
注目機能 操作手順
- マルチモーダル理解::
- 画像ファイル、テキストファイル、オーディオファイルを対応するディレクトリに配置します。
- マルチモーダル理解スクリプトを実行する:
python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./オーディオ
- 画像、テキスト、音声の共同理解と分析を含む総合的な分析結果を表示します。
- ウェブサーチ・ソリューション::
- WebSearchモジュールを設定し、ネットワーク接続が機能していることを確認する。
- WebSearchスクリプトを実行します:
バッシュ
python websearch.py --query "クエリを入力"
- 検索結果とサマリーの表示 検索機能を呼び出す必要があるかどうかをシステムが自動的に判断し、最適化されたサマリー結果を提供します。
以上のステップを踏むことで、ユーザーはInfini-Megrezの機能を十分に理解し、使いこなすことができ、効率的なマルチモーダル理解と解析を実現することができる。