AIパーソナル・ラーニング
と実践的なガイダンス

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

はじめに

LlamaEdgeは、ローカルデバイスやエッジデバイス上での大規模言語モデル(LLM)の実行と微調整のプロセスを簡素化するために設計されたオープンソースプロジェクトです。LlamaEdgeはRustとWasmの技術スタックを活用し、AI推論のための強力な代替手段を提供します。LlamaEdgeは、RustとWasmの技術スタックを活用し、AI推論のための強力な代替手段を提供します。ユーザーは、簡単なコマンドライン操作で素早くモデルを立ち上げ、必要に応じて微調整や拡張を行うことができます。

 

機能一覧

  • LLMをローカルで実行するLlama2シリーズをローカルデバイスやエッジデバイスで動作させることができます。
  • OpenAI対応APIサービスチャット、音声読み上げ、テキスト読み上げ、画像生成などをサポートするOpenAI API互換のサービスエンドポイントを提供します。
  • クロスプラットフォーム対応幅広いCPUとGPUデバイスをサポートし、クロスプラットフォームのWasmアプリケーションを提供します。
  • クイックスタートモデルは、簡単なコマンドライン操作で素早くダウンロードし、実行することができます。
  • 微調整と拡大ユーザーは、特定のニーズを満たすために、必要に応じてソースコードを変更および拡張することができます。
  • ドキュメンテーションとチュートリアル詳細な公式ドキュメントとチュートリアルが用意されているので、すぐに使い始めることができます。

 

ヘルプの使用

設置プロセス

  1. ワスムエッジの設置まず、WasmEdgeをインストールする必要がありますが、これは以下のコマンドラインで実行できます:
   curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash
  1. LLMモデルファイルのダウンロードMeta Llama 3.2 1Bモデルを例にとって、次のコマンドでダウンロードしてください:
   curl -LO https://huggingface.co/second-state/Llama-3.2-1B-Instruct-GGUF/resolve/main/Llama-3.2-1B-Instruct-Q5_K_M.gguf
  1. LlamaEdge CLIチャットアプリのダウンロードクロスプラットフォームのWasmアプリケーションをダウンロードするには、次のコマンドを使用します:
   curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-chat.wasm
  1. チャットアプリケーションの実行LLMとチャットするには以下のコマンドを使ってください:
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Llama-3.2-1B-Instruct-Q5_K_M.gguf llama-chat.wasm -p llama-3-chat

機能 操作の流れ

  1. APIサービスの開始APIサービスは以下のコマンドで起動できる:
   wasmedge --dir .:. --env API_KEY=your_api_key llama-api-server.wasmedge ---model-name llama-3.2-1B --prompt-template llama-chat --reverse-prompt "[INST]" --ctx-サイズ 32000
  1. ウェブインターフェースを使ったLLMとの対話APIサービスを開始すると、ウェブ・インターフェイスを通じてローカルLLMと対話することができます。
  2. カスタムAPIサービスの作成音声合成、テキスト読み上げ、画像生成など、必要に応じてカスタムAPIサービスのエンドポイントを作成できます。
  3. 微調整と拡大ユーザーは、特定の機能要件を満たすために、ソースコード内の設定ファイルやパラメータを変更することができます。

 

LlamaEdge ラップトップで蒸留を高速実行 DeepSeek-R1

DeepSeek-R1は、その高度な推論能力、費用対効果、オープンソースでの利用可能性により、OpenAIのような既存のプレイヤーに挑戦する強力で汎用性の高いAIモデルです。いくつかの制限はあるものの、その革新的なアプローチと堅牢な性能により、開発者、研究者、企業にとって貴重なツールとなっている。その能力を探求することに興味がある人のために、モデルとそのライトバージョンは、Hugging FaceやGitHubなどのプラットフォームで利用可能です。


GPUに制約のある中国のチームによって訓練されたこのモデルは、数学、コーディング、そしてかなり複雑な推論に優れている。最も興味深いのは、これが「ライト」モデルであることで、ベースとなっている巨大なモデルよりも小型で効率的だということだ。これは、人々が実際に使用し、構築することをより現実的なものにするため、重要なことである。

LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法-1

この記事では

  • 自分のデバイスでオープンソースを実行する方法 ディープシーク モデリング
  • 最新のDeepSeekモデルを使用してOpenAI互換のAPIサービスを作成する方法

私たちはLlamaEdge(Rust + Wasmテクノロジースタック)を使って、このモデルのアプリケーションを開発し、デプロイします。複雑なPythonパッケージやC++ツールチェーンをインストールする必要はありません!私たちがこのテクノロジーを選んだ理由をご覧ください。

 

DeepSeek-R1-Distill-Llama-8Bモデルをご自身の装置で実行してください!

ステップ1:以下のコマンドラインでWasmEgeをインストールする。

curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.14.1

ステップ 2: 定量化された DeepSeek-R1-Distill-Llama-8B-GGUF モデル・ファイルをダウンロードします。

モデルのサイズが5.73GBなので、時間がかかるかもしれない。

curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf`

ステップ3: LlamaEdge APIサーバーアプリケーションをダウンロードします。

また、多くのCPUやGPUデバイスで動作する、クロスプラットフォームでポータブルなWasmアプリケーションでもある。

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm

ステップ4:チャットボットUIのダウンロード

を使用して、ブラウザでDeepSeek-R1-Distill-Llama-8Bモデルと対話します。

curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
rm chatbot-ui.tar.gz

次に、以下のコマンド動作モデルを使用して LlamaEdge API サーバーを起動します。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)
  を実行します。
  --プロンプトテンプレート llama-3-chat
  --ctx-size 8096

その後、ブラウザを開き、http://localhost:8080、チャットを開始する!または、モデルにAPIリクエストを送ることもできます。

curl -X POST http://localhost:8080/v1/chat/completions ˶ˆ꒳ˆ˵
  -H 'accept:application/json' ୧-͈ᴗ-͈)
  -H 'Content-Type: application/json'  \
  -d '{"messages":[{"role": "system", "content": "You are a helpful assistant." }, {"role": "user", "content": "What is the capital of France?" }], "model": "DeepSeek-R1-Distill-Llama-8B"}'.

{"id": "chatcmpl-68158f69-8577-4da2-a24b-ae8614f88fea", "object": "chat.completion", "created": "1737533170", "model": "default", "choices".[index": 0, "message": {"content": "フランスの首都はパリです。assistant"}, "finish_reason": "stop", "logprobs": null}], "usage": {"prompt_tokens":34, "completion_tokens":18, "total_tokens":52}}.

 

DeepSeek-R1-Distill-Llama-8B用のOpenAI互換APIサービスの作成

LlamaEdgeは軽量で、実行にデーモンやsudoプロセスを必要としません。独自のアプリケーションに簡単に組み込むことができる!チャットや埋め込みモデルのサポートにより、LlamaEdgeはあなたのローカルマシン上のアプリケーション内でOpenAI APIの代替となることができます!

次に、新しい関数を ディープシーク-R1 モデルとエンベッディング・モデルを使用して、完全なAPIサーバーを起動します。 チャット/コンプリーション 歌で応える 埋め込み エンドポイント。前節のステップに加え、次のことが必要である:

ステップ5:埋め込みモデルをダウンロードする。

curl -LO https://huggingface.co/second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf

以下のコマンドラインを使用して、チャットと埋め込みモデルを持つLlamaEdge APIサーバーを起動することができます。より詳細な手順については、ドキュメント - LlamaEdge APIサービスの起動を参照してください。

wasmedge --dir .:. \
--nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf  \
--nn-preload embedded:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf
llama-api-server.wasm-p-llama-3-chat,embedding(エンベッディング)
--model-name DeepSeek-R1-Distill-Llama-8B,nomic-embed-text-v1.5.f16(英語) ୧-͈ᴗ-͈)
--バッチサイズ 128,8192
---バッチサイズ 128,8192
--log-prompts --log-stat

 

最後に、これらのチュートリアルに従って、LlamaEdge APIサーバをOpenAIの代替として他のAgentフレームワークと統合することができます。具体的には、アプリケーションまたはAgentの設定で、OpenAI APIを以下の値で置き換えてください。

設定オプション (価値がある
ベースAPI URL http://localhost:8080/v1
モデル名(大型モデル) ディープシーク-R1-ディスティル-ラマ-8B
モデル名(テキスト埋め込み) ノミックエンベッド

以上です!今すぐLlamaEdgeリポジトリにアクセスし、あなたの最初のAIエージェントを構築してください!もし面白いと思ったら、こちらのリポジトリにスターを付けてください。このモデルの実行について質問がある場合は、レポにアクセスして質問するか、私たちにデモを予約して、デバイス間で独自のLLMを実行してください!

無断転載を禁じます:チーフAIシェアリングサークル " LlamaEdge:LLMをローカルで実行し、微調整する最も迅速な方法!

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語