LlamaEdge : le moyen le plus rapide d'exécuter et d'affiner LLM localement !
Introduction générale
LlamaEdge est un projet open source conçu pour simplifier le processus d'exécution et d'ajustement des grands modèles de langage (LLM) sur les appareils locaux ou périphériques. Le projet prend en charge la famille de modèles Llama2 et fournit des services API compatibles avec OpenAI qui permettent aux utilisateurs de créer et d'exécuter facilement des applications de raisonnement LLM. LlamaEdge s'appuie sur les piles technologiques Rust et Wasm pour fournir des alternatives puissantes pour le raisonnement IA. Les utilisateurs peuvent rapidement mettre en place des modèles et les faire fonctionner à l'aide de simples opérations en ligne de commande, puis les affiner et les étendre en fonction des besoins.
Liste des fonctions
- Exécution locale de LLMSupport pour l'exécution des modèles de la série Llama2 sur des dispositifs locaux ou périphériques.
- Services API compatibles avec OpenAILe site de l'API OpenAI : fournit des points d'extrémité de services compatibles avec l'API OpenAI qui prennent en charge le chat, la synthèse vocale, la synthèse vocale, la génération d'images et bien plus encore.
- Support multiplateformeLa solution Wasm : elle prend en charge une large gamme d'appareils CPU et GPU et fournit des applications Wasm multiplateformes.
- démarrage rapideLes modèles peuvent être rapidement téléchargés et exécutés par de simples opérations de ligne de commande.
- Affinage et expansionLes utilisateurs peuvent modifier et étendre le code source en fonction de leurs besoins spécifiques.
- Documentation et tutorielsLes utilisateurs peuvent se servir de la documentation officielle détaillée et des didacticiels pour se familiariser rapidement avec l'outil.
Utiliser l'aide
Processus d'installation
- Installer WasmEdgePour cela, il faut d'abord installer WasmEdge, ce qui peut être fait via la ligne de commande suivante :
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash
- Télécharger les fichiers du modèle LLMPour ce faire, vous pouvez télécharger le modèle Meta Llama 3.2 1B à l'aide de la commande suivante :
curl -LO https://huggingface.co/second-state/Llama-3.2-1B-Instruct-GGUF/resolve/main/Llama-3.2-1B-Instruct-Q5_K_M.gguf
- Télécharger l'application LlamaEdge CLI ChatTélécharger l'application Wasm : Utilisez la commande suivante pour télécharger l'application multiplateforme Wasm :
curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-chat.wasm
- Exécution de l'application de chatLe chat : Utilisez la commande suivante pour dialoguer avec LLM :
wasmedge --dir .:. --nn-preload default:GGML:AUTO:Llama-3.2-1B-Instruct-Q5_K_M.gguf llama-chat.wasm -p llama-3-chat
Fonction Opération Déroulement
- Démarrer le service APILe service API peut être démarré à l'aide de la commande suivante :
wasmedge --dir .:. --env API_KEY=your_api_key llama-api-server.wasm --model-name llama-3.2-1B --prompt-template llama-chat --reverse-prompt "[INST]" --ctx-size 32000
- Interagir avec le LLM à l'aide de l'interface webAprès avoir démarré le service API, vous pouvez interagir avec le LLM local par l'intermédiaire de l'interface web.
- Créer des services API personnalisésLes points d'extrémité des services API personnalisés peuvent être créés selon les besoins, tels que la synthèse vocale, la synthèse vocale, la génération d'images, etc.
- Affinage et expansionLes utilisateurs peuvent modifier les fichiers de configuration et les paramètres dans le code source pour répondre à des exigences fonctionnelles spécifiques.
LlamaEdge Distillation rapide sur un ordinateur portable DeepSeek-R1
DeepSeek-R1 est un modèle d'IA puissant et polyvalent qui défie les acteurs établis tels qu'OpenAI grâce à ses capacités d'inférence avancées, sa rentabilité et sa disponibilité en open source. Bien qu'il présente certaines limites, son approche innovante et ses performances solides en font un outil inestimable pour les développeurs, les chercheurs et les entreprises. Pour ceux qui souhaitent explorer ses capacités, le modèle et sa version allégée sont disponibles sur des plateformes telles que Hugging Face et GitHub.
Entraîné par une équipe chinoise limitée par les GPU, il excelle en mathématiques, en codage et même dans des raisonnements assez complexes. Plus intéressant encore, il s'agit d'un modèle "allégé", ce qui signifie qu'il est plus petit et plus efficace que le modèle géant sur lequel il est basé. C'est important, car cela rend son utilisation et sa construction plus pratiques.

Dans cet article, nous présenterons
- Comment faire fonctionner un logiciel libre sur votre propre appareil DeepSeek modélisation
- Comment créer des services API compatibles avec OpenAI avec les derniers modèles DeepSeek
Nous utiliserons LlamaEdge (pile technologique Rust + Wasm) pour développer et déployer des applications pour ce modèle. Pas besoin d'installer des paquets Python complexes ou des chaînes d'outils C++ ! Découvrez pourquoi nous avons choisi cette technologie.
Exécutez le modèle DeepSeek-R1-Distill-Llama-8B sur votre propre équipement !
Etape 1 : Installer WasmEge via la ligne de commande suivante.
curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.14.1
Étape 2 : Télécharger le fichier modèle quantifié DeepSeek-R1-Distill-Llama-8B-GGUF.
Cette opération peut prendre un certain temps car le modèle pèse 5,73 Go.
curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf`
Étape 3 : Télécharger l'application serveur LlamaEdge API.
Il s'agit également d'une application Wasm portable et multiplateforme qui fonctionne sur de nombreux périphériques CPU et GPU.
curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm
Étape 4 : Télécharger l'interface utilisateur du chatbot
pour interagir avec le modèle DeepSeek-R1-Distill-Llama-8B dans un navigateur.
curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz tar xzf chatbot-ui.tar.gz rm chatbot-ui.tar.gz
Ensuite, démarrez le serveur API LlamaEdge en utilisant le modèle de comportement de la commande suivante.
wasmedge --dir .:. --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \ llama-api-server.wasm \ --prompt-template llama-3-chat \ --ctx-size 8096
Ensuite, ouvrez votre navigateur et visitez http://localhost:8080 pour commencer à chatter ! Vous pouvez également envoyer une demande API au modèle.
curl -X POST http://localhost:8080/v1/chat/completions \ -H 'accept:application/json' \ -H 'Content-Type: application/json' \ -d '{"messages":[{"role":"system", "content": "You are a helpful assistant."}, {"role":"user", "content": "What is the capital of France?"}], "model": "DeepSeek-R1-Distill-Llama-8B"}' {"id":"chatcmpl-68158f69-8577-4da2-a24b-ae8614f88fea","object":"chat.completion","created":1737533170,"model":"default","choices":[{"index":0,"message":{"content":"The capital of France is Paris.\n</think>\n\nThe capital of France is Paris.<|end▁of▁sentence|>","role":"assistant"},"finish_reason":"stop","logprobs":null}],"usage":{"prompt_tokens":34,"completion_tokens":18,"total_tokens":52}}
Création de services API compatibles avec OpenAI pour DeepSeek-R1-Distill-Llama-8B
LlamaEdge est léger et ne nécessite aucun daemon ou processus sudo pour fonctionner. Il peut être facilement intégré dans vos propres applications ! Avec le support du chat et des modèles d'intégration, LlamaEdge peut être une alternative à l'API OpenAI au sein d'applications sur votre machine locale !
Ensuite, nous montrerons comment ajouter une nouvelle fonction à l'élément Profondeur de l'eau-R1 et le modèle d'intégration pour démarrer le serveur d'API complet. Le serveur d'API aura le modèle chat/completions
répondre en chantant embeddings
Points finaux. En plus des étapes de la section précédente, nous devons :
Étape 5 : Télécharger le modèle d'intégration.
curl -LO https://huggingface.co/second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf
Nous pouvons alors démarrer le serveur LlamaEdge API avec les modèles de chat et d'intégration à l'aide de la ligne de commande suivante. Pour des instructions plus détaillées, voir la documentation - Starting the LlamaEdge API Service.
wasmedge --dir .:. \ --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \ --nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf \ llama-api-server.wasm -p llama-3-chat,embedding \ --model-name DeepSeek-R1-Distill-Llama-8B,nomic-embed-text-v1.5.f16 \ --ctx-size 8192,8192 \ --batch-size 128,8192 \ --log-prompts --log-stat
Enfin, vous pouvez suivre ces tutoriels pour intégrer le serveur API LlamaEdge avec d'autres frameworks d'agents en remplacement d'OpenAI. Plus précisément, remplacez l'API OpenAI par les valeurs suivantes dans votre application ou dans la configuration de l'agent.
Option de configuration | (valoir) |
---|---|
URL de l'API de base | http://localhost:8080/v1 |
Nom du modèle (grand modèle) | DeepSeek-R1-Distill-Llama-8B |
Nom du modèle (texte intégré) | nomic-embed |
Voilà, c'est fait ! Visitez le dépôt LlamaEdge maintenant et construisez votre premier agent d'IA ! Si vous trouvez cela intéressant, s'il vous plaît star notre dépôt ici. Si vous avez des questions sur l'exécution de ce modèle, veuillez également vous rendre sur le dépôt pour poser des questions ou réserver une démo avec nous pour exécuter votre propre LLM à travers les appareils !
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...