llama.cpp : outil d'inférence efficace, supporte plusieurs matériels, facile à implémenter l'inférence LLM

Dernières ressources sur l'IAMise à jour il y a 7 mois Cercle de partage de l'IA

22.4K 00

Introduction générale

llama.cpp est une bibliothèque implémentée en C/C++ pur, conçue pour simplifier le processus d'inférence pour les grands modèles de langage (LLM). Elle prend en charge une large gamme de plates-formes matérielles, y compris Apple Silicon, NVIDIA GPU et AMD GPU, et fournit plusieurs options de quantification pour augmenter la vitesse d'inférence et réduire l'utilisation de la mémoire. L'objectif du projet est de parvenir à une inférence LLM de haute performance avec une configuration minimale pour les environnements locaux et en nuage.

Liste des fonctions

Prise en charge de plusieurs plates-formes matérielles, y compris Apple Silicon, les GPU NVIDIA et les GPU AMD
Options de quantification des entiers de 1,5 à 8 bits
Prise en charge de plusieurs modèles LLM tels que LLaMA, Mistral, Falcon, etc.
Fournir une interface API REST pour faciliter l'intégration
Prise en charge du raisonnement mixte CPU+GPU
Fournir plusieurs langages de programmation, tels que Python, Go, Node.js, etc.
Fournir une variété d'outils et de supports d'infrastructure, tels que des outils de transformation de modèles, des équilibreurs de charge, etc.

Utiliser l'aide

Processus d'installation

Entrepôt de clonage :

   git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp

Compiler le projet :

   make

Lignes directrices pour l'utilisation

transformation du modèle

llama.cpp fournit une variété d'outils pour convertir et quantifier les modèles afin qu'ils fonctionnent efficacement sur différents matériels. Par exemple, le modèle Hugging Face peut être converti au format GGML à l'aide de la commande suivante :

python3 convert_hf_to_gguf.py --model <model_name>

Exemple de raisonnement

Après la compilation, vous pouvez utiliser les commandes suivantes pour l'inférence :

./llama-cli -m models/llama-13b-v2/ggml-model-q4_0.gguf -p "你好，世界！"

Utilisation de l'API REST

llama.cpp fournit également un serveur HTTP compatible avec l'API OpenAI qui peut être utilisé pour les services d'inférence de modèles locaux. Démarrez le serveur :

./llama-server -m models/llama-13b-v2/ggml-model-q4_0.gguf --port 8080

L'interface Web de base est alors accessible via un navigateur ou en utilisant l'API pour les demandes d'inférence :

curl -X POST http://localhost:8080/v1/chat -d '{"prompt": "你好，世界！"}'

Fonction détaillée du déroulement des opérations

Chargement du modèlePour ce faire, vous devez d'abord télécharger le fichier du modèle et le placer dans le répertoire spécifié, puis charger le modèle à l'aide de l'outil de ligne de commande.
Configuration du raisonnementLes paramètres pertinents pour l'inférence, tels que la longueur du contexte, la taille du lot, etc., peuvent être définis via des fichiers de configuration ou des paramètres de ligne de commande.
Intégration de l'APIL'interface API REST permet d'intégrer llama.cpp dans des applications existantes afin de mettre en place des services de raisonnement automatisés.
l'optimisation des performancesLes résultats de l'étude sont les suivants : l'utilisation des options de quantification et des fonctions d'accélération matérielle peut améliorer de manière significative la vitesse et l'efficacité de l'inférence.

Dernières ressources sur l'IA # Outil de grand modèle à source ouverte déployé localement

Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.

Articles connexes

Changeur de voix : Un changeur de voix en temps réel pour faire chanter vos personnages d'anime préférés !

Il y a 11 mois

020.7K

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

Dernières ressources sur l'IA # AI Page Design

Il y a 6 mois

019.7K

AI Chatbot : Vercel construit et déploie des chatbots intelligents

Dernières ressources sur l'IA # AI Java Open Source Projecct # AI Localised Chat Application

Il y a 10 mois

020.1K

GPT Mobile：适用于Android 的多模型聊天助手，一次与多个LLMs对话

GPT Mobile : Assistant de chat multi-modèle pour Android, parlez à plusieurs LLM en même temps !

Dernières ressources sur l'IA # AI Localised Chat Application

Il y a 11 mois

021K

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !

S'inscrire maintenant

Pas de commentaires...

llama.cpp : outil d'inférence efficace, supporte plusieurs matériels, facile à implémenter l'inférence LLM

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

transformation du modèle

Exemple de raisonnement

Utilisation de l'API REST

Fonction détaillée du déroulement des opérations

Jan : Assistant IA hors ligne open source, remplacement de ChatGPT, exécution de modèles d'IA locaux ou connexion à l'IA en nuage

Interface web de génération de texte : interface de chat basée sur un grand modèle de langage Gradio avec prise en charge de plusieurs services dorsaux.

Articles connexes

Changeur de voix : Un changeur de voix en temps réel pour faire chanter vos personnages d'anime préférés !

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

AI Chatbot : Vercel construit et déploie des chatbots intelligents

GPT Mobile : Assistant de chat multi-modèle pour Android, parlez à plusieurs LLM en même temps !

Pas de commentaires

Dernières collections

Derniers articles

llama.cpp : outil d'inférence efficace, supporte plusieurs matériels, facile à implémenter l'inférence LLM

Introduction générale

Liste des fonctions

Utiliser l'aide

Processus d'installation

Lignes directrices pour l'utilisation

transformation du modèle

Exemple de raisonnement

Utilisation de l'API REST

Fonction détaillée du déroulement des opérations

Jan : Assistant IA hors ligne open source, remplacement de ChatGPT, exécution de modèles d'IA locaux ou connexion à l'IA en nuage

Interface web de génération de texte : interface de chat basée sur un grand modèle de langage Gradio avec prise en charge de plusieurs services dorsaux.

Articles connexes

Changeur de voix : Un changeur de voix en temps réel pour faire chanter vos personnages d'anime préférés !

Idem : Cloner l'interface utilisateur d'un site web pour générer un code front-end de qualité production

AI Chatbot : Vercel construit et déploie des chatbots intelligents

GPT Mobile : Assistant de chat multi-modèle pour Android, parlez à plusieurs LLM en même temps !

Pas de commentaires

Outils d'IA sélectionnés

Dernières collections

Derniers articles