LlamaEdge: самый быстрый способ запускать и настраивать LLM локально!

Общее введение

LlamaEdge - это проект с открытым исходным кодом, предназначенный для упрощения процесса запуска и тонкой настройки больших языковых моделей (LLM) на локальных или пограничных устройствах. Проект поддерживает семейство моделей Llama2 и предоставляет OpenAI-совместимые API-сервисы, которые позволяют пользователям легко создавать и запускать приложения для рассуждений на основе LLM. LlamaEdge использует технологические стеки Rust и Wasm, чтобы предоставить мощные альтернативы для рассуждений на основе ИИ. Пользователи могут быстро запустить модели с помощью простых операций командной строки, а также доработать и расширить их по мере необходимости.

 

Список функций

  • Запуск LLM локально: Поддержка запуска моделей серии Llama2 на локальных или пограничных устройствах.
  • Совместимые с OpenAI API-сервисы: Предоставляет совместимые с OpenAI API конечные точки сервисов, которые поддерживают чат, преобразование речи в текст, текст в речь, генерацию изображений и многое другое.
  • Поддержка кросс-платформы: Поддерживает широкий спектр устройств на базе CPU и GPU и обеспечивает кроссплатформенность приложений Wasm.
  • быстрый стартМодели могут быть быстро загружены и запущены с помощью простых операций командной строки.
  • Тонкая настройка и расширение: Пользователи могут изменять и расширять исходный код по мере необходимости для удовлетворения конкретных потребностей.
  • Документация и учебные пособия: Подробная официальная документация и учебные пособия помогут пользователям быстро освоиться.

 

Использование помощи

Процесс установки

  1. Установка WasmEdge: Для начала необходимо установить WasmEdge, что можно сделать с помощью следующей командной строки:
   curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash
  1. Скачать файлы модели LLM: В качестве примера возьмем модель Meta Llama 3.2 1B и загрузим ее с помощью следующей команды:
   curl -LO https://huggingface.co/second-state/Llama-3.2-1B-Instruct-GGUF/resolve/main/Llama-3.2-1B-Instruct-Q5_K_M.gguf
  1. Скачать приложение LlamaEdge CLI Chat App: Используйте следующую команду для загрузки кроссплатформенного приложения Wasm:
   curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-chat.wasm
  1. Запуск приложения для чата: Используйте следующую команду, чтобы пообщаться с LLM:
   wasmedge --dir .:. --nn-preload default:GGML:AUTO:Llama-3.2-1B-Instruct-Q5_K_M.gguf llama-chat.wasm -p llama-3-chat

Функции Поток операций

  1. Запуск службы API: Службу API можно запустить с помощью следующей команды:
   wasmedge --dir .:. --env API_KEY=your_api_key llama-api-server.wasm --model-name llama-3.2-1B --prompt-template llama-chat --reverse-prompt "[INST]" --ctx-size 32000
  1. Взаимодействие с LLM с помощью веб-интерфейса: После запуска службы API вы можете взаимодействовать с локальным LLM через веб-интерфейс.
  2. Создание пользовательских служб APIПри необходимости можно создавать пользовательские конечные точки API-служб, такие как преобразование речи в текст, текст в речь, генерация изображений и т. д.
  3. Тонкая настройка и расширение: Пользователи могут изменять конфигурационные файлы и параметры в исходном коде для выполнения конкретных функциональных требований.

 

LlamaEdge Быстрое выполнение дистилляции на ноутбуке DeepSeek-R1

DeepSeek-R1 - это мощная и универсальная модель искусственного интеллекта, которая бросает вызов таким признанным игрокам, как OpenAI, благодаря своим расширенным возможностям вывода, экономичности и доступности с открытым исходным кодом. Несмотря на некоторые ограничения, инновационный подход и высокая производительность делают ее бесценным инструментом для разработчиков, исследователей и компаний. Для тех, кто заинтересован в изучении ее возможностей, модель и ее lite-версия доступны на таких платформах, как Hugging Face и GitHub.

Обученная китайской командой, работающей на GPU, она отлично справляется с математикой, кодированием и даже довольно сложными рассуждениями. Самое интересное, что это "легкая" модель, то есть она меньше и эффективнее, чем гигантская модель, на которой она основана. Это важно, потому что делает ее более практичной для использования и создания.

LlamaEdge:本地运行和微调LLM的最快捷方式

В этой статье мы представим

  • Как запустить открытый исходный код на собственном устройстве DeepSeek моделирование
  • Как создавать API-сервисы, совместимые с OpenAI, с помощью новейших моделей DeepSeek

Мы будем использовать LlamaEdge (стек технологий Rust + Wasm) для разработки и развертывания приложений для этой модели. Не нужно устанавливать сложные пакеты Python или инструментальные цепочки C++! Узнайте, почему мы выбрали именно эту технологию.

 

Запустите модель DeepSeek-R1-Distill-Llama-8B на собственном оборудовании!

Шаг 1: Установите WasmEge с помощью следующей командной строки.

curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install_v2.sh | bash -s -- -v 0.14.1

Шаг 2: Загрузите квантованный файл модели DeepSeek-R1-Distill-Llama-8B-GGUF.

Это может занять некоторое время, поскольку размер модели составляет 5,73 ГБ.

curl -LO https://huggingface.co/second-state/DeepSeek-R1-Distill-Llama-8B-GGUF/resolve/main/DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf`

Шаг 3: Загрузите серверное приложение LlamaEdge API.

Это также кроссплатформенное, портативное приложение Wasm, которое работает на многих устройствах с CPU и GPU.

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm

Шаг 4: Загрузите пользовательский интерфейс чатбота

для взаимодействия с моделью DeepSeek-R1-Distill-Llama-8B в браузере.

curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
rm chatbot-ui.tar.gz

Затем запустите сервер LlamaEdge API, используя следующую командную модель поведения.

wasmedge --dir .:. --nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \
  llama-api-server.wasm \
  --prompt-template llama-3-chat \
  --ctx-size 8096

Затем откройте браузер и зайдите на сайт http://localhost:8080, чтобы начать общение! Или вы можете отправить запрос API к модели.

curl -X POST http://localhost:8080/v1/chat/completions \
  -H 'accept:application/json' \
  -H 'Content-Type: application/json' \
  -d '{"messages":[{"role":"system", "content": "You are a helpful assistant."}, {"role":"user", "content": "What is the capital of France?"}], "model": "DeepSeek-R1-Distill-Llama-8B"}'
  
{"id":"chatcmpl-68158f69-8577-4da2-a24b-ae8614f88fea","object":"chat.completion","created":1737533170,"model":"default","choices":[{"index":0,"message":{"content":"The capital of France is Paris.\n</think>\n\nThe capital of France is Paris.<|end▁of▁sentence|>","role":"assistant"},"finish_reason":"stop","logprobs":null}],"usage":{"prompt_tokens":34,"completion_tokens":18,"total_tokens":52}}

 

Создание OpenAI-совместимых API-сервисов для DeepSeek-R1-Distill-Llama-8B

LlamaEdge имеет небольшой вес и не требует запуска демона или процесса sudo. Его можно легко встроить в ваши собственные приложения! Благодаря поддержке чата и встраиванию моделей, LlamaEdge может стать альтернативой OpenAI API в приложениях на вашей локальной машине!

Далее мы покажем, как добавить новую функцию в DeepSeek-R1 модель и модель встраивания, чтобы запустить полноценный API-сервер. chat/completions ответить пением embeddings Конечные точки. В дополнение к шагам, описанным в предыдущем разделе, нам необходимо:

Шаг 5: Загрузите модель встраивания.

curl -LO https://huggingface.co/second-state/Nomic-embed-text-v1.5-Embedding-GGUF/resolve/main/nomic-embed-text-v1.5.f16.gguf

Затем мы можем запустить сервер LlamaEdge API с чатом и встраиваемыми моделями, используя следующую командную строку. Более подробные инструкции приведены в документации - Запуск службы LlamaEdge API.

wasmedge --dir .:. \
--nn-preload default:GGML:AUTO:DeepSeek-R1-Distill-Llama-8B-Q5_K_M.gguf \
--nn-preload embedding:GGML:AUTO:nomic-embed-text-v1.5.f16.gguf \
llama-api-server.wasm -p llama-3-chat,embedding \
--model-name DeepSeek-R1-Distill-Llama-8B,nomic-embed-text-v1.5.f16 \
--ctx-size 8192,8192 \
--batch-size 128,8192 \
--log-prompts --log-stat

 

Наконец, следуя этим инструкциям, вы можете интегрировать API-сервер LlamaEdge с другими фреймворками агентов в качестве замены OpenAI. В частности, замените API OpenAI следующими значениями в вашем приложении или конфигурации агента.

Возможность настройки(стоить
Базовый URL APIhttp://localhost:8080/v1
Название модели (большая модель)DeepSeek-R1-Distill-Llama-8B
Название модели (вставка текста)nomic-embed

Вот и все! Посетите репозиторий LlamaEdge и создайте своего первого ИИ-агента! Если вам это показалось интересным, пожалуйста, поставьте звезду в нашем репозитории здесь. Если у вас есть вопросы по работе с этой моделью, пожалуйста, зайдите в репозиторий, чтобы задать вопросы или заказать у нас демонстрацию, чтобы запустить свой собственный LLM на всех устройствах!

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...