Petals: распределенный совместный запуск на GPU и тонкая настройка больших языковых моделей, совместное использование ресурсов GPU подобно сети BitTorrent
Общее введение
Petals - это проект с открытым исходным кодом, разработанный BigScience Workshop для запуска больших языковых моделей (LLM) с помощью распределенных вычислений. Пользователи могут запускать и настраивать LLM, такие как Llama 3.1, Mixtral, Falcon и BLOOM, у себя дома, используя графические процессоры потребительского класса или Google Colab. Petals использует подход, подобный BitTorrent, для распределения различных частей модели между несколькими устройствами пользователей, что позволяет эффективно делать выводы и настраивать модель.

Список функций
- Запуск больших языковых моделей: Поддерживаются модели Llama 3.1 (до 405B), Mixtral (8x22B), Falcon (40B+) и BLOOM (176B).
- распределённый вывод: Запуск модели через распределенную сеть со скоростью вывода одной партии до 6 токенов/сек (Llama 2 70B) и 4 токенов/сек (Falcon 180B).
- Быстрая тонкая настройка: Поддержка быстрой тонкой настройки моделей для различных задач.
- управляемый сообществом: Опираясь на сообщество пользователей для совместного использования ресурсов GPU, пользователи могут предоставлять свои собственные GPU для увеличения вычислительной мощности Petals.
- Гибкий API: Предоставляет гибкий API, похожий на PyTorch и Transformers, с поддержкой пользовательских путей и просмотра скрытого состояния.
- КонфиденциальностьОбработка данных происходит в общедоступной сети, а для защиты конфиденциальных данных пользователи могут создавать частные сети.
Использование помощи
Установка и использование
- Установка зависимостей::
- Linux + Anaconda::
conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia pip install git+https://github.com/bigscience-workshop/petals python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
- Windows + WSL: См. Вики.
- Docker::
sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm \ learningathome/petals:main \ python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
- macOS + графические процессоры Apple M1/M2::
brew install python python3 -m pip install git+https://github.com/bigscience-workshop/petals python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
- Linux + Anaconda::
- операционная модель::
- Выберите любую из доступных моделей, например:
from transformers import AutoTokenizer from petals import AutoDistributedModelForCausalLM model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoDistributedModelForCausalLM.from_pretrained(model_name) inputs = tokenizer("A cat sat", return_tensors="pt")["input_ids"] outputs = model.generate(inputs, max_new_tokens=5) print(tokenizer.decode(outputs[0]))
- Выберите любую из доступных моделей, например:
- Вклад GPU::
- Пользователи могут увеличить вычислительную мощность Petals, подключив графический процессор. Модель Hub.
Основные функции
- Выберите модель: Доступ Лепестки На сайте выберите нужную модель.
- Модели для погрузки: Загрузите и запустите модель в соответствии с вышеописанными шагами установки.
- Тонкая настройка модели: Используйте API, предоставляемый Petals, для тонкой настройки модели под различные задачи.
- Создать текст: Генерация текста в распределенных сетях для чат-ботов и интерактивных приложений.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...