Petals: распределенный совместный запуск на GPU и тонкая настройка больших языковых моделей, совместное использование ресурсов GPU подобно сети BitTorrent

Общее введение

Petals - это проект с открытым исходным кодом, разработанный BigScience Workshop для запуска больших языковых моделей (LLM) с помощью распределенных вычислений. Пользователи могут запускать и настраивать LLM, такие как Llama 3.1, Mixtral, Falcon и BLOOM, у себя дома, используя графические процессоры потребительского класса или Google Colab. Petals использует подход, подобный BitTorrent, для распределения различных частей модели между несколькими устройствами пользователей, что позволяет эффективно делать выводы и настраивать модель.

Petals:分布式共享GPU运行和微调大语言模型,像BitTorrent网络一样共享GPU资源

 

Список функций

  • Запуск больших языковых моделей: Поддерживаются модели Llama 3.1 (до 405B), Mixtral (8x22B), Falcon (40B+) и BLOOM (176B).
  • распределённый вывод: Запуск модели через распределенную сеть со скоростью вывода одной партии до 6 токенов/сек (Llama 2 70B) и 4 токенов/сек (Falcon 180B).
  • Быстрая тонкая настройка: Поддержка быстрой тонкой настройки моделей для различных задач.
  • управляемый сообществом: Опираясь на сообщество пользователей для совместного использования ресурсов GPU, пользователи могут предоставлять свои собственные GPU для увеличения вычислительной мощности Petals.
  • Гибкий API: Предоставляет гибкий API, похожий на PyTorch и Transformers, с поддержкой пользовательских путей и просмотра скрытого состояния.
  • КонфиденциальностьОбработка данных происходит в общедоступной сети, а для защиты конфиденциальных данных пользователи могут создавать частные сети.

 

Использование помощи

Установка и использование

  1. Установка зависимостей::
    • Linux + Anaconda::
      conda install pytorch pytorch-cuda=11.7 -c pytorch -c nvidia
      pip install git+https://github.com/bigscience-workshop/petals
      python -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
      
    • Windows + WSL: См. Вики.
    • Docker::
      sudo docker run -p 31330:31330 --ipc host --gpus all --volume petals-cache:/cache --rm \
      learningathome/petals:main \
      python -m petals.cli.run_server --port 31330 meta-llama/Meta-Llama-3.1-405B-Instruct
      
    • macOS + графические процессоры Apple M1/M2::
      brew install python
      python3 -m pip install git+https://github.com/bigscience-workshop/petals
      python3 -m petals.cli.run_server meta-llama/Meta-Llama-3.1-405B-Instruct
      
  2. операционная модель::
    • Выберите любую из доступных моделей, например:
      from transformers import AutoTokenizer
      from petals import AutoDistributedModelForCausalLM
      model_name = "meta-llama/Meta-Llama-3.1-405B-Instruct"
      tokenizer = AutoTokenizer.from_pretrained(model_name)
      model = AutoDistributedModelForCausalLM.from_pretrained(model_name)
      inputs = tokenizer("A cat sat", return_tensors="pt")["input_ids"]
      outputs = model.generate(inputs, max_new_tokens=5)
      print(tokenizer.decode(outputs[0]))
      
  3. Вклад GPU::
    • Пользователи могут увеличить вычислительную мощность Petals, подключив графический процессор. Модель Hub.

Основные функции

  1. Выберите модель: Доступ Лепестки На сайте выберите нужную модель.
  2. Модели для погрузки: Загрузите и запустите модель в соответствии с вышеописанными шагами установки.
  3. Тонкая настройка модели: Используйте API, предоставляемый Petals, для тонкой настройки модели под различные задачи.
  4. Создать текст: Генерация текста в распределенных сетях для чат-ботов и интерактивных приложений.
© заявление об авторских правах

Похожие статьи

Luma Labs:Luma 系列视觉模型,使用丰富的自然语言描述来生成高质量图像和视频

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...