KTransformers: механизм вывода больших моделей: экстремальное ускорение, гибкое расширение возможностей

Общее введение

KTransformers: высокопроизводительный фреймворк на Python, разработанный для преодоления узких мест при выводе больших моделей. KTransformers - это не просто инструмент для работы с моделями, а набор движков для оптимизации производительности и гибкой платформы для расширения возможностей интерфейса. KTransformers предназначен для повышения эффективности вывода больших моделей снизу вверх, значительно ускоряя скорость вывода моделей и снижая аппаратный порог за счет передовой оптимизации ядра, мощных стратегий параллелизма (multi-GPU, разреженное внимание) и других ключевых технологий.

Помимо простого запуска моделей, KTransformers предлагает полный спектр улучшений производительности и масштабируемости приложений. Вы не только получаете встроенный интерфейс, совместимый с Transformers, чтобы без проблем перенести существующие проекты, но и можете легко создавать приложения, соответствующие стандартам OpenAI и Оллама стандартные RESTful API-сервисы для быстрой интеграции во все типы приложений. Мы также предоставляем готовые ChatGPT Стильный веб-интерфейс для быстрого изучения и тестирования эффектов модели без утомительной настройки.

KTransformers создан для пользователей, которым требуется большая производительность. Если вы разработчик, стремящийся к максимальной скорости рассуждений, инженер, которому необходимо эффективно развернуть приложения для работы с большими моделями, или пользователь, желающий легко получить высокопроизводительные большие модели локально, KTransformers предоставит вам мощную поддержку, чтобы раскрыть весь потенциал больших моделей для создания инновационных приложений.

KTransformers:大模型推理性能引擎:极致加速,灵活赋能

 

Основные достоинства:

  • Экстремальная производительность: Оптимизация на уровне ядра и параллельные стратегии приносятСкорость рассуждений на порядок выше.
  • Гибкие интерфейсы: Интерфейсы, совместимые с трансформерами, RESTful API и веб-интерфейсы.Удовлетворение потребностей различных сценариев применения.
  • Широкая совместимость: Поддержка множества GPU, множества архитектур CPU и множества основных макромоделей.Возможность использования широкого спектра аппаратных средств и вариантов моделирования.
  • Простота использования идет рука об руку с возможностью настройки: существующийУдобство работы из коробкиТакже в наличииБогатые возможности настройкиДля удовлетворения потребностей продвинутых пользователей в глубокой оптимизации.

 

Список функций

  • Высокопроизводительные трансформаторы Совместимый интерфейс : обеспечивает полностью совместимый интерфейс с библиотекой Transformers.Перенесите существующие проекты без лишних затрат и мгновенно ощутите прирост производительности!.
  • Гибкие и простые в использовании службы RESTful API : Следуя стандартам OpenAI и Ollama.Быстрое создание масштабируемых API-сервисовПродукты компании разработаны таким образом, чтобы их можно было легко интегрировать в различные приложения и платформы.
  • Готовый веб-интерфейс в стиле ChatGPT : Обеспечение дружественного и интерактивного интерфейса.Нулевой код для быстрого тестирования и проверки производительности моделиДля удобства демонстрации и проверки.
  • Механизм параллельных вычислений с несколькими графическими процессорами :: Раскройте мощь нескольких графических процессоровлинейно повышая скорость вычислений и значительно сокращая время отклика.
  • Глубокая оптимизация производительности на уровне ядра : Использование передовых методов оптимизации ядра.Использование потенциала оборудования снизу вверх, добившись качественного скачка в производительности вывода модели.
  • Интеллектуальная система рассеянного внимания : поддержка механизма блочного рассеянного внимания.Значительно уменьшенный объем памятии поддерживает декодирование с экономией ресурсов процессора.Преодоление узких мест в аппаратном обеспечении.
  • Широкая экологическая поддержка для больших моделей : Совместим с InternLM, DeepSeek-Coder и др.Разнообразие основных крупных моделей (при непрерывном расширении).Гибкость в выборе оптимального решения для моделирования.
  • Легкие локальные высокопроизводительные рассуждения : Нет необходимости в дорогостоящем специализированном оборудовании.Превосходная производительность выводов в общей среде рабочего столаЭто снижает порог использования.

 

Использование помощи

монтаж

  1. склад клонов ::
git clone https://github.com/kvcache-ai/ktransformers.git
cd ktransformers
  1. Установка зависимостей ::
pip install -r requirements-local_chat.txt
  1. Установка трансформаторов KTransformers ::
python setup.py install

Начало работы

  1. Модели для погрузки ::
from ktransformers import KTransformers
model = KTransformers(model_name="your_model_name")
  1. Пример рассуждений ::
input_text = "你好,KTransformers!"
output = model.infer(input_text)
print(output)
  1. Использование RESTful API : Запустите службу API:
python -m ktransformers.api

Отправить запрос:

curl -X POST "http://localhost:8000/infer" -d '{"text": "你好,KTransformers!"}'

Дополнительные возможности

  • Поддержка нескольких графических процессоров : Отредактируйте файл конфигурации в корневом каталоге проекта config.yamlУкажите настройки нескольких графических процессоров для повышения скорости вычислений.
  • низкая устойчивость внимания : Файл конфигурации в корневом каталоге проекта config.yaml Добавьте конфигурацию разреженного внимания, чтобы оптимизировать использование памяти, особенно в средах с ограниченными ресурсами.
  • локальный вывод : Файл конфигурации в корневом каталоге проекта config.yaml Укажите параметры памяти и видеопамяти для эффективной работы с выводами в среде локального рабочего стола, поддерживая 24 ГБ VRAM и 150 ГБ DRAM.

Детали конфигурации

  1. Настройка нескольких графических процессоров : Редактировать файл конфигурации config.yaml::
gpu:
- id: 0 # GPU 设备索引 0
- id: 1 # GPU 设备索引 1
  1. Обеспечение редкого внимания : Добавьте его в файл конфигурации:
attention:
type: sparse
  1. Локальные настройки рассуждений : Укажите параметры памяти и видеопамяти в файле конфигурации:
memory:
vram: 24GB  # 显存限制 (GB),根据实际情况调整
dram: 150GB # 内存限制 (GB),根据实际情况调整
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...