Llama 3.2 Reasoning WebGPU: запуск Llama-3.2 в браузере

Новости ИИОбновлено 1 год назад Круг обмена ИИ

44.7K 00

Общее введение

Transformers.js это библиотека JavaScript, предоставленная компанией Hugging Face и предназначенная для запуска современных моделей машинного обучения непосредственно в браузере без поддержки сервера. Библиотека функционально эквивалентна библиотеке трансформаторов Hugging Face для Python и поддерживает широкий спектр предварительно обученных моделей и задач, включая обработку естественного языка, компьютерное зрение и обработку звука. Пример "llama-3.2-reasoning-webgpu" в этом проекте предназначен для демонстрации возможностей рассуждений модели LLama-3.2 на WebGPU, позволяя пользователям испытать эффективные рассуждения языковой модели прямо в браузере. Этот пример не только демонстрирует современное состояние технологии, но и дает представление о том, как можно использовать вычислительную мощь современных браузеров для решения сложных задач ИИ.

Список функций

Запуск модели LLama-3.2 в браузере: Использование технологии WebGPU для эффективного вывода моделей.
Демонстрация производительности WebGPU: Подчеркните превосходство WebGPU, сравнив производительность на разных устройствах.
Обеспечьте интерактивный пользовательский опыт: Пользователи могут взаимодействовать с моделью через простой интерфейс, вводя текст и получая результаты умозаключений модели.
Примеры кода и учебные пособия: Включает в себя полные примеры кода и инструкции по настройке и запуску модели LLama-3.2.

Использование помощи

Среда установки и настройки

Поскольку этот пример работает в среде браузера, никаких специальных действий по установке не требуется, но вам необходимо убедиться, что ваш браузер поддерживает WebGPU:

Проверка поддержки браузеров::
- Когда вы открываете страницу с примером, браузер автоматически проверяет, поддерживается ли WebGPU, и если нет, на странице появляется соответствующая подсказка.
- В настоящее время WebGPU поддерживается в последних версиях Chrome, Edge и Firefox. Для пользователей Safari может потребоваться включение определенных экспериментальных функций.
Посетите страницу с образцами::
- Доступ непосредственно по ссылке на GitHub llama-3.2-reasoning-webgpu Страница примера

Пример использования

Модели для погрузки::
- После загрузки страницы автоматически начнется загрузка модели LLama-3.2. Процесс загрузки может занять несколько минут в зависимости от скорости интернета и производительности устройства.
текст ввода::
- После загрузки страницы вы увидите поле для ввода текста. Введите в это поле текст, о котором вы хотите рассказать.
процесс рассуждения::
- Нажмите на кнопку "Рассуждения", и модель начнет обрабатывать введенные вами данные. Обратите внимание, что процесс рассуждения может занять некоторое время, в зависимости от длины и сложности текста.
Посмотреть результаты::
- Результаты отображаются в другом текстовом поле на странице. Модель LLama-3.2 генерирует результаты умозаключений на основе ваших данных, которые могут быть ответом на вопрос, переводом или какой-либо формой обработки текста.
Отладка и мониторинг производительности::
- При выполнении выводов на странице может отображаться статистика производительности, например скорость выполнения выводов (лексемы в секунду, TPS). Это поможет вам понять возможности WebGPU и производительность текущего устройства.

Дальнейшее изучение и исследование

Исследование исходного кода: Вы можете получить хорошее представление о том, что происходит, посмотрев исходный код на GitHub (особенно worker.js файл), чтобы получить представление о том, как модель работает в браузере.
Изменения и вклад: Если вы заинтересованы, вы можете клонировать этот проект, чтобы внести изменения или добавить новые функции. Проект использует React и сборки Vite, и если вы знакомы с этими инструментами, то сможете разрабатывать с относительной легкостью.

предостережение

Совместимость с браузерами: Убедитесь, что ваш браузер обновлен для наилучшего восприятия.
зависимость от производительности: Поскольку вывод происходит на стороне клиента, на производительность влияет аппаратное обеспечение устройства (особенно GPU).
частный бизнес: Все данные обрабатываются локально и не загружаются на сервер, что обеспечивает конфиденциальность пользовательских данных.

С помощью этих шагов и инструкций вы сможете полностью изучить и использовать этот проект-пример, чтобы познакомиться с развитием технологии искусственного интеллекта в вашем браузере.