gpt-oss - семейство моделей вывода с открытым исходным кодом от OpenAI

Последние ресурсы по искусственному интеллектуОбновлено 8 месяцев назад Круг обмена ИИ

Что такое gpt-oss

gpt-oss - это семейство моделей вывода с открытым исходным кодом от OpenAI, которые позволяют создавать эффективные, гибкие и простые в развертывании решения в области ИИ для разработчиков. gpt-oss состоит из двух версий: gpt-oss-120B со 117 миллиардами параметров и поддержкой работы на графических процессорах объемом 80 ГБ и gpt-oss-20B с 21 миллиардом параметров и поддержкой использования на обычных устройствах с 16 ГБ оперативной памяти. с 21 миллиардом параметров для использования на обычном устройстве с 16 ГБ оперативной памяти. Обе системы основаны на архитектуре MoE, поддерживают длину контекста 128k и обладают быстрым выводом с производительностью, близкой к закрытым o4-mini и o3-minigpt-oss поддерживает вызов инструментов, цепное мышление, подходит для многоэтапных задач вывода, предоставляет функции настройки весов и силы вывода с открытым исходным кодом для удовлетворения различных сценариев.

Основные особенности gpt-oss

Возможности инструментальной обработки: Поддержка вызова внешних инструментов, таких как веб-поиск или выполнение кода Python, для решения сложных задач.
Поддержка цепных рассуждений: Модель разбивает сложные задачи на шаги, а затем решает их по очереди, и подходит для решения проблем, требующих многоэтапных рассуждений.
низкая потребность в ресурсахМодель gpt-oss-20B поддерживает работу на обычном устройстве с 16 ГБ оперативной памяти, а модель gpt-oss-120B - на одном графическом процессоре объемом 80 ГБ, что позволяет адаптировать ее к различным аппаратным средам.
Быстрое реагирование на умозаключения: Модель способна делать выводы со скоростью 40-50 токенов/с и хорошо работает в сценариях, требующих быстрой реакции.
Открытый исходный код и персонализация: Предоставляются полные веса и код модели, а пользователи настраивают их на месте, чтобы лучше соответствовать требованиям конкретных задач.
Регулируемая сила умозаключенийРаздел: поддерживает низкие, средние и высокие настройки силы умозаключений, которые пользователи настраивают в соответствии с конкретными потребностями и сценариями, балансируя между задержкой и производительностью для достижения наилучшего использования.

Адрес официального сайта gpt-oss

Веб-сайт проекта:: https://openai.com/zh-Hans-CN/index/introducing-gpt-oss/
Репозиторий GitHub:: https://github.com/openai/gpt-oss
Библиотека моделей HuggingFace:: https://huggingface.co/collections/openai/gpt-oss-68911959590a1634ba11c7a4
Демонстрация опыта работы в режиме онлайн:: https://gpt-oss.com/

Производительность gpt-oss

Конкурсное программирование: В конкурсном тесте по программированию Codeforces версия gpt-oss-120B набрала 2622 балла, а gpt-oss-20B - 2516. Обе версии набрали больше баллов, чем некоторые модели с открытым исходным кодом, и немного меньше, чем модели с закрытым исходным кодом. o3-mini и o4-mini, демонстрируя сильные возможности программирования.
Решение общих проблем: gpt-oss-120B превосходит o3-mini от OpenAI и близок к уровню o4-mini в тестах MMLU (Multi-task Language Understanding) и HLE (Human Level Evaluation). Это говорит о том, что gpt-oss обладает высокой точностью и способностью к логическому мышлению при решении типовых задач.
Вызов инструмента: И gpt-oss-120B, и gpt-oss-20B превосходят o3-mini от OpenAI в TauBench Intelligent Body Evaluation Suite и даже достигают или превосходят уровень o4-mini. Это говорит о том, что gpt-oss обладает высокой эффективностью и точностью при вызове внешних инструментов (например, веб-поиска, интерпретатора кода и т. д.) и может эффективно решать сложные задачи.
Вопросы и ответы о здоровье: В тесте HealthBench gpt-oss-120B превосходит o4-mini, а gpt-oss-20B достигает уровня, сопоставимого с o3-mini. Это говорит о том, что gpt-oss обладает высокой точностью и надежностью в решении вопросов, связанных со здоровьем, и может предоставлять пользователям ценные советы и информацию.

Как использовать gpt-oss

Платформа для работы в Интернете::
- Адрес онлайн-опыта: Посетите сайт https://gpt-oss.com/.
- процедура::
  - Откройте ссылку выше.
  - Введите вопрос или инструкцию на веб-странице.
  - Нажмите "Отправить", чтобы получить ответ от модели.
Развертывание репозитория GitHub::
- Посетите репозиторий GitHub по адресу:: https://github.com/openai/gpt-oss
- склад клонов::

git clone https://github.com/openai/gpt-oss.git
cd gpt-oss

- Установка зависимостей::

pip install -r requirements.txt

- - Скачать модельные веса: Выберите нужный файл веса для gpt-oss-20b или gpt-oss-120b и поместите его в указанную директорию.
- операционная модель: Запустите сценарий вывода модели в соответствии с инструкциями в репозитории. Пример:

python run_inference.py --model gpt-oss-20b --input "你的输入文本"

Основные преимущества gpt-oss

Открытый исходный код и гибкость: Предоставляются полные веса и код модели для поддержки тонкой настройки и адаптации к конкретным потребностям.
Эффективная работа с выводамиСкорость вывода до 40-50 токенов/с, низкая задержка для сценариев быстрого реагирования.
Широкий диапазон применимостиКомпания поддерживает широкий спектр аппаратных сред, от средних устройств с 16 ГБ оперативной памяти до высокопроизводительных устройств с 80 ГБ GPU.
Сильные рассуждения: Поддерживает цепочечные рассуждения и вызов инструментов, что позволяет поэтапно решать сложные задачи и расширяет спектр приложений.
Безопасность и надежностьФаза предварительного обучения фильтрует вредоносные данные и выполняет тонкую настройку, чтобы обеспечить безопасность и надежность модели.

Люди, для которых предназначен gpt-oss

Разработчики и инженерыРазработчики и инженеры нуждаются в моделях с открытым исходным кодом для разработки проектов, быстрого создания прототипов или кастомизации, и гибкость и открытый исходный код, предоставляемый моделями, может удовлетворить эти потребности.
Ученые и исследователи данныхУченые, изучающие данные, и исследователи интересуются внутренними механизмами модели и хотят их доработать, поэкспериментировать или изучить, а открытый исходный код модели помогает им глубоко изучить и оптимизировать модель.
бизнес-пользователь: Бизнес-пользователям нужны высокопроизводительные и недорогие модели выводов для интеллектуального обслуживания клиентов, анализа данных или задач автоматизации, где свободная коммерческая модель и эффективные возможности вывода являются идеальным решением.
Преподаватели и студенты: В образовании - в качестве учебного пособия, помогающего студентам отвечать на вопросы, давать советы по написанию текстов или выполнять упражнения по программированию.
творческий работник: В том числе писателям, сценаристам, разработчикам игр и т. д., модель помогает им генерировать творческий контент, вдохновлять и повышать эффективность творческой деятельности.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.