Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed

堆友AI

Что такое Ouro?

Ouro - это новый тип контурных языковых моделей (LLM), разработанный командой Byte Jump Seed. Основное новшество заключается в прямом построении способности к умозаключению на этапе предварительного обучения с помощью структуры вычисления циклов с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока и достигает эквивалентной вычислительной глубины в 96 слоев за счет 4 циклов, сохраняя при этом масштаб параметров в 1,4 Б, что значительно повышает эффективность вычислений для небольших моделей. Эксперименты показывают, что Ouro 1.4B набирает 71,02 балла на эталоне рассуждений BBH, приближаясь к производительности модели с параметрами 4B, а версия 2.6B набирает 90,85 балла на математической задаче Math500, превосходя модель с параметрами 8B. Уникальный дизайн модели включает динамический механизм вычислений (меньше циклов для простых задач и больше циклов для сложных задач) и стратегию обучения с энтропийной регуляризацией, которая позволяет модели адаптивно регулировать глубину мышления.

Ouro - 字节跳动Seed团队开源的新型循环语言模型

Особенности Ouro

  • Инновации в архитектуре: Модель Ouro создает возможности вывода непосредственно на этапе предварительного обучения путем итеративных вычислений в латентном пространстве, а не полагается только на последующую тонкую настройку. Архитектура состоит из "стека слоев" из N слоев с общим весом, который многократно повторяется во время распространения вперед, т.е. несколько "шагов цикла", что позволяет производить "динамические вычисления". Это позволяет проводить "динамические вычисления" и развязывает вычислительный масштаб модели от "количества параметров" до "глубины вычислений".
  • Стратегии обучения: В модели Ouro используется новая двухэтапная адаптивная стратегия обучения вычислениям. На первом этапе используется цель регуляризации энтропии с равномерным предшествованием шага выхода, что побуждает модель непредвзято исследовать все вычислительные глубины; второй этап представляет собой целенаправленную фазу адаптивного обучения, которая явным образом оптимизирует выходное регулирование, чтобы найти компромисс между вычислительными затратами и приростом производительности.
  • параметрическая эффективность: Модель Ouro демонстрирует превосходную параметрическую эффективность. 1.4B и 2.6B модели стабильно соответствуют или даже превосходят производительность гораздо более крупного SOTA LLM (до 4B и 12B параметров, соответственно) во всех типах бенчмарков, достигая 2-3-кратного прироста параметрической эффективности.
  • способность к рассуждению: Преимущество модели Ouro в производительности связано не с увеличением объема знаний, а с ее гораздо более высокими возможностями манипулирования знаниями, т.е. способностью рассуждать в несколько этапов и комбинировать факты. Преимущества модели Ouro особенно очевидны при решении сложных математических задач, таких как GSM8K и MATH500.
  • Безопасность и верность: По сравнению с базовой моделью, уровень генерации вредоносного контента в Ouro ниже и снижается по мере увеличения количества шагов цикла. Показано, что процесс рассуждений Ouro более верен с точки зрения причинно-следственных связей, а промежуточные шаги более тесно связаны с окончательным ответом

Основные преимущества компании Ouro

  • Сильные рассуждения: Уро отлично справляется с многоступенчатыми рассуждениями и логическими выводами, особенно со сложными математическими заданиями, и может точно выполнять логические умозаключения и вычисления.
  • Превосходная параметрическая эффективность: Ouro значительно повышает параметрическую эффективность благодаря рекуррентной архитектуре и стратегии обучения. Маленькие модели показывают сопоставимую или даже лучшую производительность, чем большие модели в нескольких бенчмарках.
  • Безопасность и верность: Ouro генерирует более безопасный текстовый контент с низким уровнем генерации вредного контента. Его процесс рассуждений более верен с точки зрения причинно-следственных связей, а промежуточные шаги тесно связаны с окончательным ответом.
  • Открытый исходный код и масштабируемость: Модель Ouro имеет открытый ресурс и доступна в шкалах параметров 1,4B и 2,6B, что облегчает дальнейшие исследования и разработку приложений исследователями и разработчиками.
  • Эффективные стратегии обученияOuro использует двухступенчатую адаптивную стратегию обучения вычислениям, которая эффективно использует различные вычислительные глубины для оптимизации процесса вывода и улучшения производительности модели.
  • Поддержка нескольких языковOuro поддерживает множество языков и способен решать такие межъязыковые задачи, как машинный перевод и многоязычные вопросы и ответы, имея широкий спектр применения.

Каков официальный сайт Ouro?

  • Веб-сайт проекта:: https://ouro-llm.github.io/
  • Библиотека моделей HuggingFace:: https://huggingface.co/collections/ByteDance/ouro
  • Технический документ arXiv:: https://arxiv.org/pdf/2510.25741

Для кого предназначен Ouro

  • исследователь в области обработки естественного языка (NLP): Инновационная архитектура и стратегии обучения модели Ouro предоставляют исследователям новые направления исследований и экспериментальные платформы, которые способствуют технологическому прогрессу в области обработки естественного языка.
  • Разработчики искусственного интеллектаОткрытый исходный код и гибкость Ouro делают его идеальным инструментом для разработчиков, позволяющим создавать различные приложения для моделирования языка, такие как интеллектуальная служба поддержки клиентов, инструменты для создания контента и многое другое.
  • Преподаватели и студентыСильные стороны Ouro в области математических рассуждений и логических выводов делают его мощным инструментом в образовании для разработки интеллектуальных обучающих систем, автоматизированных инструментов решения задач и других средств, которые помогают студентам лучше изучать и понимать сложные концепции.
  • создатель контента: Ouro помогает в написании креативных текстов, создании копий и рассказов, помогая создателям контента быть более продуктивными и вдохновленными.
  • Предприятия и организацииOuro можно использовать для внутреннего управления знаниями, обслуживания клиентов и аудита контента для повышения эффективности работы и удобства пользователей.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...