Ouro - новая циклическая языковая модель с открытым исходным кодом от команды ByteHopper Seed
Что такое Ouro?
Ouro - это новый тип контурных языковых моделей (LLM), разработанный командой Byte Jump Seed. Основное новшество заключается в прямом построении способности к умозаключению на этапе предварительного обучения с помощью структуры вычисления циклов с общим доступом к параметрам. Модель использует 24 слоя в качестве базового блока и достигает эквивалентной вычислительной глубины в 96 слоев за счет 4 циклов, сохраняя при этом масштаб параметров в 1,4 Б, что значительно повышает эффективность вычислений для небольших моделей. Эксперименты показывают, что Ouro 1.4B набирает 71,02 балла на эталоне рассуждений BBH, приближаясь к производительности модели с параметрами 4B, а версия 2.6B набирает 90,85 балла на математической задаче Math500, превосходя модель с параметрами 8B. Уникальный дизайн модели включает динамический механизм вычислений (меньше циклов для простых задач и больше циклов для сложных задач) и стратегию обучения с энтропийной регуляризацией, которая позволяет модели адаптивно регулировать глубину мышления.

Особенности Ouro
- Инновации в архитектуре: Модель Ouro создает возможности вывода непосредственно на этапе предварительного обучения путем итеративных вычислений в латентном пространстве, а не полагается только на последующую тонкую настройку. Архитектура состоит из "стека слоев" из N слоев с общим весом, который многократно повторяется во время распространения вперед, т.е. несколько "шагов цикла", что позволяет производить "динамические вычисления". Это позволяет проводить "динамические вычисления" и развязывает вычислительный масштаб модели от "количества параметров" до "глубины вычислений".
- Стратегии обучения: В модели Ouro используется новая двухэтапная адаптивная стратегия обучения вычислениям. На первом этапе используется цель регуляризации энтропии с равномерным предшествованием шага выхода, что побуждает модель непредвзято исследовать все вычислительные глубины; второй этап представляет собой целенаправленную фазу адаптивного обучения, которая явным образом оптимизирует выходное регулирование, чтобы найти компромисс между вычислительными затратами и приростом производительности.
- параметрическая эффективность: Модель Ouro демонстрирует превосходную параметрическую эффективность. 1.4B и 2.6B модели стабильно соответствуют или даже превосходят производительность гораздо более крупного SOTA LLM (до 4B и 12B параметров, соответственно) во всех типах бенчмарков, достигая 2-3-кратного прироста параметрической эффективности.
- способность к рассуждению: Преимущество модели Ouro в производительности связано не с увеличением объема знаний, а с ее гораздо более высокими возможностями манипулирования знаниями, т.е. способностью рассуждать в несколько этапов и комбинировать факты. Преимущества модели Ouro особенно очевидны при решении сложных математических задач, таких как GSM8K и MATH500.
- Безопасность и верность: По сравнению с базовой моделью, уровень генерации вредоносного контента в Ouro ниже и снижается по мере увеличения количества шагов цикла. Показано, что процесс рассуждений Ouro более верен с точки зрения причинно-следственных связей, а промежуточные шаги более тесно связаны с окончательным ответом
Основные преимущества компании Ouro
- Сильные рассуждения: Уро отлично справляется с многоступенчатыми рассуждениями и логическими выводами, особенно со сложными математическими заданиями, и может точно выполнять логические умозаключения и вычисления.
- Превосходная параметрическая эффективность: Ouro значительно повышает параметрическую эффективность благодаря рекуррентной архитектуре и стратегии обучения. Маленькие модели показывают сопоставимую или даже лучшую производительность, чем большие модели в нескольких бенчмарках.
- Безопасность и верность: Ouro генерирует более безопасный текстовый контент с низким уровнем генерации вредного контента. Его процесс рассуждений более верен с точки зрения причинно-следственных связей, а промежуточные шаги тесно связаны с окончательным ответом.
- Открытый исходный код и масштабируемость: Модель Ouro имеет открытый ресурс и доступна в шкалах параметров 1,4B и 2,6B, что облегчает дальнейшие исследования и разработку приложений исследователями и разработчиками.
- Эффективные стратегии обученияOuro использует двухступенчатую адаптивную стратегию обучения вычислениям, которая эффективно использует различные вычислительные глубины для оптимизации процесса вывода и улучшения производительности модели.
- Поддержка нескольких языковOuro поддерживает множество языков и способен решать такие межъязыковые задачи, как машинный перевод и многоязычные вопросы и ответы, имея широкий спектр применения.
Каков официальный сайт Ouro?
- Веб-сайт проекта:: https://ouro-llm.github.io/
- Библиотека моделей HuggingFace:: https://huggingface.co/collections/ByteDance/ouro
- Технический документ arXiv:: https://arxiv.org/pdf/2510.25741
Для кого предназначен Ouro
- исследователь в области обработки естественного языка (NLP): Инновационная архитектура и стратегии обучения модели Ouro предоставляют исследователям новые направления исследований и экспериментальные платформы, которые способствуют технологическому прогрессу в области обработки естественного языка.
- Разработчики искусственного интеллектаОткрытый исходный код и гибкость Ouro делают его идеальным инструментом для разработчиков, позволяющим создавать различные приложения для моделирования языка, такие как интеллектуальная служба поддержки клиентов, инструменты для создания контента и многое другое.
- Преподаватели и студентыСильные стороны Ouro в области математических рассуждений и логических выводов делают его мощным инструментом в образовании для разработки интеллектуальных обучающих систем, автоматизированных инструментов решения задач и других средств, которые помогают студентам лучше изучать и понимать сложные концепции.
- создатель контента: Ouro помогает в написании креативных текстов, создании копий и рассказов, помогая создателям контента быть более продуктивными и вдохновленными.
- Предприятия и организацииOuro можно использовать для внутреннего управления знаниями, обслуживания клиентов и аудита контента для повышения эффективности работы и удобства пользователей.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




