Первая финансовая индустрия обосновывает большую модель Regulus-FinX1 с открытым исходным кодом! Ду Сяоман занимается тяжелым производством, фокусируясь на комплексном финансовом анализе и принятии решений

Новости ИИОбновлено 1 год назад Круг обмена ИИ

40.7K 00

Ду Сяоман выложил в открытый доступ первую в мире большую модель рассуждений в финансовой индустрии - Regulus-FinX1!

Модель является первой GPT-O1-подобной макромоделью вывода в финансовой области, использующей инновационный"Цепочка мыслей + вознаграждение за процесс + обучение с подкреплением"Парадигма обучения значительно улучшает логическое мышление и может продемонстрировать полный мыслительный процесс, не раскрываемый моделью O1, обеспечивая более глубокое понимание процесса принятия финансовых решений. Цели Regulus-FinX1Аналитика, принятие решений и обработка данных в финансовых сценарияхБыла проведена глубокая оптимизация.

Xuan Yuan-FinX1 разработан лабораторией Du Xiaoman AI-Lab, и этот релиз является предварительной версией, которая теперь открыта в сообществе с открытым исходным кодом.Скачать бесплатно. Последующие оптимизированные версии также будут оставаться открытыми для скачивания и использования.

Адрес Github: https://github.com/Duxiaoman-DI/XuanYuan

Результаты бенчмаркинга

Первое поколение Regulus-FinX1 продемонстрировало отличную производительность в финансовом бенчмарке FinanceIQ. НаCPA, банковская квалификация10 видов финансовых квалификаций, таких как квалификация в области ценных бумаг и т.д.В категории "Актуарии" все предыдущие крупные модели получили низкие оценки, а XuanYuan-FinX1 улучшила свои показатели с 37,5 до 65,7, что значительно отражает ее способность превзойти GPT-4o и модель с открытым исходным кодом Qwen2.5-72B. Особенно в категории "Актуарий" все предыдущие крупные модели получили низкие баллы, в то время как XuanYuan-FinX1 улучшила свой результат с 37,5 до 65,7, что значительно продемонстрировало ее сильное преимущество в логических рассуждениях и математических вычислениях. 首个金融行业推理大模型轩辕-FinX1开源！度小满重磅出品，专注金融复杂分析决策

Помимо финансовой сферы, первое поколение Regulus-FinX1 также продемонстрировало выдающиеся возможности общего назначения. Результаты тестирования на нескольких авторитетных оценочных наборах показывают, что Regulus-FinX1 не только вGPQA (Научное мышление), иMATH-500 (Математика)ответить пениемAIME2024 (математический конкурс)Он также превзошел GPT-4o, заняв место в верхнем эшелоне вместе с O1 и недавно выпущенной в Китае версией Большой модели, что подтверждает его сильные базовые возможности в области умозаключений.

首个金融行业推理大模型轩辕-FinX1开源！度小满重磅出品，专注金融复杂分析决策

Взлом "черного ящика": представление полной цепочки мыслей

Одна из особенностей Regulus FinX1 заключается в том, что он может представить весь процесс мышления перед генерацией ответа, выстраивая полностью прозрачную цепочку размышлений от разбора проблемы до окончательного вывода. Благодаря этому механизму Regulus FinX1 не только улучшает интерпретируемость рассуждений, но и решает проблему "черного ящика" традиционных больших моделей, предоставляя финансовым учреждениям более надежный инструмент поддержки принятия решений.

Regulus Пример создания цепочки мыслей для FinX1

Фокус на сложности финансовых вопросов и принятие аналитических решений

Когда GPT-O1 от OpenAI привлек внимание индустрии своей превосходной "мыслительной способностью", появилось ключевое предложение:Как эта способность к глубоким рассуждениям может принести существенную пользу в профессиональных финансовых сценариях?Du Xiaoman Regulus FinX1 дает инновационные ответы -...Впервые способность больших моделей к глубоким рассуждениям была применена в финансовой сфере, что способствует применению больших моделей вИспользуется для углубления от общих сценариев до основных бизнес-уровней, таких как решения по контролю рисков.

На волне трансформации цифрового интеллекта в финансовом секторе"Возможности принятия решений и контроля рисков", "возможности исследования и анализа" и "возможности анализа данных"представляют собой ключевые измерения, которые способствуют инновациям в бизнесе и увеличению стоимости. Эти возможности обеспечивают устойчивый рост стоимости учреждения благодаря точному выявлению и контролю рисков, глубокому исследованию рынка и выявлению ценностей, а также эффективному моделированию и анализу данных, соответственно.

Regulus FinX1 глубоко интегрирует возможности глубокого мышления с финансовым опытом с помощью инновационной парадигмы обучения, позволяя полностью раскрыть эти три способности в конкретных сценариях и предлагая новые интеллектуальные решения для финансовой индустрии.

01 Способность принимать решения и контролировать риски

Способность принимать решения и контролировать риски - это жизненный стержень финансовых учреждений, от которого зависит их надежная работа и устойчивое развитие. В основных задачах идентификации и прогнозирования рисков, построения модели контроля рисков и формулирования стратегии, Regulus FinX1 может систематически анализировать корреляции и пути распространения между факторами риска с помощью своей мощной способности рассуждать и полного механизма цепочки мыслей, предоставляя учреждениям всестороннее и глубокое понимание рисков. Например, на основе банковской воды, загруженной авторизованным пользователем, Regulus FinX1 может точно определить сигналы риска, такие как высокочастотное потребление лотерей, потребление игр и т. д. из тысяч записей транзакций, и научно оценить способность пользователя к погашению и кредитный риск в сочетании с уровнем дохода и долговой нагрузкой.

Regulus FinX1 ответил на ролик

02 Исследовательский и аналитический потенциал

Исследовательские и аналитические возможности - это базовая поддержка принятия финансовых решений, которая улучшает науку распределения капитала благодаря глубокому пониманию на макроуровне, уровне отрасли и компании. Regulus FinX1 способен проводить многомерный анализ макроэкономических данных, настроений на рынке, влияния политики и т. д. и постепенно разбирать сложные вопросы с помощью четкой логической цепочки. Например, при прогнозировании снижения процентной ставки ФРС в 2025 году на основе экономических данных модель исследует широкий спектр возможностей, анализируя множество экономических факторов и основываясь на различных гипотетических сценариях, всесторонне и объективно демонстрируя перспективу снижения процентной ставки ФРС в 2025 году, что в настоящее время соответствует прогнозным аналитическим взглядам ряда институтов. 首个金融行业推理大模型轩辕-FinX1开源！度小满重磅出品，专注金融复杂分析决策
03 Возможности анализа данных

Способность к анализу данных является важной поддержкой для финансовых учреждений в принятии точных решений, основу которой составляют эффективная обработка данных и возможность глубокого анализа. Regulus FinX1 поможет финансовым учреждениям быстро понять бизнес-логику и ценность данных. Например, если в Regulus FinX1 вводятся квартальные финансовые данные компании, модель может точно извлечь основную информацию и наглядно отобразить качество активов, ликвидность и динамику бизнеса. Анализируя такие ключевые показатели, как "давление ликвидности" и "стремление к расширению активов", Regulus FinX1 добавляет качественные объяснения на основе количественных сопоставлений, раскрывая потенциальные риски и возможности роста, скрытые за финансовыми данными, и помогая компаниям оптимизировать процесс принятия решений. 首个金融行业推理大模型轩辕-FinX1开源！度小满重磅出品，专注金融复杂分析决策

Техническая реализация Regulus-FinX1

Чтобы получить большие модели с O1-подобными возможностями рассуждения, особенно в сложных сценариях анализа решений в финансовой области, мы предлагаем техническое решение, состоящее из трех ключевых шагов после обширного исследования и проверки:На пути к стабильной модели генерации цепочки мыслей, модели двойного вознаграждения для улучшения финансовых решений и тонкой настройки обучения с подкреплением под двойным руководством PRM и ORM.

01 Первоначальное построение устойчивой генеративной модели цепочки мыслей

Для сложных сценариев анализа решений в финансовой сфере мы построили базовую модель со стабильной способностью генерировать цепочки мыслей. Во-первых, это синтез данных высококачественного COT/Ответ, который сначала генерирует мыслительный процесс на основе вопроса, а затем генерирует окончательный ответ на основе вопроса и мыслительного процесса. Благодаря этой стратегии модель способна сосредоточиться на каждом этапе выполнения задания и генерировать более последовательные цепочки рассуждений и ответов.

Для разных областей (например, математика, логические рассуждения, финансовый анализ и т. д.) мы разработали специальные методы синтеза данных, например, для задач финансового анализа мы разработали итеративный метод синтеза, чтобы обеспечить полноту процесса анализа, а затем обучили модель на основе модели XuanYuan 3.0 с помощью тонкой настройки команд и использования унифицированного формата вывода <мыслительный процесс ответ выходной формат (в этот раз мы также раскроем узлы грубого мышления), и в то же время сосредоточились на создании большего количества длинных текстовых данных, чтобы повысить способность модели обрабатывать длинные контексты, чтобы она могла "генерировать подробный процесс мышления перед генерацией ответа". Это закладывает прочный фундамент для последующего обучения с контролем процесса и оптимизации обучения с подкреплением.

02 Модель двойного вознаграждения для повышения эффективности финансовых решений

Для того чтобы оценить эффективность модели в сценариях принятия финансовых решений, мы разработалиДве взаимодополняющие модели вознаграждения, ориентированные на результат (ORM) и на процесс (PRM). Среди них ORM продолжает техническое решение XuanYuan 3.0, которое обучается с помощью контрастного обучения и обратного обучения с подкреплением; PRM - это наша инновация для процесса рассуждений, которая фокусируется на решении трудностей оценки открытых финансовых проблем (например, анализ рынка, инвестиционные решения и т.д.).

Для построения обучающих данных PRM использует различные стратегии для разных сценариев: для вопросов с определенными ответами, таких как рейтинги риска, мы используем метод обратной проверки на основе MCTS; для открытых вопросов финансового анализа мы аннотируем их с точки зрения таких аспектов, как правильность, необходимость и логика, используя несколько больших моделей, и решаем проблему дисбаланса данных с помощью downsampling и активного обучения. Во время обучения PRM использует контролируемую тонкую настройку для оптимизации модели, оценивая каждый шаг мышления.03 Тонкая настройка обучения с подкреплением с двойным руководством PRM и ORMНа этапе обучения с подкреплением мы используем алгоритм PPO для оптимизации модели, который использует PRM и ORM в качестве сигналов вознаграждения. Для процесса мышления между и , PRM используется для оценки каждого шага мышления, так что ошибки в пути мышления могут быть обнаружены и своевременно исправлены; для части ответа используются различные стратегии оценки для разных типов вопросов: соответствие правилам используется для расчета вознаграждения для финансовых вопросов с определенным ответом (например, оценка уровня риска), а соответствие правилам используется для расчета вознаграждения для открытых вопросов (например, анализ рынка). Например, анализ рынка) оцениваются целостно с помощью ORM. Для стабилизации процесса обучения одновременно применяются такие техники, как динамические KL-коэффициенты и нормализация функции доминирования. ЭтоМеханизмы обучения, основанные на двойном вознаграждениичто не только преодолевает ограничения модели с одним вознаграждением, но и значительно улучшает способность модели рассуждать в сценариях принятия финансовых решений благодаря стабильному обучению с подкреплением.

Как видно, ключевым моментом в вышеописанном маршруте является построение данных мыслительной цепочки и оценка моделей вознаграждения для открытых проблем финансового анализа, которые отличаются от математики или логики, и мы все еще продолжаем оптимизировать и итерировать, а также будем продолжать искать более эффективные технические маршруты.