LaWGPT: моделирование китайских юридических знаний, поддержка юридических викторин и обучения судебным экзаменам
Общее введение
LaWGPT - это проект с открытым исходным кодом, поддерживаемый исследовательской группой машинного обучения и добычи данных Нанкинского университета, который посвящен созданию большой языковой модели на основе китайских юридических знаний. Он расширяет собственные списки слов в юридической области на основе моделей китайского языка общего назначения (например, Chinese-LLaMA и ChatGLM) и значительно улучшает семантическое понимание и диалоговые возможности модели в юридических сценариях за счет масштабного предварительного обучения на юридическом корпусе и тонкой настройки команд в юридическом наборе данных Q&A. Проект осуществляется при поддержке многочисленных коллабораторов и применим к таким сценариям, как юридический диалог и подготовка к судебным экзаменам. Хотя модель все еще ограничена данными и возможностями, а ее результаты могут быть неопределенными, ее открытый исходный код и поддержка сообщества делают ее важным ресурсом для исследований ИИ в юридической области.

Список функций
- Генерация юридических вопросов и ответов: Генерирование точных ответов на основе введенных юридических вопросов, подходящих для консультирования и обучения.
- Подготовка к судебным экзаменам: Предоставляет обучение в форме вопросов и ответов, основанное на наборе данных Китайского судебного экзамена, чтобы помочь пользователям подготовиться к экзамену.
- Понимание юридических текстов: Предварительная подготовка, чтобы уметь разбирать содержание сложных юридических документов и уставов.
- Пакетное рассуждение в командной строке: Поддержка разработчиков для пакетной обработки данных о законодательстве с помощью скриптов.
- Диалог в интерактивном режиме: Интерактивные ответы на вопросы пользователей в режиме реального времени при отсутствии предопределенных данных.
- Поддержка взвешивания моделейВ комплект входят: грузики LoRA, позволяющие пользователю выполнять индивидуальные настройки в сочетании с оригинальной моделью.
Использование помощи
Процесс установки
LaWGPT - это проект с открытым исходным кодом, основанный на GitHub, и перед его использованием вам необходимо установить окружение и зависимости. Ниже описаны подробные шаги по установке:
- Клонирование кода проекта
Откройте терминал и введите следующую команду, чтобы загрузить код локально:
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT
Это приведет к клонированию кодовой базы LaWGPT на вашем компьютере и переходу в каталог проекта.
- Создание виртуальной среды
Используйте Conda, чтобы создать отдельное окружение Python и избежать конфликтов зависимостей:
conda create -n lawgpt python=3.10 -y
conda activate lawgpt
После активации среды последующие операции будут выполняться на lawgpt
окружение, в котором она проводится.
- Установка зависимостей
Проект предусматриваетrequirements.txt
файл, в котором перечислены необходимые библиотеки. Выполните следующую команду, чтобы установить их:
pip install -r requirements.txt
Зависимости включают transformers
, иpeft
, иgradio
и т.д., чтобы убедиться, что сеть открыта для завершения загрузки.
- Получение весов моделей
Поскольку LLaMA и Chinese-LLaMA не предоставляют открытых исходных данных полных весов, LaWGPT предоставляет только веса LoRA. Вам потребуется:
- Получите веса для китайской модели LLaMA или других базовых моделей из официальных источников.
- Объедините весовые коэффициенты LoRA с базовой моделью (подробности о том, как это сделать, см. в документации проекта).
- Проверка установки
Запустите пример сценария, чтобы убедиться, что окружение создано правильно:
bash scripts/infer.sh
Если вы успешно перешли в интерактивный режим, установка завершена.
Использование
Основные функциональные операции: юридическая викторина и рассуждение
- интерактивный режим
Если путь к тестовым данным не указан, запустите программуbash scripts/infer.sh
Он перейдет в интерактивный режим. Вы можете напрямую вводить юридические вопросы, например:
请解释《中华人民共和国合同法》第十条的内容。
Модель генерирует ответы в режиме реального времени и подходит для быстрого консультирования или обучения.
- критический вывод
Для обработки нескольких вопросов подготовьте JSON-файл (ссылка на формат)resources/example_instruction_train.json
), например:
{"instruction": "离婚后财产如何分割?", "output": ""}
Передайте путь к файлу в скрипт:
bash scripts/infer.sh --infer_data_path ./test.json
Модель обрабатывает и выводит результаты построчно, их можно сохранить для последующего анализа.
Featured Feature Operation: Judicial Exam Training
- Подготовка набора данных
LaWGPT поддерживает обучение на основе набора данных "Судебный экзамен". Вы можете обратиться кAwesome Chinese Legal Resources
Загрузите общедоступный набор данных или создайте свои собственные пары вопросов и ответов в следующем формате:{"instruction": "下列哪项不属于犯罪构成要件?", "output": "A. 犯罪主体 B. 犯罪客体 C. 犯罪动机 D. 犯罪客观方面"}
Сохраните в виде файла JSON, например.
exam_data.json
. - беговые тренировки
пользоватьсяfinetune.py
Скрипты для тонкой настройки команд:python finetune.py --data_path ./exam_data.json --base_model <path_to_base_model> --lora_weights <path_to_lora>
Описание параметра:
--data_path
: Путь к набору данных.--base_model
: Пути базовой модели.--lora_weights
: весовой путь LoRA.
После завершения обучения модель будет лучше адаптирована к вопросам типа судебных экзаменов.
Использование веб-интерфейса
- Запуск WebUI
Поддержка проекта обеспечивает графический интерфейс через Gradio. Запускается:bash scripts/webui.sh
При запуске браузер открывает локальную страницу (обычно это
http://127.0.0.1:7860
). - рабочий процесс
- Введите в поле ввода юридический вопрос, например, "Как подать заявку на патентную защиту?".
- Нажмите "Отправить" и подождите, пока модель сгенерирует ответ.
- Просматривайте выходные данные, которые можно скопировать или сохранить.
Веб-интерфейс подходит для нетехнических пользователей и интуитивно понятен в использовании.
предостережение
- требования к оборудованию: Рекомендуется использовать GPU (например, Tesla V100) для ускорения вычислений, работа CPU может быть медленнее.
- Выбор модели: По умолчанию используется
LaWGPT-7B-alpha
Если вам нужноbeta1.0
возможноbeta1.1
Необходимо настроить параметры модели в скрипте. - ограниченияМодели могут генерировать неточное содержание из-за ограниченности данных, и результаты должны быть подтверждены при использовании, особенно в реальных юридических сценариях.
Выполнив эти действия, вы сможете легко начать работу с LaWGPT и получить эффективную поддержку, независимо от того, проводите ли вы юридические викторины или готовитесь к судебным экзаменам.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...