LaWGPT: 중국어 법률 지식 모델링, 법률 퀴즈 및 사법시험 교육 지원

47.8K 00

일반 소개

LaWGPT는 난징대학교의 머신러닝 및 데이터 마이닝 연구 그룹이 지원하는 오픈 소스 프로젝트로, 중국 법률 지식을 기반으로 대규모 언어 모델을 구축하는 데 전념하고 있습니다. 이 프로젝트는 일반 중국어 모델(예: Chinese-LLaMA 및 ChatGLM)을 기반으로 법률 영역의 독점 단어 목록을 확장하고 법률 코퍼스의 대규모 사전 학습과 법률 Q&A 데이터 세트의 명령어 미세 조정을 통해 법률 시나리오에서 모델의 의미 이해 및 대화 기능을 크게 향상시킵니다. 이 프로젝트는 여러 공동 작업자가 추진하고 있으며 법률 대화 및 사법시험 훈련과 같은 시나리오에 적용할 수 있습니다. 이 모델은 아직 데이터와 용량에 제한이 있고 결과가 불확실할 수 있지만, 오픈 소스 성격과 커뮤니티 지원으로 법률 분야의 AI 연구에 중요한 자원이 될 수 있습니다.

기능 목록

법률 Q&A 생성: 입력된 법률 질문을 기반으로 상담 및 학습에 적합한 정확한 답변을 생성합니다.
사법시험 교육중국 사법시험 데이터 세트를 기반으로 한 Q&A 교육을 제공하여 사용자가 시험에 대비할 수 있도록 돕습니다.
법률 코퍼스 이해복잡한 법률 문서 및 법령의 내용을 분석할 수 있는 사전 교육.
명령줄 배치 추론스크립트를 통해 개발자가 법률 관련 데이터를 일괄 처리할 수 있도록 지원합니다.
대화형 모드 대화미리 정의된 데이터가 없을 때 사용자의 질문에 실시간으로 대화형으로 답변합니다.
모델 가중치 지원LoRA 가중치는 사용자가 원래 모델과 함께 사용자 지정 조정할 수 있도록 제공됩니다.

도움말 사용

설치 프로세스

LaWGPT는 GitHub 기반 오픈 소스 프로젝트이므로 사용하기 전에 환경 및 종속성을 설치해야 합니다. 자세한 설치 단계는 다음과 같습니다:

프로젝트 코드 복제
터미널을 열고 다음 명령을 입력하여 로컬로 코드를 다운로드합니다:

git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT

이렇게 하면 LaWGPT 코드베이스가 컴퓨터에 복제되고 프로젝트 디렉토리로 이동합니다.

가상 환경 만들기
Conda를 사용하여 별도의 Python 환경을 만들고 종속성 충돌을 피하세요:

conda create -n lawgpt python=3.10 -y
conda activate lawgpt

환경을 활성화한 후 후속 작업이 수행됩니다. lawgpt 수행되는 환경을 고려해야 합니다.

종속성 설치
이 프로젝트는 다음을 제공합니다. requirements.txt 파일에 필요한 라이브러리가 나열되어 있습니다. 다음 명령을 실행하여 설치합니다:

pip install -r requirements.txt

종속성은 다음과 같습니다. transformers및peft및gradio 등을 사용하여 네트워크에 여유가 있는지 확인하여 다운로드를 완료하세요.

모델 가중치 가져오기
LLaMA와 Chinese-LLaMA는 전체 가중치를 오픈 소스화하지 않기 때문에 LaWGPT는 LoRA 가중치만 제공합니다. 필요합니다:

공식 출처에서 중국어-LLaMA 또는 기타 기본 모델에 대한 가중치를 얻습니다.
LoRA 가중치를 기본 모델과 병합합니다(자세한 방법은 프로젝트 설명서를 참조하세요).

설치 확인
샘플 스크립트를 실행하여 환경이 올바른지 확인합니다:

bash scripts/infer.sh

대화형 모드로 성공적으로 진입하면 설치가 완료된 것입니다.

사용법

주요 기능 작업: 법률 퀴즈 및 추론

대화형 모드
테스트 데이터 경로가 지정되지 않은 경우, 테스트 데이터 경로가 지정되면 bash scripts/infer.sh 대화형 모드로 전환됩니다. 예를 들어 법률 관련 질문을 직접 입력할 수 있습니다:

请解释《中华人民共和国合同法》第十条的内容。

이 모델은 실시간으로 답변을 생성하며 빠른 조언이나 학습에 적합합니다.

중요한 추론
여러 문제를 처리해야 하는 경우 JSON 파일(형식 참조)을 준비하세요. resources/example_instruction_train.json) 등을 예로 들 수 있습니다:

{"instruction": "离婚后财产如何分割？", "output": ""}

스크립트에 파일 경로를 전달합니다:

bash scripts/infer.sh --infer_data_path ./test.json

모델은 결과를 한 줄씩 처리하여 출력하며, 결과를 저장하여 추후 분석할 수 있습니다.

주요 기능 운영: 사법시험 교육

데이터 집합 준비하기
LaWGPT는 사법시험 데이터세트를 기반으로 한 교육을 지원합니다. 다음을 참조할 수 있습니다. Awesome Chinese Legal Resources 공개적으로 사용 가능한 데이터 세트를 다운로드하거나 다음 형식에 따라 직접 Q&A 쌍을 구성하세요:
```
{"instruction": "下列哪项不属于犯罪构成要件？", "output": "A. 犯罪主体 B. 犯罪客体 C. 犯罪动机 D. 犯罪客观方面"}
```
예를 들어 JSON 파일로 저장합니다. exam_data.json.
러닝 트레이닝
활용 finetune.py 명령 미세 조정을 위한 스크립트:
```
python finetune.py --data_path ./exam_data.json --base_model <path_to_base_model> --lora_weights <path_to_lora>
```
매개변수 설명:
- --data_path: 데이터 집합 경로.
- --base_model: 기본 모델 경로.
- --lora_weightsLoRA 가중치 경로.
  교육이 완료되면 이 모델은 사법시험 유형 문제에 더 잘 적응할 수 있게 됩니다.

웹 인터페이스 사용

웹UI 시작하기
프로젝트 지원은 Gradio를 통해 그래픽 인터페이스를 제공합니다. 실행합니다:
```
bash scripts/webui.sh
```
시작 시 브라우저는 로컬 페이지(일반적으로 http://127.0.0.1:7860).
워크플로
1. 입력란에 법적 질문(예: "특허 보호를 신청하려면 어떻게 해야 하나요?")을 입력합니다.
2. '제출'을 클릭하고 모델이 응답을 생성할 때까지 기다립니다.
3. 출력물을 보고 복사하거나 저장할 수 있습니다.
  웹 인터페이스는 기술 전문가가 아닌 사용자에게도 적합하며 직관적으로 사용할 수 있습니다.

주의

하드웨어 요구 사항추론 속도를 높이려면 GPU(예: Tesla V100)를 사용하는 것이 좋으며, CPU 작동 속도가 느려질 수 있습니다.
모델 선택기본값은 LaWGPT-7B-alpha필요한 경우 beta1.0 어쩌면 beta1.1스크립트의 모델 매개 변수를 조정해야 합니다.
제한 사항데이터 제한으로 인해 모델이 부정확한 콘텐츠를 생성할 수 있으며, 특히 실제 법적 시나리오에서 사용할 때는 결과를 검증해야 합니다.

이 단계를 통해 법률 퀴즈를 풀거나 사법시험을 준비할 때 LaWGPT를 쉽게 시작하고 효율적인 지원을 받을 수 있습니다.