LaWGPT : modélisation des connaissances juridiques chinoises, support pour les quiz juridiques et la formation aux examens judiciaires

Introduction générale

LaWGPT est un projet open source soutenu par le groupe de recherche sur l'apprentissage automatique et l'exploration de données de l'université de Nanjing, qui se consacre à la construction d'un grand modèle linguistique basé sur les connaissances juridiques chinoises. Il étend les listes de mots propriétaires dans le domaine juridique sur la base de modèles génériques chinois (par exemple, Chinese-LLaMA et ChatGLM), et améliore de manière significative la compréhension sémantique du modèle et les capacités de dialogue dans les scénarios juridiques grâce à un pré-entraînement à grande échelle du corpus juridique et à un réglage fin des commandes dans l'ensemble de données de questions-réponses juridiques. Le projet est soutenu par de multiples collaborateurs et est applicable à des scénarios tels que le dialogue juridique et la formation aux examens judiciaires. Bien que le modèle soit encore limité par les données et la capacité, et que les résultats puissent être incertains, sa nature open source et le soutien de la communauté en font une ressource importante pour la recherche sur l'IA dans le domaine juridique.

LaWGPT:中文法律知识模型,支持法律问答和司法考试训练

 

Liste des fonctions

  • Génération de questions-réponses juridiquesLes services de conseil et d'apprentissage : Générer des réponses précises sur la base des questions juridiques saisies, adaptées à la consultation et à l'apprentissage.
  • Formation à l'examen judiciaireLe site propose une formation sous forme de questions-réponses basée sur l'ensemble des données de l'examen judiciaire chinois afin d'aider les utilisateurs à se préparer à l'examen.
  • Compréhension du corpus juridiqueFormation préalable pour être en mesure d'analyser le contenu d'instruments juridiques et de statuts complexes.
  • Raisonnement par lots en ligne de commandeLe logiciel de gestion des données juridiques : il aide les développeurs à traiter par lots les données juridiques au moyen de scripts.
  • Dialogue en mode interactifLes données de l'utilisateur : Répondre de manière interactive et en temps réel aux questions de l'utilisateur lorsqu'aucune donnée prédéfinie n'est disponible.
  • Aide à la pondération des modèlesLes poids LoRA sont fournis pour permettre à l'utilisateur d'effectuer des ajustements personnalisés en conjonction avec le modèle original.

 

Utiliser l'aide

Processus d'installation

LaWGPT est un projet open source basé sur GitHub, vous devez installer l'environnement et les dépendances avant de l'utiliser. Voici les étapes détaillées de l'installation :

  1. Clonage du code du projet
    Ouvrez un terminal et entrez la commande suivante pour télécharger le code localement :
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT

Ceci clonera la base de code LaWGPT sur votre ordinateur et ira dans le répertoire du projet.

  1. Créer un environnement virtuel
    Utilisez Conda pour créer un environnement Python distinct et éviter les conflits de dépendances :
conda create -n lawgpt python=3.10 -y
conda activate lawgpt

Après l'activation de l'environnement, les opérations suivantes seront effectuées sur le site lawgpt l'environnement dans lequel il se déroule.

  1. Installation des dépendances
    Le projet prévoit requirements.txt qui répertorie les bibliothèques requises. Exécutez la commande suivante pour les installer :
pip install -r requirements.txt

Les dépendances comprennent transformers,peft,gradio etc., afin de s'assurer que le réseau est libre pour effectuer le téléchargement.

  1. Obtenir les poids des modèles
    Comme LLaMA et Chinese-LLaMA n'ouvrent pas les poids complets, LaWGPT ne fournit que les poids LoRA. Vous avez besoin de :
  • Obtenir les poids des modèles chinois-LLaMA ou d'autres modèles de base auprès de sources officielles.
  • Fusionner les poids LoRA avec le modèle de base (voir la documentation du projet pour plus de détails sur la manière de procéder).
  1. Vérifier l'installation
    Exécutez l'exemple de script pour confirmer que l'environnement est correct :
bash scripts/infer.sh

Si vous parvenez à entrer en mode interactif, l'installation est terminée.

Utilisation

Principales opérations fonctionnelles : Quiz juridique et raisonnement

  • mode interactif
    Si le chemin des données de test n'est pas spécifié, exécutez la commande bash scripts/infer.sh Il passe en mode interactif. Vous pouvez saisir directement des questions juridiques, par exemple :
请解释《中华人民共和国合同法》第十条的内容。

Le modèle génère des réponses en temps réel et convient pour des conseils ou un apprentissage rapide.

  • déduction critique
    Pour traiter plusieurs questions, préparez un fichier JSON (référence de format) resources/example_instruction_train.json), par exemple :
{"instruction": "离婚后财产如何分割?", "output": ""}

Transmettre le chemin d'accès au fichier au script :

bash scripts/infer.sh --infer_data_path ./test.json

Le modèle traite et produit les résultats ligne par ligne, et les résultats peuvent être sauvegardés pour une analyse ultérieure.

Opération vedette : formation au concours judiciaire

  • Préparation du jeu de données
    LaWGPT prend en charge la formation basée sur l'ensemble de données du concours de la magistrature. Vous pouvez vous référer à Awesome Chinese Legal Resources Téléchargez l'ensemble de données accessibles au public ou créez vos propres paires de questions-réponses dans le format suivant :

    {"instruction": "下列哪项不属于犯罪构成要件?", "output": "A. 犯罪主体 B. 犯罪客体 C. 犯罪动机 D. 犯罪客观方面"}
    

    Enregistrer sous forme de fichier JSON, par exemple exam_data.json.

  • entraînement à la course à pied
    utiliser finetune.py Scripts pour l'affinage des commandes :

    python finetune.py --data_path ./exam_data.json --base_model <path_to_base_model> --lora_weights <path_to_lora>
    

    Paramètre Description :

    • --data_path: Chemin d'accès à l'ensemble de données.
    • --base_model: Chemins du modèle de base.
    • --lora_weights: chemin de poids de la LoRA.
      Une fois la formation terminée, le modèle sera plus adaptable aux questions de type examen judiciaire.

Utilisation de l'interface web

  • Démarrage de l'interface WebUI
    Le support du projet fournit une interface graphique via Gradio. Exécution :

    bash scripts/webui.sh
    

    Au démarrage, le navigateur ouvre une page locale (généralement la page http://127.0.0.1:7860).

  • flux de travail
    1. Saisissez une question juridique dans le champ de saisie, par exemple : "Comment déposer une demande de protection par brevet ?".
    2. Cliquez sur "Soumettre" et attendez que le modèle génère une réponse.
    3. Visualiser le résultat, qui peut être copié ou sauvegardé.
      L'interface web est adaptée aux utilisateurs non techniques et son utilisation est intuitive.

mise en garde

  • exigences en matière de matérielIl est recommandé d'utiliser un GPU (par exemple Tesla V100) pour accélérer l'inférence, le fonctionnement du CPU pouvant être plus lent.
  • Sélection du modèle: La valeur par défaut est l'utilisation de LaWGPT-7B-alphaSi vous avez besoin de beta1.0 peut-être beta1.1Les paramètres du modèle dans le script doivent être ajustés.
  • limitationsLes modèles peuvent générer un contenu inexact en raison des limitations des données, et les résultats doivent être validés lorsqu'ils sont utilisés, en particulier dans des scénarios juridiques réels.

Avec ces étapes, vous pouvez facilement démarrer avec LaWGPT et obtenir un soutien efficace, que vous organisiez des quiz juridiques ou que vous prépariez des examens judiciaires.

© déclaration de droits d'auteur
AiPPT

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...