LaWGPT: modelización de los conocimientos jurídicos chinos, apoyo a los cuestionarios jurídicos y formación para los exámenes judiciales.

Introducción general

LaWGPT es un proyecto de código abierto respaldado por el Grupo de Investigación en Aprendizaje Automático y Minería de Datos de la Universidad de Nanjing, que se dedica a construir un gran modelo lingüístico basado en el conocimiento jurídico chino. Amplía las listas de palabras propias del ámbito jurídico sobre la base de modelos chinos genéricos (por ejemplo, Chinese-LLaMA y ChatGLM), y mejora significativamente la comprensión semántica y las capacidades de diálogo del modelo en escenarios jurídicos mediante el preentrenamiento a gran escala del corpus jurídico y el ajuste fino de comandos en el conjunto de datos de preguntas y respuestas jurídicas. El proyecto está promovido por múltiples colaboradores y es aplicable a escenarios como el diálogo jurídico y el entrenamiento para exámenes judiciales. Aunque el modelo sigue estando limitado por los datos y la capacidad, y el resultado puede ser incierto, su naturaleza de código abierto y el apoyo de la comunidad lo convierten en un recurso importante para la investigación de la IA en el ámbito jurídico.

LaWGPT:中文法律知识模型,支持法律问答和司法考试训练

 

Lista de funciones

  • Generación de preguntas y respuestas jurídicasGenerar respuestas precisas basadas en preguntas jurídicas introducidas, adecuadas para el asesoramiento y el aprendizaje.
  • Formación para el examen judicialFormación en preguntas y respuestas basada en el conjunto de datos del Examen Judicial de China para ayudar a los usuarios a prepararse para el examen.
  • Comprensión del corpus jurídicoFormación previa para poder analizar el contenido de instrumentos jurídicos y estatutos complejos.
  • Línea de comandos Razonamiento por lotesSoporte para desarrolladores para procesar por lotes datos relacionados con la ley a través de scripts.
  • Diálogo en modo interactivo: Responde interactivamente a las preguntas de los usuarios en tiempo real cuando no se dispone de datos predefinidos.
  • Apoyo a la ponderación de modelos: Se proporcionan pesos LoRA para que el usuario pueda realizar ajustes personalizados junto con el modelo original.

 

Utilizar la ayuda

Proceso de instalación

LaWGPT es un proyecto de código abierto basado en GitHub , es necesario instalar el entorno y las dependencias antes de su uso. A continuación se detallan los pasos de instalación:

  1. Clonación del código del proyecto
    Abra un terminal e introduzca el siguiente comando para descargar el código localmente:
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT

Esto clonará el código base de LaWGPT en tu ordenador e irá al directorio del proyecto.

  1. Creación de un entorno virtual
    Utiliza Conda para crear un entorno Python independiente y evitar conflictos de dependencias:
conda create -n lawgpt python=3.10 -y
conda activate lawgpt

Tras activar el entorno, las operaciones posteriores se realizarán en el lawgpt entorno en el que se lleva a cabo.

  1. Instalación de dependencias
    El proyecto prevé requirements.txt que enumera las bibliotecas necesarias. Ejecute el siguiente comando para instalarlas:
pip install -r requirements.txt

Las dependencias incluyen transformersypeftygradio etc., para garantizar que la red está libre para completar la descarga.

  1. Obtener las ponderaciones de los modelos
    Dado que LLaMA y Chinese-LLaMA no abren los pesos completos, LaWGPT sólo proporciona los pesos LoRA. Usted necesita:
  • Obtenga los pesos de los modelos chinos-LLaMA u otros modelos de base de fuentes oficiales.
  • Fusione los pesos LoRA con el modelo base (consulte la documentación del proyecto para más detalles sobre cómo hacerlo).
  1. Verificar la instalación
    Ejecute el script de ejemplo para confirmar que el entorno es correcto:
bash scripts/infer.sh

Si accede correctamente al modo interactivo, la instalación habrá finalizado.

Utilización

Principales operaciones funcionales: Cuestionario jurídico y razonamiento

  • modo interactivo
    Si no se especifica la ruta de los datos de prueba, ejecute el comando bash scripts/infer.sh Entrará en modo interactivo. Puede introducir directamente preguntas jurídicas, por ejemplo:
请解释《中华人民共和国合同法》第十条的内容。

El modelo genera respuestas en tiempo real y es adecuado para asesorar o aprender rápidamente.

  • inferencia crítica
    Si necesita gestionar varias incidencias, prepare un archivo JSON (referencia de formato) resources/example_instruction_train.json), por ejemplo:
{"instruction": "离婚后财产如何分割?", "output": ""}

Pasa la ruta del archivo al script:

bash scripts/infer.sh --infer_data_path ./test.json

El modelo procesa y emite los resultados línea por línea, y los resultados pueden guardarse para análisis posteriores.

Operación destacada: Formación para exámenes judiciales

  • Preparación del conjunto de datos
    LaWGPT admite el entrenamiento basado en el conjunto de datos del Examen Judicial. Puede consultar Awesome Chinese Legal Resources Descargue el conjunto de datos disponible públicamente, o construya sus propios pares de preguntas y respuestas en el siguiente formato:

    {"instruction": "下列哪项不属于犯罪构成要件?", "output": "A. 犯罪主体 B. 犯罪客体 C. 犯罪动机 D. 犯罪客观方面"}
    

    Guardar como archivo JSON, por ejemplo exam_data.json.

  • entrenamiento de running
    utilizar finetune.py Scripts para el ajuste de comandos:

    python finetune.py --data_path ./exam_data.json --base_model <path_to_base_model> --lora_weights <path_to_lora>
    

    Descripción de los parámetros:

    • --data_path: Ruta del conjunto de datos.
    • --base_model: Caminos del modelo base.
    • --lora_weights: Ruta de peso LoRA.
      Una vez finalizada la formación, el modelo se adaptará mejor a las preguntas de tipo examen judicial.

Uso de la interfaz web

  • Iniciar la WebUI
    El soporte de proyectos proporciona una interfaz gráfica a través de Gradio. Se ejecuta:

    bash scripts/webui.sh
    

    Al iniciarse, el navegador abre una página local (normalmente la página http://127.0.0.1:7860).

  • flujo de trabajo
    1. Introduzca una pregunta jurídica en el cuadro de entrada, por ejemplo: "¿Cómo solicito la protección de una patente?".
    2. Haga clic en "Enviar" y espere a que el modelo genere una respuesta.
    3. Visualice el resultado, que puede copiarse o guardarse.
      La interfaz web es adecuada para usuarios sin conocimientos técnicos y su uso es intuitivo.

advertencia

  • requisitos de hardwareSe recomienda utilizar una GPU (por ejemplo, Tesla V100) para acelerar la inferencia, ya que el funcionamiento de la CPU puede ser más lento.
  • Selección de modelosPor defecto se utiliza LaWGPT-7B-alphaSi necesita beta1.0 tal vez beta1.1Es necesario ajustar los parámetros del modelo en el script.
  • limitacionesLos modelos pueden generar contenidos inexactos debido a las limitaciones de los datos, y los resultados deben validarse cuando se utilicen, especialmente en escenarios jurídicos reales.

Con estos pasos, podrá empezar a trabajar fácilmente con LaWGPT y obtener una ayuda eficaz tanto si está realizando cuestionarios jurídicos como si está preparando exámenes judiciales.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...