Aprendizagem pessoal com IA
e orientação prática
Sapo pintado em alumínio

LaWGPT: modelagem de conhecimento jurídico chinês, suporte a questionários jurídicos e treinamento para exames judiciais

Introdução geral

O LaWGPT é um projeto de código aberto apoiado pelo Grupo de Pesquisa de Aprendizado de Máquina e Mineração de Dados da Universidade de Nanjing, dedicado à criação de um grande modelo de linguagem baseado no conhecimento jurídico chinês. Ele amplia as listas de palavras proprietárias no domínio jurídico com base em modelos chineses genéricos (por exemplo, Chinese-LLaMA e ChatGLM) e melhora significativamente a compreensão semântica do modelo e os recursos de diálogo em cenários jurídicos por meio do pré-treinamento em larga escala do corpus jurídico e do ajuste fino dos comandos no conjunto de dados de perguntas e respostas jurídicas. O projeto é promovido por vários colaboradores e é aplicável a cenários como o diálogo jurídico e o treinamento para exames judiciais. Embora o modelo ainda seja limitado por dados e capacidade, e o resultado possa ser incerto, sua natureza de código aberto e o apoio da comunidade o tornam um recurso importante para a pesquisa de IA no campo jurídico.

LaWGPT: modelagem de conhecimento jurídico chinês, suporte a questionários jurídicos e treinamento para exames judiciais-1


 

Lista de funções

  • Geração de perguntas e respostas jurídicasGerar respostas precisas com base em perguntas jurídicas inseridas, adequadas para aconselhamento e aprendizado.
  • Treinamento para exames judiciaisTreinamento de perguntas e respostas com base no conjunto de dados do Exame Judicial da China para ajudar os usuários a se prepararem para o exame.
  • Compreensão de corpus jurídicoTreinamento prévio para poder analisar o conteúdo de instrumentos jurídicos e estatutos complexos.
  • Raciocínio em lote da linha de comandoSuporte para que os desenvolvedores processem em lote dados relacionados à lei por meio de scripts.
  • Diálogo no modo interativoResposta interativa às perguntas dos usuários em tempo real quando não há dados predefinidos disponíveis.
  • Suporte à ponderação de modelos: Os pesos LoRA são fornecidos para permitir que o usuário faça ajustes personalizados em conjunto com o modelo original.

 

Usando a Ajuda

Processo de instalação

O LaWGPT é um projeto de código aberto baseado no GitHub, e você precisa instalar o ambiente e as dependências antes de usá-lo. Veja a seguir as etapas detalhadas de instalação:

  1. Clonagem do código do projeto
    Abra um terminal e digite o seguinte comando para fazer o download do código localmente:
git clone git@github.com:pengxiao-song/LaWGPT.git
cd LaWGPT

Isso clonará a base de código do LaWGPT em seu computador e entrará no diretório do projeto.

  1. Criação de um ambiente virtual
    Use o Conda para criar um ambiente Python separado e evitar conflitos de dependência:
conda create -n lawgpt python=3.10 -y
conda activate lawgpt

Após a ativação do ambiente, as operações subsequentes serão executadas no lei ambiente no qual ele é realizado.

  1. Instalação de dependências
    O projeto oferece requisitos.txt que lista as bibliotecas necessárias. Execute o seguinte comando para instalá-las:
pip install -r requirements.txt

As dependências incluem transformadoreseesquerdaegradiente etc., para garantir que a rede esteja livre para concluir o download.

  1. Obtenção de pesos de modelos
    Como o LLaMA e o Chinese-LLaMA não abrem o código-fonte dos pesos completos, o LaWGPT fornece apenas pesos LoRA. Você precisa de:
  • Obtenha os pesos para o Chinese-LaMA ou outros modelos básicos de fontes oficiais.
  • Mesclar os pesos LoRA com o modelo básico (consulte a documentação do projeto para obter detalhes sobre como fazer isso).
  1. Verificar a instalação
    Execute o script de amostra para confirmar se o ambiente está correto:
scripts bash/infer.sh

Se você entrar no modo interativo com êxito, a instalação estará concluída.

Uso

Principais operações funcionais: Questionário e raciocínio jurídico

  • modo interativo
    Quando o caminho dos dados de teste não for especificado, execute o scripts bash/infer.sh Ele entrará no modo interativo. Você pode inserir perguntas jurídicas diretamente, por exemplo:
Explique o conteúdo do artigo 10 da Lei de Contratos da República Popular da China.

O modelo gera respostas em tempo real e é adequado para aconselhamento ou aprendizado rápido.

  • inferência crítica
    Se você precisar lidar com vários problemas, prepare um arquivo JSON (referência de formato) resources/example_instruction_train.json), por exemplo:
{"instruction": "Como a propriedade é dividida após um divórcio?" , "output": ""}

Passe o caminho do arquivo para o script:

bash scripts/infer.sh --infer_data_path . /test.json

O modelo processa e gera os resultados linha por linha, e os resultados podem ser salvos para análise posterior.

Operação de destaque: Treinamento para exames judiciais

  • Preparação do conjunto de dados
    O LaWGPT oferece suporte ao treinamento com base no conjunto de dados do Exame Judicial. Você pode consultar Recursos jurídicos chineses incríveis Faça o download do conjunto de dados disponível publicamente ou crie seus próprios pares de perguntas e respostas no seguinte formato:

    {"instruction": "Qual das seguintes opções não é um elemento constituinte de um crime?" , "output": "A. Sujeito do delito B. Objeto do delito C. Motivo do delito D. Aspectos objetivos do delito"}
    

    Salvar como um arquivo JSON, por exemplo. dados_do_exame.json.

  • treinamento de corrida
    fazer uso de finetune.py Scripts para ajuste fino de comandos:

    python finetune.py --data_path . /exam_data.json ---base_model  --lora_weights 
    

    Descrição do parâmetro:

    • --caminho_dos_dadosCaminho do conjunto de dados.
    • ---base_modelCaminhos do modelo básico.
    • --lora_weightsCaminho de peso LoRA.
      Quando o treinamento for concluído, o modelo será mais adaptável a perguntas do tipo exame judicial.

Uso da interface da Web

  • Iniciando a WebUI
    O suporte ao projeto fornece uma interface gráfica via Gradio. Executa:

    scripts bash/webui.sh
    

    Na inicialização, o navegador abre uma página local (geralmente a página http://127.0.0.1:7860).

  • fluxo de trabalho
    1. Digite uma pergunta jurídica na caixa de entrada, por exemplo, "Como faço para solicitar proteção de patente?"
    2. Clique em "Submit" (Enviar) e aguarde até que o modelo gere uma resposta.
    3. Visualizar o resultado, que pode ser copiado ou salvo.
      A interface da Web é adequada para usuários não técnicos e é de uso intuitivo.

advertência

  • Requisitos de hardwareRecomendamos o uso de uma GPU (por exemplo, Tesla V100) para acelerar a inferência; a operação da CPU pode ser mais lenta.
  • Seleção de modelos: O padrão é usar LaWGPT-7B-alfaSe você precisar beta 1.0 talvez beta 1.1Os parâmetros do modelo no script precisam ser ajustados.
  • limitaçõesModelos podem gerar conteúdo impreciso devido a limitações de dados, e os resultados precisam ser validados quando usados, especialmente em cenários jurídicos reais.

Com essas etapas, você pode começar a usar o LaWGPT com facilidade e obter suporte eficiente, quer esteja realizando questionários jurídicos ou se preparando para exames judiciais.

CDN1
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " LaWGPT: modelagem de conhecimento jurídico chinês, suporte a questionários jurídicos e treinamento para exames judiciais

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil