KG Gen: uma ferramenta de código aberto para geração automática de gráficos de conhecimento a partir de texto simples

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

14.3K 00

Introdução geral

O KGGen é uma ferramenta de código aberto desenvolvida pelo Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), hospedada no GitHub, projetada para gerar automaticamente gráficos de conhecimento a partir de textos arbitrários. Ela usa modelos avançados de linguagem e algoritmos de agrupamento para transformar dados textuais não estruturados em redes estruturadas de entidades e relacionamentos para pesquisadores, desenvolvedores e analistas de dados. O projeto tem recebido atenção desde o seu lançamento e tem sido elogiado por seus aprimoramentos na precisão da extração de conhecimento e na conectividade de gráficos. Os principais pontos fortes do KGGen, como a simplicidade de operação e a confiabilidade dos resultados, têm sido usados em pesquisas acadêmicas e no desenvolvimento de aplicativos de IA, e foi atualizado pela última vez em 20 de fevereiro de 2025.1 O projeto também recebeu muita atenção desde o seu lançamento.

Lista de funções

Conversão de texto em gráfico de conhecimentoExtrair entidades e relacionamentos de uma entrada textual arbitrária para gerar um gráfico de conhecimento estruturado.
Suporte para modelos multilínguesIntegração de modelos de linguagem convencionais para aprimorar a compreensão e a estruturação de textos.
Otimização de algoritmos de agrupamento: Aprimoramento da conectividade e da lógica do gráfico de conhecimento por meio de técnicas de agrupamento.
Código aberto personalizávelCódigo completo: O código completo é fornecido, e os usuários podem modificar e ampliar a funcionalidade de acordo com suas necessidades.
Exportação de dadosO gráfico de conhecimento gerado permite a exportação em vários formatos para análise e aplicação subsequentes.

Usando a Ajuda

Processo de instalação

O KGGen é uma ferramenta baseada em Python que requer algumas configurações do ambiente de programação para ser implementada. Veja a seguir as etapas detalhadas de instalação:

1. preparação ambiental

sistema operacionalWindows, MacOS e Linux são compatíveis.
Versão PythonPython 3.8 ou superior é recomendado.
GitVerifique se você tem o Git instalado para clonar sua base de código.
Ferramentas de gerenciamento de dependênciasUso recomendado pip talvez conda.

2. clonagem da base de código

Clone o projeto KGGen localmente digitando o seguinte comando em um terminal ou linha de comando:

git clone https://github.com/stair-lab/kg-gen.git
cd kg-gen

3. instalação de dependências

O projeto oferece um requirements.txt que contém as bibliotecas de dependência necessárias. Execute o seguinte comando para instalá-las:

pip install -r requirements.txt

Se você usar condaSe você não tiver um ambiente virtual, poderá criá-lo primeiro:

conda create -n kggen python=3.8
conda activate kggen
pip install -r requirements.txt

4. verificação da instalação

Quando a instalação estiver concluída, vá para o interpretador Python e digite o seguinte código para verificar o sucesso:

import kg_gen
print(kg_gen.__version__)

Se o número da versão de saída (por exemplo 1.0.0), indicando uma instalação bem-sucedida.

Uso

A principal função do KGGen é gerar gráficos de conhecimento a partir de texto, e o procedimento de operação específico é o seguinte:

1. preparação do texto de entrada

Crie um arquivo de texto (por exemplo input.txt), escreva o texto a ser processado. Exemplo:

人工智能正在改变世界。机器学习是人工智能的核心技术。斯坦福大学的研究团队开发了许多创新工具。

Salve o arquivo em kg-gen Catálogo.

2. executar o KGGen

Vá para o diretório do projeto no terminal e execute o seguinte comando:

python -m kg_gen --input input.txt --output graph.json

--inputEspecifica o caminho do arquivo de texto de entrada.
--outputEspecifique o caminho para o arquivo de saída do Knowledge Graph gerado (há suporte para o formato JSON).

3. visualização dos resultados

Após a conclusão da execução, abra o arquivo graph.jsonVocê verá algo como o seguinte:

{
"entities": ["人工智能", "机器学习", "斯坦福大学"],
"relations": [
{"source": "人工智能", "target": "机器学习", "relation": "包含"},
{"source": "斯坦福大学", "target": "创新工具", "relation": "开发"}
]
}

Isso significa que o KGGen extraiu a entidade do texto e estabeleceu o relacionamento.

4. configuração personalizada (opcional)

O KGGen oferece suporte ao ajuste de parâmetros para otimizar os resultados. Edição config.py A documentação, se houver, pode ser modificada:

modelo de linguagemSubstitua por outro modelo pré-treinado (por exemplo, BERT).
parâmetro de agrupamentoLimite de agrupamento: ajuste o limite de agrupamento para alterar a densidade do gráfico.
Salve as alterações e execute novamente o comando acima.

Operação da função em destaque

Processamento em lote de vários arquivos

Se precisar processar vários arquivos de texto, você pode usar uma chamada de loop de script:

for file in *.txt; do python -m kg_gen --input "$file" --output "${file%.txt}.json"; done

Isso proporcionará uma grande oportunidade para cada .txt gera o arquivo .json Arquivo Atlas.

Gráfico de conhecimento visual

O KGGen não tem uma ferramenta de visualização integrada, mas você pode usar bibliotecas de terceiros (por exemplo networkx responder cantando matplotlib) Mapeamento:

Instale a dependência:

pip install networkx matplotlib

Escreva o seguinte script Python (visualize.py):

import json
import networkx as nx
import matplotlib.pyplot as plt
with open('graph.json', 'r') as f:
data = json.load(f)
G = nx.DiGraph()
for rel in data['relations']:
G.add_edge(rel['source'], rel['target'], label=rel['relation'])
pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True, node_color='lightblue', font_size=10)
edge_labels = nx.get_edge_attributes(G, 'label')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)
plt.show()

Execute o script:

python visualize.py

É possível ver uma representação gráfica do gráfico de conhecimento gerado.

Depuração e registro em log

Se os resultados gerados não forem os esperados, o modo de depuração poderá ser ativado:

python -m kg_gen --input input.txt --output graph.json --verbose

Isso produzirá um registro detalhado para ajudar a localizar o problema.

advertência

Qualidade do textoQuanto mais claro for o texto de entrada, mais precisos serão os mapas gerados.
recurso de computaçãoMemória: Pode ser necessária mais memória para processar textos longos; recomenda-se pelo menos 8 GB de RAM.
Atualização de manutençãoVerifique regularmente os repositórios do GitHub para ter certeza de que está usando a versão mais recente.

Com essas etapas, você pode começar a usar o KGGen com facilidade, extrair conhecimento estruturado de textos e aplicá-lo a projetos reais.