Introdução geral
O KGGen é uma ferramenta de código aberto desenvolvida pelo Stanford Trusted Artificial Intelligence Research Laboratory (STAIR Lab), hospedada no GitHub, projetada para gerar automaticamente gráficos de conhecimento a partir de textos arbitrários. Ela usa modelos avançados de linguagem e algoritmos de agrupamento para transformar dados textuais não estruturados em redes estruturadas de entidades e relacionamentos para pesquisadores, desenvolvedores e analistas de dados. O projeto tem recebido atenção desde o seu lançamento e tem sido elogiado por seus aprimoramentos na precisão da extração de conhecimento e na conectividade de gráficos. Os principais pontos fortes do KGGen, como a simplicidade de operação e a confiabilidade dos resultados, têm sido usados em pesquisas acadêmicas e no desenvolvimento de aplicativos de IA, e foi atualizado pela última vez em 20 de fevereiro de 2025.1 O projeto também recebeu muita atenção desde o seu lançamento.
Lista de funções
- Conversão de texto em gráfico de conhecimentoExtrair entidades e relacionamentos de uma entrada textual arbitrária para gerar um gráfico de conhecimento estruturado.
- Suporte para modelos multilínguesIntegração de modelos de linguagem convencionais para aprimorar a compreensão e a estruturação de textos.
- Otimização de algoritmos de agrupamento: Aprimoramento da conectividade e da lógica do gráfico de conhecimento por meio de técnicas de agrupamento.
- Código aberto personalizávelCódigo completo: O código completo é fornecido, e os usuários podem modificar e ampliar a funcionalidade de acordo com suas necessidades.
- Exportação de dadosO gráfico de conhecimento gerado permite a exportação em vários formatos para análise e aplicação subsequentes.
Usando a Ajuda
Processo de instalação
O KGGen é uma ferramenta baseada em Python que requer algumas configurações do ambiente de programação para ser implementada. Veja a seguir as etapas detalhadas de instalação:
1. preparação ambiental
- sistema operacionalWindows, MacOS e Linux são compatíveis.
- Versão PythonPython 3.8 ou superior é recomendado.
- GitVerifique se você tem o Git instalado para clonar sua base de código.
- Ferramentas de gerenciamento de dependênciasUso recomendado
pip
talvezconda
.
2. clonagem da base de código
Clone o projeto KGGen localmente digitando o seguinte comando em um terminal ou linha de comando:
git clone https://github.com/stair-lab/kg-gen.git
cd kg-gen
3. instalação de dependências
O projeto oferece um requirements.txt
que contém as bibliotecas de dependência necessárias. Execute o seguinte comando para instalá-las:
pip install -r requirements.txt
Se você usar conda
Se você não tiver um ambiente virtual, poderá criá-lo primeiro:
conda create -n kggen python=3.8
conda activate kggen
pip install -r requirements.txt
4. verificação da instalação
Quando a instalação estiver concluída, vá para o interpretador Python e digite o seguinte código para verificar o sucesso:
import kg_gen
print(kg_gen.__version__)
Se o número da versão de saída (por exemplo 1.0.0
), indicando uma instalação bem-sucedida.
Uso
A principal função do KGGen é gerar gráficos de conhecimento a partir de texto, e o procedimento de operação específico é o seguinte:
1. preparação do texto de entrada
Crie um arquivo de texto (por exemplo input.txt
), escreva o texto a ser processado. Exemplo:
人工智能正在改变世界。机器学习是人工智能的核心技术。斯坦福大学的研究团队开发了许多创新工具。
Salve o arquivo em kg-gen
Catálogo.
2. executar o KGGen
Vá para o diretório do projeto no terminal e execute o seguinte comando:
python -m kg_gen --input input.txt --output graph.json
--input
Especifica o caminho do arquivo de texto de entrada.--output
Especifique o caminho para o arquivo de saída do Knowledge Graph gerado (há suporte para o formato JSON).
3. visualização dos resultados
Após a conclusão da execução, abra o arquivo graph.json
Você verá algo como o seguinte:
{
"entities": ["人工智能", "机器学习", "斯坦福大学"],
"relations": [
{"source": "人工智能", "target": "机器学习", "relation": "包含"},
{"source": "斯坦福大学", "target": "创新工具", "relation": "开发"}
]
}
Isso significa que o KGGen extraiu a entidade do texto e estabeleceu o relacionamento.
4. configuração personalizada (opcional)
O KGGen oferece suporte ao ajuste de parâmetros para otimizar os resultados. Edição config.py
A documentação, se houver, pode ser modificada:
- modelo de linguagemSubstitua por outro modelo pré-treinado (por exemplo, BERT).
- parâmetro de agrupamentoLimite de agrupamento: ajuste o limite de agrupamento para alterar a densidade do gráfico.
Salve as alterações e execute novamente o comando acima.
Operação da função em destaque
Processamento em lote de vários arquivos
Se precisar processar vários arquivos de texto, você pode usar uma chamada de loop de script:
for file in *.txt; do python -m kg_gen --input "$file" --output "${file%.txt}.json"; done
Isso proporcionará uma grande oportunidade para cada .txt
gera o arquivo .json
Arquivo Atlas.
Gráfico de conhecimento visual
O KGGen não tem uma ferramenta de visualização integrada, mas você pode usar bibliotecas de terceiros (por exemplo networkx
responder cantando matplotlib
) Mapeamento:
- Instale a dependência:
pip install networkx matplotlib
- Escreva o seguinte script Python (
visualize.py
):
import json
import networkx as nx
import matplotlib.pyplot as plt
with open('graph.json', 'r') as f:
data = json.load(f)
G = nx.DiGraph()
for rel in data['relations']:
G.add_edge(rel['source'], rel['target'], label=rel['relation'])
pos = nx.spring_layout(G)
nx.draw(G, pos, with_labels=True, node_color='lightblue', font_size=10)
edge_labels = nx.get_edge_attributes(G, 'label')
nx.draw_networkx_edge_labels(G, pos, edge_labels=edge_labels)
plt.show()
- Execute o script:
python visualize.py
É possível ver uma representação gráfica do gráfico de conhecimento gerado.
Depuração e registro em log
Se os resultados gerados não forem os esperados, o modo de depuração poderá ser ativado:
python -m kg_gen --input input.txt --output graph.json --verbose
Isso produzirá um registro detalhado para ajudar a localizar o problema.
advertência
- Qualidade do textoQuanto mais claro for o texto de entrada, mais precisos serão os mapas gerados.
- recurso de computaçãoMemória: Pode ser necessária mais memória para processar textos longos; recomenda-se pelo menos 8 GB de RAM.
- Atualização de manutençãoVerifique regularmente os repositórios do GitHub para ter certeza de que está usando a versão mais recente.
Com essas etapas, você pode começar a usar o KGGen com facilidade, extrair conhecimento estruturado de textos e aplicá-lo a projetos reais.