Introdução geral
O TheoremExplainAgent é um projeto inovador desenvolvido pelo TIGER AI Lab para transformar teoremas matemáticos e científicos complexos em animações de vídeo fáceis de entender usando tecnologia de IA. A ferramenta baseia-se no poder de raciocínio da Modelagem de Linguagem Grande (LLM), combinada com tecnologias de geração de animação e síntese de fala para automatizar a geração de vídeos explicativos de teoremas com mais de 5 minutos para ajudar os usuários a compreender intuitivamente os conceitos acadêmicos. O projeto é de código aberto no GitHub e tem recebido atenção das comunidades de educação e tecnologia para estudantes, professores e alunos interessados nas áreas de STEM (Ciência, Tecnologia, Engenharia e Matemática). O objetivo principal do TheoremExplainAgent é tornar os teoremas abstratos animados e interessantes, aprimorando o aprendizado por meio de uma abordagem multimodal.
Manim é uma biblioteca Python para a criação de animações matemáticas de alta qualidade. Ela pode ser usada para criar visualizações de conceitos matemáticos, transformações geométricas, imagens de funções, simulações de física e muito mais, e é perfeita para ensino, apresentações e vídeos científicos populares (como os do canal 3Blue1Brown). Atualmente, o projeto não tem código liberado e, no ano passado, havia uma ferramenta com um princípio semelhante chamada Gatekeep Ele pode ser usado como referência.
Lista de funções
- Geração automática de vídeos de teoremasInsira o conteúdo do teorema e o sistema gera automaticamente um vídeo completo com animação, voz e explicações em texto.
- Suporte a saída multimodalCombina raciocínio baseado em texto, visualizações animadas e narração de áudio para proporcionar uma experiência de aprendizado tridimensional.
- arquitetura de carroceria dupla inteligente (DIB)Utilizando duas inteligências de IA trabalhando em conjunto, uma para raciocinar sobre teoremas e outra para gerar conteúdo de vídeo.
- Cobertura interdisciplinarSuporte à interpretação de teoremas em vários campos, como matemática, física, química e ciência da computação.
- Código-fonte aberto e conjuntos de dadosCódigo completo e recursos relacionados são fornecidos, permitindo a personalização do usuário ou o desenvolvimento secundário.
- Saída de conteúdo de alta qualidadeImitar o processo humano de produção de vídeo para garantir que os vídeos gerados sejam lógicos e fluentes.
Usando a Ajuda
O TheoremExplainAgent é um projeto de código aberto baseado no GitHub, e os usuários precisam de uma certa base técnica para instalá-lo e usá-lo. A seguir, apresentamos um guia detalhado para ajudá-lo a começar a usar essa ferramenta rapidamente.
Processo de instalação (não aberto)
- Preparação ambiental
- Certifique-se de ter o Python 3.8 ou superior instalado em seu computador.
- Instale o Git para clonar o código do projeto do GitHub.
- Recomenda-se usar um ambiente virtual para evitar conflitos de dependência com o seguinte comando:
python -m venv venv source venv/bin/activate # Linux/Mac venv\Scripts\activate # Windows
- Clonagem do código do projeto
- Abra um terminal e digite o seguinte comando para baixar o projeto do GitHub:
git clone https://github.com/TIGER-AI-Lab/TheoremExplainAgent.git cd TheoremExplainAgent
- Abra um terminal e digite o seguinte comando para baixar o projeto do GitHub:
- Instalação de dependências
- As dependências do projeto incluem grandes bibliotecas de modelos de linguagem, ferramentas de geração de animação, como o Manim, e módulos de síntese de fala. Execute o seguinte comando para instalar todas as dependências:
pip install -r requirements.txt
- no caso de
requisitos.txt
não for fornecido, consulte as bibliotecas mencionadas na documentação do projeto, por exemplo.transformadores
emanim
responder cantandogTTS
instalação manual.
- As dependências do projeto incluem grandes bibliotecas de modelos de linguagem, ferramentas de geração de animação, como o Manim, e módulos de síntese de fala. Execute o seguinte comando para instalar todas as dependências:
- Modelos e ferramentas de configuração
- Faça o download do modelo de linguagem grande pré-treinado (por exemplo, LLaMA ou variante GPT) e configure seu caminho para o arquivo de configuração do projeto.
- Certifique-se de que o Manim esteja instalado corretamente e execute o seguinte comando para testá-lo:
manim-v
- Se você precisar da funcionalidade de fala, instale uma ferramenta de síntese de fala (como o Google Text-to-Speech) e configure a chave da API.
- Verificar a instalação
- Execute o script de amostra fornecido com o projeto para verificar se o vídeo foi gerado corretamente:
python examples/run_demo.py
- Execute o script de amostra fornecido com o projeto para verificar se o vídeo foi gerado corretamente:
Funções principais
Vídeo explicativo sobre o teorema da geração
- Etapa 1: Preparar a entrada do teorema
No diretório raiz do projeto, localize o arquivoentrada
(caso contrário, crie-o manualmente), crie um arquivo de texto (por exemplotheorem.txt
), escrevendo teoremas que precisam ser explicados, por exemplo:
Teorema de Pitágoras: Em um triângulo retângulo, o quadrado da hipotenusa é igual à soma dos quadrados dos outros dois lados.
- Etapa 2: Executar o script de geração
Use a linha de comando para executar o script principal, especificando o arquivo de entrada:
python generate_video.py --input theorem.txt --output video.mp4
- Etapa 3: Visualizar resultados
O vídeo gerado será salvo no caminho especificado (por exemplovídeo.mp4
), contém animação e narração de voz.
Personalização do conteúdo do teorema
- compilador
configs/config.yaml
ajustando parâmetros como duração do vídeo, estilo de animação ou velocidade de fala. Exemplo:vídeo. duração: 300 # duração do vídeo (segundos) estilo: "simple" # Estilo animado voice. speed: 1.0 # Velocidade da fala
- Execute novamente o comando generate para ver o efeito da personalização.
Depuração e otimização
- Se a geração de vídeo falhar, verifique o arquivo de registro (geralmente no diretório
registros/
) para solucionar o problema. Os problemas comuns incluem caminhos de modelos errados ou bibliotecas de dependências ausentes. - Ajuste dos parâmetros de inferência do LLM (por exemplo, valores de temperatura)
temperatura
) para aprimorar a lógica do conteúdo gerado:python generate_video.py --input theorem.txt --temperature 0.7
Operação da função em destaque
Experiência de saída multimodal
- Geração de animaçãoBaseado no mecanismo Manim, o sistema divide os teoremas em etapas de visualização. Por exemplo, o Teorema de Pitágoras gera uma apresentação dinâmica de áreas de triângulos e quadrados.
- comentário em áudioO módulo de fala gera uma narração em linguagem natural com base no raciocínio, que é automaticamente sincronizado com a animação.
- Suporte de textoLegendas: As legendas estão incorporadas no vídeo para usuários com dificuldades auditivas.
Suporte a teoremas interdisciplinares
- Quando são inseridos teoremas de diferentes disciplinas, o sistema adapta automaticamente a explicação ao conteúdo. Por exemplo, um teorema de física pode gerar uma animação de uma trajetória de movimento, e um teorema de ciência da computação pode mostrar um fluxograma algorítmico.
- Exemplo de entrada:
Segunda lei de Newton: a força é igual à massa vezes a aceleração.
Os resultados gerados conterão demonstrações animadas de força, massa e aceleração.
Dicas e truques
- arquivo de loteTeoremas: Escreva vários teoremas em um único arquivo, separados por novas linhas, e o script gerará os vídeos um a um.
- Suporte à comunidadeSe encontrar problemas, envie comentários na página de problemas do GitHub e a equipe e a comunidade do TIGER AI Lab ajudarão.
- desenvolvimento secundárioUsuários familiarizados com Python podem modificar o
generate_video.py
Adicione novos recursos, como suporte a mais idiomas ou efeitos de animação.
Com as etapas acima, você pode usar facilmente o TheoremExplainAgent para gerar vídeos de explicação de teoremas de alta qualidade, o que pode aumentar drasticamente a eficiência e a diversão do estudo autônomo e do ensino.