Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife

BiliNote: a ferramenta de IA que gera automaticamente notas Markdown a partir de vídeos

Introdução geral

O BiliNote é uma ferramenta de anotações de vídeo com IA de código aberto que suporta a extração de conteúdo dos links de vídeo do BiliBili e do YouTube para gerar automaticamente anotações claramente estruturadas no formato Markdown. Ele usa transcrição de áudio local e uma variedade de grandes modelos (como OpenAI, DeepSeek, Qwen) para resumir o conteúdo, suporte para inserir capturas de tela de vídeo e links de salto de carimbo de data/hora. O projeto está hospedado no GitHub sob a licença MIT e está disponível como uma implantação do Docker e um pacote do Windows para estudantes, criadores e pesquisadores organizarem materiais para estudo ou trabalho. A experiência on-line oficial é implantada no Cloudflare Pages, cujo acesso pode ser lento devido às condições da rede.

BiliNote: ferramenta de IA que gera automaticamente notas Markdown a partir de vídeos-1


 

Lista de funções

  • Extrai automaticamente o conteúdo de links de vídeos do Beep e do YouTube para gerar notas Markdown.
  • Transcrição de áudio nativa usando o modelo Fast-Whisper com suporte à privacidade.
  • Suporte a OpenAI, DeepSeek, Qwen e outros grandes modelos para resumir o conteúdo principal do vídeo.
  • Inserção opcional de capturas de tela de quadros-chave de vídeo para melhorar a visualização das notas.
  • Gerar anotações com registro de data e hora com suporte para saltar para o ponto correspondente no tempo do vídeo original.
  • Com a função de registro de tarefas, é possível consultar o histórico de anotações para gerar registros.
  • Oferece suporte à implantação do Docker com um clique para simplificar as instalações locais ou na nuvem.
  • Uma versão em pacote (arquivo exe) está disponível para Windows e não requer configuração complexa para ser usada.
  • Há planos para oferecer suporte a mais plataformas de vídeo, como Jitterbug e Shutterbug.

 

Usando a Ajuda

Instalação e implementação

O BiliNote oferece três maneiras de usá-lo: implantação manual, implantação do Docker e versão em pacote do Windows. Veja a seguir as etapas detalhadas:

Implementação manual

  1. Clonagem do código do projeto
    Execute o seguinte comando para obter o código-fonte:

    git clone https://github.com/JefferyHcool/BiliNote.git
    cd BiliNote
    mv .env.example .env
    
  2. Instalar o FFmpeg
    O BiliNote depende do FFmpeg para o processamento de áudio e deve ser instalado:

    • Mac: Executar brew install ffmpeg
    • Ubuntu/Debian: Executar sudo apt install ffmpeg
    • Windows (computador)Download e instalação do FFmpeg no site oficial do FFmpeg e certifique-se de que o caminho para o executável do FFmpeg seja adicionado à variável de ambiente do sistema PATH.
  3. Configuração do backend
    Vá para o diretório backend, instale as dependências e inicie o serviço:

    cd backend
    pip install -r requirements.txt
    python main.py
    

    compilador .env para configurar a chave e a porta da API, por exemplo:

    API_BASE_URL=http://localhost:8000
    OUT_DIR=note_results
    IMAGE_BASE_URL=/static/screenshots
    MODEL_PROVIDER=openai
    OPENAI_API_KEY=sk-xxxxxx
    DEEP_SEEK_API_KEY=xxx
    QWEN_API_KEY=xxx
    
  4. Configuração do front-end
    Vá para o diretório do front-end, instale as dependências e inicie o serviço:

    cd BiliNote_frontend
    pnpm install
    pnpm dev
    

    entrevistas http://localhost:5173 Visualize a interface de front-end.

  5. Transcrição de áudio otimizada (opcional)
    Se estiver usando uma GPU NVIDIA, você pode ativar a versão acelerada por CUDA do Fast-Whisper, consulte a seção Projeto Fast-Whisper Configuração.

Implementação do Docker

  1. Certifique-se de que o Docker e o Docker Compose estejam instalados
    Consulte o site do Docker para obter informações sobre a instalação.
  2. Clonar e configurar o projeto
    git clone https://github.com/JefferyHcool/BiliNote.git
    cd BiliNote
    mv .env.example .env
    
  3. Início dos serviços
    Execute o seguinte comando para criar e iniciar o contêiner:

    docker compose up --build
    

    A porta padrão é o front end http://localhost:${FRONTEND_PORT} e back-end http://localhost:${BACKEND_PORT}pode ser encontrado no .env personalizados no arquivo.

Embalagem do Windows

  1. Baixar o arquivo exe
    Visite a página de lançamento do GitHub para fazer o download do pacote do Windows (arquivo exe).
  2. programa de corrida
    Clique duas vezes no arquivo exe para iniciar, sem necessidade de instalar o FFmpeg ou configurar manualmente as variáveis de ambiente. Na primeira vez em que for executado, você precisará inserir a chave da API.
  3. Configuração de chaves de API
    Digite a chave de API para OpenAI, DeepSeek ou Qwen na interface do programa, salve-a e use-a.

Etapas de uso

  1. Visite o BiliNote
    • Implementação local: abra um navegador e acesse http://localhost:5173.
    • Experiência on-line: visite https://www.bilinote.app(possivelmente devido ao carregamento lento das páginas do Cloudflare).
    • Versão em pacote do Windows: clique duas vezes no arquivo exe para iniciar o programa.
  2. Insira o link do vídeo
    Insira um link para um vídeo do Bleep ou do YouTube disponível publicamente na interface, por exemplo. https://www.bilibili.com/video/xxxClique em "Submit" (Enviar) para iniciar o processo. Clique em "Submit" (Enviar) para iniciar o processamento.
  3. Opções de geração de configuração
    • Modelo de IAEscolha OpenAI, DeepSeek ou Qwen para resumir o conteúdo.
    • Inserção de captura de telaMarque se deseja inserir automaticamente capturas de tela de vídeo.
    • link de saltoLink de salto: escolha se deseja ou não gerar um link de salto com um registro de data e hora.
    • estilo de fazer anotaçõesEstilo Acadêmico: Escolha entre Estilo Acadêmico, Estilo Falado ou Modo de Extração Focada (alguns estilos estão sujeitos a suporte de atualização futura).
  4. Gerar notas
    Depois de clicar em "Generate" (Gerar), o BiliNote faz o download do áudio do vídeo, transcreve-o para texto usando o Fast-Whisper e gera anotações Markdown usando o macromodelo selecionado. O tempo de geração depende da duração do vídeo e do desempenho do hardware.
  5. Visualização e exportação de notas
    • As notas são exibidas no formato Markdown com títulos, parágrafos, registros de data e hora e capturas de tela (se ativadas).
    • Clique no carimbo de data/hora para ir para o ponto correspondente no tempo do vídeo original.
    • Há suporte à exportação para arquivos Markdown, com planos futuros de suporte aos formatos PDF, Word e Notion.
    • As notas históricas podem ser visualizadas na tela Task History (Histórico de tarefas), com suporte para visualização e edição.

Operação da função em destaque

  • Transcrição de áudio nativoModelos Fast-Whisper são executados localmente para proteger a privacidade dos dados. Suporta aceleração CUDA para transcrição mais rápida.
  • Suporte a vários modelosQwen: Alterne entre OpenAI, DeepSeek ou Qwen para diferentes idiomas e cenários (por exemplo, Qwen é melhor para vídeos em chinês).
  • Inserção de captura de telaInterceptação automática de quadros-chave de vídeo e inserção dos mesmos nas posições correspondentes das notas para melhorar a legibilidade.
  • Histórico da missãoCada tarefa gerada é salva automaticamente para revisão ou modificação posterior.
  • Embalagem do WindowsFornecer uma experiência pronta para uso para usuários não técnicos e simplificar o processo de instalação.

advertência

  • Os links de vídeo precisam ser acessíveis publicamente; vídeos privados não podem ser processados.
  • O recurso de resumo de conteúdo precisa ser configurado com uma chave de API válida (OpenAI, DeepSeek ou Qwen).
  • O FFmpeg deve estar instalado corretamente (exceto para pacotes do Windows).
  • A experiência on-line pode ser carregada lentamente devido às limitações do Cloudflare Pages, portanto, recomendamos a implantação local ou o uso da versão em pacote do Windows.
  • Garanta a estabilidade da rede para evitar falhas no download de áudio ou nas chamadas de API.

 

cenário do aplicativo

  1. Os alunos organizam suas anotações para aulas on-line
    Os alunos podem fazer anotações em Markdown de vídeos do Beep ou do YouTube, extraindo pontos-chave e registros de tempo para facilitar a revisão e a orientação.
  2. Os criadores de conteúdo coletam material
    Os criadores podem extrair scripts de vídeo ou informações importantes para gerar anotações com capturas de tela para curadoria de conteúdo ou redação.
  3. Arquivamento de conteúdo de treinamento corporativo
    As empresas podem transformar vídeos de treinamento em anotações estruturadas para os funcionários revisarem ou arquivarem, melhorando a eficiência do aprendizado.
  4. Pesquisadores reúnem palestras acadêmicas
    Os pesquisadores podem transformar vídeos de conferências acadêmicas em anotações, extrair ideias e dados essenciais e criar uma base de conhecimento.
  5. Gerenciamento de conhecimento pessoal
    Os usuários podem transformar vídeos de interesse (por exemplo, tutoriais, podcasts) em anotações e salvá-los em sua base de conhecimento pessoal para acesso a qualquer momento.

 

QA

  1. Quais plataformas de vídeo são compatíveis com o BiliNote?
    Atualmente, ele oferece suporte ao Beili e ao YouTube e, no futuro, planeja oferecer suporte ao Jieyin e ao Qunjie.
  2. Qual é a diferença entre uma versão empacotada do Windows e uma implantação local?
    A versão empacotada para Windows elimina a necessidade de instalar manualmente o FFmpeg ou configurar o ambiente para usuários não técnicos. A implantação local é mais flexível, com suporte para configurações personalizadas e aceleração de GPU.
  3. Como posso aumentar a velocidade da transcrição de áudio?
    Para obter uma versão acelerada por CUDA usando um dispositivo de GPU NVIDIA com o Fast-Whisper ativado, consulte o projeto Fast-Whisper.
  4. Preciso usar uma chave de API paga?
    O recurso de resumo de conteúdo requer uma chave de API para OpenAI, DeepSeek ou Qwen (pode haver custos envolvidos). A transcrição de áudio pode ser executada localmente de forma gratuita.
  5. Por que a versão da experiência on-line está carregando lentamente?
    A versão on-line é implantada no Cloudflare Pages e está sujeita a limitações de rede e servidor. Recomenda-se a implantação local ou as versões em pacote do Windows.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " BiliNote: a ferramenta de IA que gera automaticamente notas Markdown a partir de vídeos
pt_BRPortuguês do Brasil