BiliNote: la herramienta de inteligencia artificial que genera automáticamente notas Markdown a partir de vídeos

Introducción general

BiliNote es una herramienta de código abierto para tomar notas de vídeo con IA que permite extraer contenido de enlaces de vídeo de BiliBili y YouTube para generar automáticamente notas claramente estructuradas en formato Markdown. Utiliza la transcripción local de audio y una variedad de grandes modelos (como OpenAI, DeepSeek, Qwen) para resumir el contenido , soporte para insertar capturas de pantalla de vídeo y enlaces de salto de marca de tiempo. El proyecto está alojado en GitHub bajo licencia MIT y está disponible como despliegue Docker y como paquete Windows para que estudiantes, creadores e investigadores organicen materiales de estudio o trabajo. La experiencia oficial en línea está desplegada en Cloudflare Pages, cuyo acceso puede ser lento debido a las condiciones de la red.

BiliNote:从视频自动生成Markdown笔记的AI工具

 

Lista de funciones

  • Extrae automáticamente el contenido de los enlaces de vídeo de Beep y YouTube para generar notas Markdown.
  • Transcripción nativa de audio mediante el modelo Fast-Whisper con soporte de privacidad.
  • Admite OpenAI, DeepSeek, Qwen y otros grandes modelos para resumir el contenido principal del vídeo.
  • Inserción opcional de capturas de pantalla de fotogramas clave de vídeo para mejorar la visualización de las notas.
  • Genera notas con marca de tiempo que permiten saltar al momento correspondiente del vídeo original.
  • Proporcionar la función de registro de tareas, puede mirar hacia atrás en la historia de las notas para generar registros.
  • Admite la implantación de Docker con un solo clic para simplificar las instalaciones locales o en la nube.
  • Existe una versión empaquetada (archivo exe) para Windows que no requiere una configuración compleja para su uso.
  • Hay planes para admitir más plataformas de vídeo, como Jitterbug y Shutterbug.

 

Utilizar la ayuda

Instalación y despliegue

BiliNote ofrece tres formas de utilizarlo: despliegue manual, despliegue en Docker y versión empaquetada para Windows. Estos son los pasos detallados:

Despliegue manual

  1. Clonación del código del proyecto
    Ejecute el siguiente comando para obtener el código fuente:

    git clone https://github.com/JefferyHcool/BiliNote.git
    cd BiliNote
    mv .env.example .env
    
  2. Instalar FFmpeg
    BiliNote depende de FFmpeg para el procesamiento de audio y debe estar instalado:

    • Mac: Ejecutar brew install ffmpeg
    • Ubuntu/Debian: Ejecutar sudo apt install ffmpeg
    • Windows (ordenador)Descargue e instale FFmpeg desde el sitio web oficial de FFmpeg y asegúrese de que la ruta al ejecutable de FFmpeg se añade a la variable de entorno del sistema PATH.
  3. Configuración del backend
    Vaya al directorio backend, instale las dependencias e inicie el servicio:

    cd backend
    pip install -r requirements.txt
    python main.py
    

    compilador .env para configurar la clave y el puerto de la API, por ejemplo:

    API_BASE_URL=http://localhost:8000
    OUT_DIR=note_results
    IMAGE_BASE_URL=/static/screenshots
    MODEL_PROVIDER=openai
    OPENAI_API_KEY=sk-xxxxxx
    DEEP_SEEK_API_KEY=xxx
    QWEN_API_KEY=xxx
    
  4. Configuración del front end
    Vaya al directorio del front-end, instale las dependencias e inicie el servicio:

    cd BiliNote_frontend
    pnpm install
    pnpm dev
    

    entrevistas http://localhost:5173 Ver la interfaz del front-end.

  5. Transcripción optimizada de audio (opcional)
    Si utiliza una GPU NVIDIA, puede activar la versión acelerada por CUDA de Fast-Whisper, consulte Proyecto Fast-Whisper Configuración.

Despliegue de Docker

  1. Asegúrese de que Docker y Docker Compose están instalados
    Consulte el sitio web de Docker para la instalación.
  2. Clonar y configurar el proyecto
    git clone https://github.com/JefferyHcool/BiliNote.git
    cd BiliNote
    mv .env.example .env
    
  3. Inicio de los servicios
    Ejecute el siguiente comando para construir e iniciar el contenedor:

    docker compose up --build
    

    El puerto por defecto es el frontal http://localhost:${FRONTEND_PORT} y back-end http://localhost:${BACKEND_PORT}A continuación se muestra un ejemplo del tipo de datos que se pueden encontrar en la base de datos .env personalizados en el expediente.

Versión para Windows

  1. Descargar archivo exe
    Visite la página de publicación de GitHub para descargar el paquete de Windows (archivo exe).
  2. programa de carrera
    Haz doble clic en el archivo exe para iniciarlo, no es necesario instalar FFmpeg ni configurar variables de entorno manualmente. La primera vez que lo ejecute, deberá introducir la clave API.
  3. Configuración de claves API
    Introduce la clave API para OpenAI, DeepSeek o Qwen en la interfaz del programa, guárdala y úsala.

Pasos de uso

  1. Visita BiliNote
    • Despliegue local: abra un navegador y visite http://localhost:5173.
    • Experiencia en línea: visite https://www.bilinote.app(posiblemente debido a la lentitud de carga de las páginas de Cloudflare).
    • Versión empaquetada para Windows: Haga doble clic en el archivo exe para iniciar el programa.
  2. Introducir enlace de vídeo
    Introduzca en la interfaz un enlace a un vídeo Bleep o YouTube de acceso público, por ejemplo. https://www.bilibili.com/video/xxxHaga clic en "Enviar" para iniciar el proceso. Haga clic en "Enviar" para iniciar el proceso.
  3. Opciones de generación de configuraciones
    • Modelo de IA: Elija OpenAI, DeepSeek o Qwen para el resumen de contenidos.
    • Inserción de capturas de pantalla: Marque si desea insertar automáticamente capturas de pantalla de vídeo.
    • saltar enlace: Elija si desea o no generar un enlace de salto con una marca de tiempo.
    • estilo para tomar notas: Elija entre el estilo académico, el estilo hablado o el modo de extracción focalizada (algunos estilos están sujetos a futuras actualizaciones).
  4. Generar notas
    Tras hacer clic en "Generar", BiliNote descarga el audio del vídeo, lo transcribe a texto utilizando Fast-Whisper y genera notas Markdown utilizando el macromodelo seleccionado. El tiempo de generación depende de la duración del vídeo y del rendimiento del hardware.
  5. Visualización y exportación de notas
    • Las notas se muestran en formato Markdown con encabezados, párrafos, marcas de tiempo y capturas de pantalla (si están activadas).
    • Haz clic en la marca de tiempo para saltar al momento correspondiente del vídeo original.
    • Soporte para exportar a archivos Markdown, con planes futuros para soportar PDF, Word y Notion Formato.
    • Las notas históricas pueden consultarse en la pantalla Historial de tareas, que permite verlas y editarlas.

Función destacada Operación

  • Transcripción nativa de audio: Los modelos Fast-Whisper se ejecutan localmente para proteger la privacidad de los datos. Admite aceleración CUDA para una transcripción más rápida.
  • Compatibilidad con varios modelosPermite cambiar entre OpenAI, DeepSeek o Qwen para diferentes idiomas y escenarios (por ejemplo, Qwen es mejor para vídeos en chino).
  • Inserción de capturas de pantalla: Intercepta automáticamente los fotogramas clave de vídeo y los inserta en las posiciones correspondientes de las notas para mejorar la legibilidad.
  • Historia de la misión: Cada tarea generada se guarda automáticamente para su posterior revisión o modificación.
  • Versión para Windows: Ofrezca una experiencia "lista para usar" a los usuarios no técnicos y simplifique el proceso de instalación.

advertencia

  • Los enlaces de vídeo deben ser de acceso público; los vídeos privados no se pueden procesar.
  • La función de resumen de contenidos debe configurarse con una clave API válida (OpenAI, DeepSeek o Qwen).
  • FFmpeg debe estar instalado correctamente (excepto los paquetes de Windows).
  • La experiencia en línea puede cargar lentamente debido a las limitaciones de Cloudflare Pages, por lo que recomendamos desplegar localmente o utilizar la versión empaquetada para Windows.
  • Garantice la estabilidad de la red para evitar fallos en la descarga de audio o en las llamadas a la API.

 

escenario de aplicación

  1. Los estudiantes organizan sus apuntes para las clases en línea
    Los estudiantes pueden tomar notas en Markdown de vídeos de Beep o YouTube, extrayendo los puntos clave y las marcas de tiempo para facilitar la revisión y la orientación.
  2. Los creadores de contenidos recopilan material
    Los creadores pueden extraer guiones de vídeo o información clave para generar notas con capturas de pantalla para la curación de contenidos o la redacción de textos publicitarios.
  3. Archivado de contenidos de formación corporativa
    Las empresas pueden convertir los vídeos de formación en notas estructuradas para que los empleados los revisen o archiven, mejorando la eficacia del aprendizaje.
  4. Los investigadores recopilan conferencias académicas
    Los investigadores pueden convertir los vídeos de conferencias académicas en notas, extraer ideas y datos fundamentales y crear una base de conocimientos.
  5. Gestión del conocimiento personal
    Los usuarios pueden convertir los vídeos de su interés (por ejemplo, tutoriales, podcasts) en notas y guardarlas en su base de conocimientos personal para acceder a ellas en cualquier momento.

 

CONTROL DE CALIDAD

  1. ¿Qué plataformas de vídeo admite BiliNote?
    Actualmente es compatible con Beili y YouTube, y en el futuro prevé serlo con Jieyin y Qunjie.
  2. ¿Cuál es la diferencia entre una versión empaquetada de Windows y una implantación local?
    La versión empaquetada para Windows elimina la necesidad de instalar manualmente FFmpeg o configurar el entorno para usuarios sin conocimientos técnicos. La implantación local es más flexible, ya que admite configuraciones personalizadas y aceleración por GPU.
  3. ¿Cómo puedo aumentar la velocidad de la transcripción de audio?
    Para obtener una versión acelerada por CUDA utilizando un dispositivo GPU NVIDIA con Fast-Whisper activado, consulta el proyecto Fast-Whisper.
  4. ¿Tengo que utilizar una clave API de pago?
    La función de resumen de contenidos requiere una clave API para OpenAI, DeepSeek o Qwen (puede tener coste). La transcripción de audio puede ejecutarse localmente de forma gratuita.
  5. ¿Por qué la versión de la experiencia en línea se carga lentamente?
    La versión en línea se despliega en Cloudflare Pages y está sujeta a limitaciones de red y servidor. Se recomienda la implementación local o las versiones empaquetadas para Windows.
© declaración de copyright
AiPPT

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...