Local-NotebookLM: PDF local para generar podcasts de voz de herramientas de código abierto

Últimos recursos sobre IAPublicado hace 1 año Círculo de intercambio de inteligencia artificial

85.4K 00

Introducción general

Local-NotebookLM es un proyecto de código abierto cuyo objetivo es proporcionar herramientas inteligentes de procesamiento de documentos y generación de contenidos de ejecución local. Está sujeto a Google CuadernoLM El proyecto se inspira en el trabajo de Gökdeniz Gülmez, y se centra en ayudar a los usuarios a convertir documentos como PDF en una variedad de formatos de salida, como podcasts, entrevistas o conferencias, al tiempo que admite el despliegue local para garantizar la privacidad de los datos. El desarrollador, Gökdeniz Gülmez, mantiene el proyecto en GitHub y ofrece instrucciones y pasos de instalación claros. Con soporte para documentos complejos como trabajos académicos, de hasta 100.000 palabras, y fragmentación inteligente, el proyecto es ideal para usuarios que necesitan analizar documentos de forma eficiente o generar contenido creativo. Tanto si eres estudiante, investigador o creador de contenidos, te resultará muy sencillo convertir documentos a audio o expresarte de múltiples maneras. Local-NotebookLM：本地PDF生成语音播客的开源工具

Lista de funciones

Tratamiento inteligente de documentosExtracción automática de texto PDF, limpieza de errores de formato, compatibilidad con documentos académicos que contengan fórmulas matemáticas.
Agrupación inteligente: Divide archivos de gran tamaño en segmentos manejables, admitiendo documentos de hasta 100.000 palabras.
Generación de contenidos multimodales15 formatos de salida disponibles: podcasts, entrevistas, debates, conferencias, etc.
Soporte de tiempo de ejecución local: No es necesario depender de servicios en la nube, todo el procesamiento se realiza en el dispositivo del usuario, lo que garantiza la seguridad de los datos.
Código abierto y gratuitoEl código está disponible públicamente en GitHub y los usuarios pueden descargarlo, modificarlo y contribuir.

Utilizar la ayuda

Proceso de instalación

Para utilizar Local-NotebookLM localmente, debe seguir los pasos que se indican a continuación para configurar su entorno y ejecutar el proyecto. A continuación encontrarás una guía de instalación detallada para que puedas ponerte en marcha rápidamente.

1. Clonación de almacenes

En primer lugar, asegúrate de que tienes Git instalado en tu dispositivo. Abre un terminal (Símbolo del sistema o PowerShell para los usuarios de Windows) e introduce el siguiente comando para clonar el proyecto localmente:

git clone https://github.com/Goekdeniz-Guelmez/Local-NotebookLM.git

Cuando haya terminado, vaya al catálogo de proyectos:

cd Local-NotebookLM

2. Creación de entornos virtuales

Para evitar conflictos de dependencias, se recomienda utilizar un entorno virtual Python. Ejecute el siguiente comando para crearlo y activarlo:

Linux/macOS::

python -m venv venv
source venv/bin/activate

Windows (ordenador)::

python -m venv venv
venv\Scripts\activate

Tras la activación, el prompt del terminal irá precedido de (venv)indicando que se ha entrado en el entorno virtual.

3. Instalación de dependencias

Las dependencias del proyecto se enumeran en requirements.txt archivo. Ejecute el siguiente comando para instalar todas las bibliotecas necesarias:

pip install -r requirements.txt

El proceso de instalación puede tardar unos minutos, dependiendo de la velocidad de la red. Una vez completado, el pip list Compruebe si la instalación se ha realizado correctamente.

4. Ejecución del proyecto

Una vez finalizada la instalación, ejecute directamente el archivo principal del programa (suponiendo que se haya instalado la aplicación main.py(El nombre exacto del archivo se basa en la última versión de GitHub):

python main.py

Si todo va bien, el programa se iniciará y podrás empezar a utilizar Local-NotebookLM.

Cómo utilizar las principales funciones

El núcleo de Local-NotebookLM reside en el procesamiento de documentos y la generación de contenidos, y los siguientes son los pasos específicos.

Función 1: Tratamiento inteligente de documentos

Cargar archivos PDF::
- Prepare un archivo PDF (por ejemplo, un trabajo académico o un informe) y colóquelo en la carpeta especificada del directorio del proyecto (o directamente en el directorio raíz si no se indica explícitamente).
- Introduzca la ruta del archivo en la interfaz del programa (o en la línea de comandos, según la versión), por ejemplo:input.pdf.
Extracción y limpieza de textos::
- El programa extrae automáticamente el texto del PDF y elimina los saltos de línea, espacios o errores de formato sobrantes.
- En el caso de los documentos que contienen fórmulas matemáticas, la herramienta intentará preservar la estructura de las fórmulas para garantizar la integridad del contenido.
Resultados::
- El texto procesado se guarda como un archivo de texto sin formato (p. ej. output.txt), o se muestra directamente en la interfaz para el siguiente paso.

Función 2: fragmentación inteligente

Escenarios aplicablesCuando un PDF cargado supera varios miles de palabras, el programa lo trocea automáticamente.
procedimiento::
1. Especifique los parámetros de troceado (por ejemplo, 5000 palabras por trozo) cuando ejecute el programa. comando de ejemplo:
```
python main.py --chunk-size 5000 input.pdf
```
2. El contenido troceado se guarda en orden como varios archivos (por ejemplo. chunk1.txtychunk2.txt) para facilitar el seguimiento.
advertencia: Soporte máximo para 100.000 palabras, si el archivo es demasiado grande, se recomienda dividirlo previamente.

Función 3: Generación de contenidos multimodo

Seleccionar formato de salida::
- El programa admite 15 modos, como podcasts, entrevistas, etc. El tiempo de ejecución se especifica mediante parámetros, por ejemplo
```
python main.py --mode podcast input.txt
```
Generar contenidos::
- El programa genera contenidos en el formato correspondiente a partir del texto extraído; por ejemplo, el modo podcast simulará un diálogo entre dos personas.
- Los resultados generados suelen guardarse como archivos de audio (p. ej. output.mp3) o scripts de texto (como script.txt).
Reproducir o editar::
- Utiliza cualquier reproductor de audio (por ejemplo, VLC) para abrir los archivos generados. .mp3 o ajuste la secuencia de comandos con un editor de texto y vuelva a generarla.

Consejos y precauciones de uso

Requisitos medioambientalesAsegúrese de que la versión de Python es 3.8 o superior, se recomienda ffmpeg (para el procesamiento de audio) y está disponible para los usuarios de Linux. sudo apt install ffmpegSi es usuario de Windows, tendrá que descargar y configurar las variables de entorno.
ruta del archivo: Evite utilizar rutas en chino al introducir las rutas de los archivos para evitar errores de codificación.
Problemas de depuraciónSi obtiene un error, compruebe si las dependencias están completamente instaladas o consulte la página de problemas de GitHub para obtener ayuda de la comunidad.
Funciones ampliadasLos usuarios familiarizados con la programación pueden modificar el código para añadir formatos de salida personalizados, y la naturaleza de código abierto del proyecto ofrece posibilidades ilimitadas para ello.

Con estos pasos, podrá convertir fácilmente documentos PDF en podcasts u otras formas de contenido y disfrutar de una experiencia de procesamiento localizada e inteligente. Tanto si se trata de investigación académica como de generación de ideas, Local-NotebookLM puede ser su mano derecha.