Local-NotebookLM : PDF local pour générer des podcasts vocaux d'outils open source

Dernières ressources sur l'IAPosté il y a 6 mois Cercle de partage de l'IA

13.5K 00

Introduction générale

Local-NotebookLM est un projet open source qui vise à fournir des outils de traitement de documents et de génération de contenu intelligents exécutés localement. Il est soumis à l'approbation de Google NotebookLM Le projet s'inspire du travail de Gökdeniz Gülmez et vise à aider les utilisateurs à convertir des documents tels que les PDF en une variété de formats de sortie, tels que les podcasts, les interviews ou les conférences, tout en prenant en charge le déploiement local afin de garantir la confidentialité des données. Le développeur, Gökdeniz Gülmez, assure la maintenance du projet sur GitHub, en fournissant des étapes et des instructions d'installation claires. Grâce à la prise en charge de documents complexes tels que des articles universitaires, jusqu'à 100 000 mots, et au découpage intelligent, le projet est idéal pour les utilisateurs qui ont besoin d'analyser efficacement des documents ou de générer du contenu créatif. Que vous soyez étudiant, chercheur ou créateur de contenu, il est facile de convertir des documents en audio ou de vous exprimer dans de multiples modes. Local-NotebookLM：本地PDF生成语音播客的开源工具

Liste des fonctions

Traitement intelligent des documentsLes avantages : extraction automatique du texte du PDF, nettoyage des erreurs de formatage, prise en charge des documents académiques contenant des formules mathématiques.
Chunking intelligentLe logiciel de gestion des documents : il divise les fichiers volumineux en segments faciles à gérer et prend en charge des documents pouvant compter jusqu'à 100 000 mots.
Génération de contenu multimodal15 formats de sortie sont disponibles, y compris des podcasts, des interviews, des débats, des conférences, etc.
Support local d'exécutionLe traitement des données est effectué sur l'appareil de l'utilisateur, ce qui garantit la sécurité des données.
Open source et gratuitLe code est disponible publiquement sur GitHub et les utilisateurs sont libres de le télécharger, de le modifier et d'y contribuer.

Utiliser l'aide

Processus d'installation

Pour utiliser Local-NotebookLM localement, vous devez suivre les étapes ci-dessous pour configurer votre environnement et exécuter le projet. Vous trouverez ci-dessous un guide d'installation détaillé qui vous permettra d'être rapidement opérationnel.

1. clonage des entrepôts

Tout d'abord, assurez-vous que Git est installé sur votre appareil. Ouvrez un terminal (Command Prompt ou PowerShell pour les utilisateurs de Windows) et entrez la commande suivante pour cloner le projet localement :

git clone https://github.com/Goekdeniz-Guelmez/Local-NotebookLM.git

Lorsque vous avez terminé, accédez au catalogue de projets :

cd Local-NotebookLM

2. création d'environnements virtuels

Pour éviter les conflits de dépendance, il est recommandé d'utiliser un environnement virtuel Python. Exécutez la commande suivante pour le créer et l'activer :

Linux/macOS: :

python -m venv venv
source venv/bin/activate

Windows (ordinateur): :

python -m venv venv
venv\Scripts\activate

Après l'activation, l'invite du terminal sera précédée par (venv)indiquant que l'environnement virtuel a été saisi.

3. installation des dépendances

Les dépendances du projet sont listées dans requirements.txt fichier. Exécutez la commande suivante pour installer toutes les bibliothèques nécessaires :

pip install -r requirements.txt

La procédure d'installation peut prendre quelques minutes, en fonction de la vitesse du réseau. Une fois l'installation terminée, l'application pip list Vérifiez si l'installation s'est déroulée correctement.

4. exécuter le projet

Une fois l'installation terminée, exécutez directement le fichier principal du programme (en supposant que l'option main.py(Le nom exact du fichier est basé sur la dernière version de GitHub) :

python main.py

Si tout se passe bien, le programme démarre et vous pouvez commencer à utiliser Local-NotebookLM.

Comment utiliser les principales fonctionnalités

Le cœur du Local-NotebookLM réside dans le traitement des documents et la génération de contenu, dont voici les étapes spécifiques.

Fonction 1 : Traitement intelligent des documents

Télécharger des fichiers PDF: :
- Préparez un fichier PDF (par exemple un article ou un rapport universitaire) et placez-le dans le dossier spécifié dans le répertoire du projet (ou directement dans le répertoire racine si cela n'est pas explicitement indiqué).
- Saisissez le chemin d'accès au fichier dans l'interface du programme (ou dans la ligne de commande, selon la version), par exemple :input.pdf.
Extraction et nettoyage de texte: :
- Le programme extrait automatiquement le texte du PDF et supprime les sauts de ligne, les espaces et les erreurs de formatage.
- Pour les documents contenant des formules mathématiques, l'outil tentera de préserver la structure des formules afin de garantir l'intégrité du contenu.
Vue des résultats: :
- Le texte traité est enregistré sous la forme d'un fichier de texte brut (par ex. output.txt), ou affichée directement dans l'interface pour l'étape suivante.

Fonction 2 : regroupement intelligent

Scénarios applicablesLorsqu'un PDF téléchargé dépasse plusieurs milliers de mots, le programme le découpe automatiquement en morceaux.
procédure: :
1. Spécifiez les paramètres de découpage (par exemple, 5000 mots par morceau) lorsque vous exécutez le programme. exemple de commande :
```
python main.py --chunk-size 5000 input.pdf
```
2. Le contenu fragmenté sera enregistré dans l'ordre sous la forme de plusieurs fichiers (par ex. chunk1.txt,chunk2.txt) pour faciliter le suivi.
mise en gardeSi le fichier est trop volumineux, il est recommandé de le diviser à l'avance.

Fonction 3 : Génération de contenu multimode

Sélectionner le format de sortie: :
- Le programme prend en charge 15 modes, tels que les podcasts, les interviews, etc. La durée d'exécution est spécifiée par des paramètres, par exemple
```
python main.py --mode podcast input.txt
```
Générer du contenu: :
- Le programme génère du contenu dans le format correspondant sur la base du texte extrait, par exemple le mode podcast simulera un dialogue entre deux personnes.
- Les résultats générés sont généralement enregistrés sous forme de fichiers audio (par ex. output.mp3) ou des scripts de texte (tels que script.txt).
Jouer ou éditer: :
- Utilisez n'importe quel lecteur audio (par exemple VLC) pour ouvrir le fichier généré. .mp3 ou ajuster le script avec un éditeur de texte et le régénérer.

Conseils d'utilisation et précautions

Exigences environnementalesPour les utilisateurs de Linux, il est recommandé d'utiliser ffmpeg (pour le traitement audio). sudo apt install ffmpegSi vous utilisez Windows, vous devrez télécharger et configurer les variables d'environnement.
chemin d'accès au fichierÉvitez d'utiliser des chemins d'accès en chinois lorsque vous saisissez des chemins d'accès à des fichiers afin d'éviter les erreurs d'encodage.
Problèmes de débogageSi vous obtenez une erreur, vérifiez que les dépendances sont bien installées, ou consultez la page GitHub Issues pour obtenir l'aide de la communauté.
Fonctionnalité étendueLes utilisateurs familiarisés avec la programmation peuvent modifier le code pour ajouter des formats de sortie personnalisés, et la nature open source du projet offre des possibilités illimitées à cet égard.

Grâce à ces étapes, vous pouvez facilement convertir des documents PDF en podcasts ou autres formes de contenu et profiter d'une expérience de traitement localisée et intelligente. Qu'il s'agisse de recherche académique ou de génération d'idées, Local-NotebookLM peut être votre main droite.