Yek : lecture des fichiers texte du dépôt git et découpage rapide pour les modèles de grande taille
Introduction générale
Yek est un outil rapide basé sur Rust pour lire des fichiers texte à partir d'un dépôt ou d'un répertoire, les découper en morceaux et les sérialiser pour les utiliser dans de grands modèles de langage (LLM). L'outil utilise les règles .gitignore par défaut pour ignorer les fichiers indésirables et utilise l'historique Git pour déduire les fichiers importants. yek peut découper le contenu en fonction du nombre approximatif de "jetons" ou de la taille des octets, et détecte automatiquement si la sortie est pipée. Il prend en charge le traitement de plusieurs répertoires en une seule commande et est configuré via le fichier yek.toml.

Liste des fonctions
- Utiliser la règle .gitignore pour ignorer les fichiers non désirés
- Utiliser l'historique de Git pour déduire les fichiers importants
- Déduire d'autres modèles d'ignorance (par exemple, les fichiers binaires, les fichiers volumineux, etc.)
- Le découpage du contenu est basé sur le nombre approximatif de "jetons" ou sur la taille des octets.
- Détection automatique de la présence ou non d'un tuyau dans la sortie
- Prise en charge du traitement de plusieurs répertoires en une seule commande
- Configuration via le fichier yek.toml
Utiliser l'aide
Processus d'installation
Systèmes de type Unix (macOS, Linux)
curl -fsSL https://bodo.run/yek.sh | bash
Windows (PowerShell)
irm https://bodo.run/yek.ps1 | iex
Construire à partir de la source
git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release
Utilisation
Yek a des paramètres par défaut raisonnables, et vous pouvez simplement lancer yek à partir d'un répertoire pour sérialiser l'ensemble du référentiel. Par défaut, il sérialise tous les fichiers du référentiel en morceaux de 10 Mo et écrit les fichiers dans un répertoire temporaire, avec les chemins d'accès aux fichiers affichés sur la console.
exemple typique
- Traite le répertoire actuel et écrit dans le répertoire temporaire :
yek
- Pipeline la sortie dans le presse-papiers (macOS) :
yek src/ | pbcopy
- Limiter la taille maximale à 128K jetons et ne traiter que le répertoire src :
yek --max-size 128K --tokens src/
- Limiter la taille maximale à 100 Ko et ne traiter que le répertoire src, écrire dans un répertoire spécifique :
yek --max-size 100KB --output-dir /tmp/yek src/
- Gère plusieurs répertoires :
yek src/ tests/
Référence CLI
yek --help
Yek est un outil de découpage et de sérialisation du contenu d'un référentiel pour la consommation de LLM.
utilisation
yek [OPTIONS] [directories]...
paramètres
directories
Répertoire à traiter [par défaut : .]
options (comme dans les paramètres d'un logiciel informatique)
--max-size <max-size>
Taille maximale par bloc : Taille maximale par bloc (par exemple '10MB', '128KB', '1GB') [Valeur par défaut : 10MB].
Description en une phrase (brève)
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...