Yek: lectura de archivos de texto de repositorios git y fragmentación rápida de modelos de gran tamaño
Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial 2.1K 00
Introducción general
Yek es una herramienta rápida basada en Rust para leer archivos de texto de un repositorio o directorio, trocearlos y serializarlos para su uso en grandes modelos lingüísticos (LLM). La herramienta utiliza reglas .gitignore por defecto para omitir archivos no deseados y utiliza el historial de Git para inferir archivos importantes. yek puede fragmentar el contenido basándose en recuentos aproximados de "tokens" o tamaños de bytes, y detecta automáticamente si la salida está canalizada. Soporta el procesamiento de múltiples directorios en un solo comando, y se configura a través del archivo yek.toml.

Lista de funciones
- Uso de la regla .gitignore para omitir archivos no deseados
- Uso del historial de Git para deducir archivos importantes
- Inferir patrones de ignorar adicionales (por ejemplo, archivos binarios, archivos grandes, etc.)
- Clasificación de contenidos en función del número aproximado de "tokens" o del tamaño de los bytes
- Detección automática de si la salida está canalizada o no
- Posibilidad de procesar varios directorios en un solo comando
- Configuración mediante el archivo yek.toml
Utilizar la ayuda
Proceso de instalación
Sistemas tipo Unix (macOS, Linux)
curl -fsSL https://bodo.run/yek.sh | bash
Windows (PowerShell)
irm https://bodo.run/yek.ps1 | iex
Construir desde el código fuente
git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release
Utilización
Yek tiene una configuración por defecto razonable, y puede simplemente ejecutar yek desde un directorio para serializar todo el repositorio. Por defecto, serializará todos los archivos del repositorio en trozos de 10 MB y escribirá los archivos en un directorio temporal, con las rutas a los archivos impresas en la consola.
ejemplo típico
- Procesa el directorio actual y escribe en el directorio temporal:
yek
- Canalizar la salida al portapapeles (macOS):
yek src/ | pbcopy
- Limita el tamaño máximo a 128K tokens y procesa sólo el directorio src:
yek --max-size 128K --tokens src/
- Limitar el tamaño máximo a 100KB y procesar sólo el directorio src, escribir en un directorio específico:
yek --max-size 100KB --output-dir /tmp/yek src/
- Maneja múltiples directorios:
yek src/ tests/
Referencia CLI
yek --help
Yek es una herramienta de fragmentación y serialización de contenidos de repositorios para el consumo de LLM.
uso
yek [OPTIONS] [directories]...
parámetros
directories
: Directorio a procesar [por defecto: .]
opciones (como en la configuración de programas informáticos)
--max-size <max-size>
Tamaño máximo por bloque (por ejemplo, "10 MB", "128 KB", "1 GB") [Por defecto: 10 MB].
Descripción en una frase (breve)
© declaración de copyright
El artículo está protegido por derechos de autor y no debe reproducirse sin autorización.
Artículos relacionados
Sin comentarios...