Yek: lectura de archivos de texto de repositorios git y fragmentación rápida de modelos de gran tamaño

Introducción general

Yek es una herramienta rápida basada en Rust para leer archivos de texto de un repositorio o directorio, trocearlos y serializarlos para su uso en grandes modelos lingüísticos (LLM). La herramienta utiliza reglas .gitignore por defecto para omitir archivos no deseados y utiliza el historial de Git para inferir archivos importantes. yek puede fragmentar el contenido basándose en recuentos aproximados de "tokens" o tamaños de bytes, y detecta automáticamente si la salida está canalizada. Soporta el procesamiento de múltiples directorios en un solo comando, y se configura a través del archivo yek.toml.

Yek:读取git仓库文本文件并快速分块,以供大模型使用

 

Lista de funciones

  • Uso de la regla .gitignore para omitir archivos no deseados
  • Uso del historial de Git para deducir archivos importantes
  • Inferir patrones de ignorar adicionales (por ejemplo, archivos binarios, archivos grandes, etc.)
  • Clasificación de contenidos en función del número aproximado de "tokens" o del tamaño de los bytes
  • Detección automática de si la salida está canalizada o no
  • Posibilidad de procesar varios directorios en un solo comando
  • Configuración mediante el archivo yek.toml

 

Utilizar la ayuda

Proceso de instalación

Sistemas tipo Unix (macOS, Linux)

curl -fsSL https://bodo.run/yek.sh | bash

Windows (PowerShell)

irm https://bodo.run/yek.ps1 | iex

Construir desde el código fuente

git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release

Utilización

Yek tiene una configuración por defecto razonable, y puede simplemente ejecutar yek desde un directorio para serializar todo el repositorio. Por defecto, serializará todos los archivos del repositorio en trozos de 10 MB y escribirá los archivos en un directorio temporal, con las rutas a los archivos impresas en la consola.

ejemplo típico

  • Procesa el directorio actual y escribe en el directorio temporal:
yek
  • Canalizar la salida al portapapeles (macOS):
yek src/ | pbcopy
  • Limita el tamaño máximo a 128K tokens y procesa sólo el directorio src:
yek --max-size 128K --tokens src/
  • Limitar el tamaño máximo a 100KB y procesar sólo el directorio src, escribir en un directorio específico:
yek --max-size 100KB --output-dir /tmp/yek src/
  • Maneja múltiples directorios:
yek src/ tests/

Referencia CLI

yek --help

Yek es una herramienta de fragmentación y serialización de contenidos de repositorios para el consumo de LLM.

uso

yek [OPTIONS] [directories]...

parámetros

  • directories: Directorio a procesar [por defecto: .]

opciones (como en la configuración de programas informáticos)

  • --max-size <max-size>Tamaño máximo por bloque (por ejemplo, "10 MB", "128 KB", "1 GB") [Por defecto: 10 MB].

Descripción en una frase (breve)

 

© declaración de copyright
AiPPT

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...