Yek: чтение текстовых файлов git-репозитория и их быстрая разбивка на части для больших моделей
Общее введение
Yek - это быстрый инструмент на основе Rust для чтения текстовых файлов из репозитория или каталога, их разбивки на части и сериализации для использования в больших языковых моделях (LLM). По умолчанию инструмент использует правила .gitignore для пропуска ненужных файлов и использует историю Git для определения важных файлов. yek может разбивать содержимое на куски на основе приблизительного количества "токенов" или размера байтов, а также автоматически определяет, если вывод передан по трубопроводу. Он поддерживает обработку нескольких каталогов одной командой и настраивается с помощью файла yek.toml.

Список функций
- Использование правила .gitignore для пропуска нежелательных файлов
- Использование истории Git для выявления важных файлов
- Вывод дополнительных шаблонов игнорирования (например, бинарных файлов, больших файлов и т. д.)
- Разбивка содержимого на части на основе приблизительного количества "маркеров" или размера байта
- Автоматическое определение того, является ли выход трубопроводным или нет
- Поддержка обработки нескольких каталогов в одной команде
- Конфигурация через файл yek.toml
Использование помощи
Процесс установки
Unix-подобные системы (macOS, Linux)
curl -fsSL https://bodo.run/yek.sh | bash
Windows (PowerShell)
irm https://bodo.run/yek.ps1 | iex
Сборка из исходных текстов
git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release
Использование
Yek имеет разумные настройки по умолчанию, и вы можете просто запустить yek из каталога, чтобы сериализовать весь репозиторий. По умолчанию он сериализует все файлы в репозитории на куски по 10 МБ и записывает их во временный каталог, а пути к файлам выводит в консоль.
типичный пример
- Обрабатывает текущий каталог и записывает во временный каталог:
yek
- Поместите вывод в буфер обмена (macOS):
yek src/ | pbcopy
- Ограничьте максимальный размер до 128K токенов и обрабатывайте только каталог src:
yek --max-size 128K --tokens src/
- Ограничьте максимальный размер до 100 КБ и обрабатывайте только каталог src, записывайте в определенный каталог:
yek --max-size 100KB --output-dir /tmp/yek src/
- Работает с несколькими каталогами:
yek src/ tests/
Справочник по CLI
yek --help
Yek - это инструмент для разбивки и сериализации содержимого репозитория для использования в LLM.
использование
yek [OPTIONS] [directories]...
параметры
directories
: Каталог для обработки [по умолчанию: .]
опции (как в настройках компьютерного программного обеспечения)
--max-size <max-size>
: Максимальный размер блока (например, '10MB', '128KB', '1GB') [По умолчанию: 10MB].
Описание в одно предложение (краткое)
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...