Yek: чтение текстовых файлов git-репозитория и их быстрая разбивка на части для больших моделей

Общее введение

Yek - это быстрый инструмент на основе Rust для чтения текстовых файлов из репозитория или каталога, их разбивки на части и сериализации для использования в больших языковых моделях (LLM). По умолчанию инструмент использует правила .gitignore для пропуска ненужных файлов и использует историю Git для определения важных файлов. yek может разбивать содержимое на куски на основе приблизительного количества "токенов" или размера байтов, а также автоматически определяет, если вывод передан по трубопроводу. Он поддерживает обработку нескольких каталогов одной командой и настраивается с помощью файла yek.toml.

Yek:读取git仓库文本文件并快速分块,以供大模型使用

 

Список функций

  • Использование правила .gitignore для пропуска нежелательных файлов
  • Использование истории Git для выявления важных файлов
  • Вывод дополнительных шаблонов игнорирования (например, бинарных файлов, больших файлов и т. д.)
  • Разбивка содержимого на части на основе приблизительного количества "маркеров" или размера байта
  • Автоматическое определение того, является ли выход трубопроводным или нет
  • Поддержка обработки нескольких каталогов в одной команде
  • Конфигурация через файл yek.toml

 

Использование помощи

Процесс установки

Unix-подобные системы (macOS, Linux)

curl -fsSL https://bodo.run/yek.sh | bash

Windows (PowerShell)

irm https://bodo.run/yek.ps1 | iex

Сборка из исходных текстов

git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release

Использование

Yek имеет разумные настройки по умолчанию, и вы можете просто запустить yek из каталога, чтобы сериализовать весь репозиторий. По умолчанию он сериализует все файлы в репозитории на куски по 10 МБ и записывает их во временный каталог, а пути к файлам выводит в консоль.

типичный пример

  • Обрабатывает текущий каталог и записывает во временный каталог:
yek
  • Поместите вывод в буфер обмена (macOS):
yek src/ | pbcopy
  • Ограничьте максимальный размер до 128K токенов и обрабатывайте только каталог src:
yek --max-size 128K --tokens src/
  • Ограничьте максимальный размер до 100 КБ и обрабатывайте только каталог src, записывайте в определенный каталог:
yek --max-size 100KB --output-dir /tmp/yek src/
  • Работает с несколькими каталогами:
yek src/ tests/

Справочник по CLI

yek --help

Yek - это инструмент для разбивки и сериализации содержимого репозитория для использования в LLM.

использование

yek [OPTIONS] [directories]...

параметры

  • directories: Каталог для обработки [по умолчанию: .]

опции (как в настройках компьютерного программного обеспечения)

  • --max-size <max-size>: Максимальный размер блока (например, '10MB', '128KB', '1GB') [По умолчанию: 10MB].

Описание в одно предложение (краткое)

 

© заявление об авторских правах

Похожие статьи

Amurex:开源AI会议记录助手,自动记录会议内容生成总结

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...