Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

堆友AI

일반 소개

Yek은 리포지토리 또는 디렉터리에서 텍스트 파일을 읽고, 청크하고, 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용해 원치 않는 파일을 건너뛰고 Git 기록을 사용해 중요한 파일을 추론합니다. yek는 대략적인 "토큰" 수 또는 바이트 크기를 기준으로 콘텐츠를 청크할 수 있으며, 출력이 파이핑되는지 자동으로 감지합니다. 단일 명령으로 여러 디렉터리 처리를 지원하며 yek.toml 파일을 통해 구성할 수 있습니다.

Yek:读取git仓库文本文件并快速分块,以供大模型使用

 

기능 목록

  • .gitignore 규칙을 사용하여 원치 않는 파일 건너뛰기
  • Git 히스토리를 사용하여 중요한 파일 유추하기
  • 추가 무시 패턴(예: 바이너리 파일, 대용량 파일 등) 추론하기
  • 대략적인 '토큰' 개수 또는 바이트 크기를 기준으로 콘텐츠 청크 처리하기
  • 출력의 파이핑 여부 자동 감지
  • 단일 명령으로 여러 디렉터리 처리 지원
  • yek.toml 파일을 통한 구성

 

도움말 사용

설치 프로세스

유닉스 계열 시스템(macOS, Linux)

curl -fsSL https://bodo.run/yek.sh | bash

Windows(PowerShell)

irm https://bodo.run/yek.ps1 | iex

소스에서 빌드

git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release

사용법

Yek는 기본 설정이 적당하며, 디렉토리 내에서 간단히 yek를 실행하여 전체 리포지토리를 직렬화할 수 있습니다. 기본적으로 리포지토리의 모든 파일을 10MB 청크로 직렬화하고 파일을 임시 디렉터리에 쓰고 파일 경로를 콘솔에 인쇄합니다.

일반적인 예

  • 현재 디렉터리를 처리하고 임시 디렉터리에 씁니다:
yek
  • 출력을 클립보드에 파이프라인으로 연결합니다(macOS):
yek src/ | pbcopy
  • 최대 크기를 128K 토큰으로 제한하고 src 디렉토리만 처리합니다:
yek --max-size 128K --tokens src/
  • 최대 크기를 100KB로 제한하고 src 디렉터리만 처리하고 특정 디렉터리에만 씁니다:
yek --max-size 100KB --output-dir /tmp/yek src/
  • 여러 디렉터리를 처리합니다:
yek src/ tests/

CLI 참조

yek --help

Yek은 LLM 소비를 위한 리포지토리 콘텐츠 청크 및 직렬화 도구입니다.

사용법

yek [OPTIONS] [directories]...

매개변수

  • directories처리할 디렉토리 [기본값: .]

옵션(컴퓨터 소프트웨어 설정에서와 같이)

  • --max-size <max-size>블록당 최대 크기(예: '10MB', '128KB', '1GB') [기본값: 10MB].

한 문장 설명(간략)

 

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...