Yek: git 리포지토리 텍스트 파일을 읽고 대형 모델을 위해 빠르게 청크 처리하기

최신 AI 리소스7개월 전에 게시 됨 AI 공유 서클
2.6K 00

일반 소개

Yek은 리포지토리 또는 디렉터리에서 텍스트 파일을 읽고, 청크하고, 대규모 언어 모델(LLM)에서 사용하기 위해 직렬화하기 위한 빠른 Rust 기반 도구입니다. 이 도구는 기본적으로 .gitignore 규칙을 사용해 원치 않는 파일을 건너뛰고 Git 기록을 사용해 중요한 파일을 추론합니다. yek는 대략적인 "토큰" 수 또는 바이트 크기를 기준으로 콘텐츠를 청크할 수 있으며, 출력이 파이핑되는지 자동으로 감지합니다. 단일 명령으로 여러 디렉터리 처리를 지원하며 yek.toml 파일을 통해 구성할 수 있습니다.

Yek:读取git仓库文本文件并快速分块,以供大模型使用

 

기능 목록

  • .gitignore 규칙을 사용하여 원치 않는 파일 건너뛰기
  • Git 히스토리를 사용하여 중요한 파일 유추하기
  • 추가 무시 패턴(예: 바이너리 파일, 대용량 파일 등) 추론하기
  • 대략적인 '토큰' 개수 또는 바이트 크기를 기준으로 콘텐츠 청크 처리하기
  • 출력의 파이핑 여부 자동 감지
  • 단일 명령으로 여러 디렉터리 처리 지원
  • yek.toml 파일을 통한 구성

 

도움말 사용

설치 프로세스

유닉스 계열 시스템(macOS, Linux)

curl -fsSL https://bodo.run/yek.sh | bash

Windows(PowerShell)

irm https://bodo.run/yek.ps1 | iex

소스에서 빌드

git clone https://github.com/bodo-run/yek.git
cd yek
cargo build --release

사용법

Yek는 기본 설정이 적당하며, 디렉토리 내에서 간단히 yek를 실행하여 전체 리포지토리를 직렬화할 수 있습니다. 기본적으로 리포지토리의 모든 파일을 10MB 청크로 직렬화하고 파일을 임시 디렉터리에 쓰고 파일 경로를 콘솔에 인쇄합니다.

일반적인 예

  • 현재 디렉터리를 처리하고 임시 디렉터리에 씁니다:
yek
  • 출력을 클립보드에 파이프라인으로 연결합니다(macOS):
yek src/ | pbcopy
  • 최대 크기를 128K 토큰으로 제한하고 src 디렉토리만 처리합니다:
yek --max-size 128K --tokens src/
  • 최대 크기를 100KB로 제한하고 src 디렉터리만 처리하고 특정 디렉터리에만 씁니다:
yek --max-size 100KB --output-dir /tmp/yek src/
  • 여러 디렉터리를 처리합니다:
yek src/ tests/

CLI 참조

yek --help

Yek은 LLM 소비를 위한 리포지토리 콘텐츠 청크 및 직렬화 도구입니다.

사용법

yek [OPTIONS] [directories]...

매개변수

  • directories처리할 디렉토리 [기본값: .]

옵션(컴퓨터 소프트웨어 설정에서와 같이)

  • --max-size <max-size>블록당 최대 크기(예: '10MB', '128KB', '1GB') [기본값: 10MB].

한 문장 설명(간략)

 

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...