ChainForge: 대규모 언어 모델 힌트의 효과를 테스트하고 평가하기 위한 오픈 소스 시각적 프로그래밍 환경
일반 소개
ChainForge는 대규모 언어 모델(LLM)의 프롬프트 효과를 테스트하고 평가하기 위해 설계된 오픈 소스 시각적 프로그래밍 환경입니다. 사용자가 다양한 단서가 LLM의 응답 품질에 미치는 영향을 신속하게 탐색하고 분석할 수 있는 데이터 흐름 큐잉 엔지니어링 환경을 제공하며, OpenAI, HuggingFace, Anthropic 등 다양한 모델 제공업체를 지원하고 단일 인터페이스에서 여러 모델을 비교 및 평가할 수 있습니다. 이 도구는 특히 초기 단계의 큐 탐색과 빠른 반복에 적합하여 사용자가 최적의 응답 품질을 위해 큐 및 모델 설정을 최적화할 수 있도록 도와줍니다.

기능 목록
- 다중 모델 쿼리여러 LLM을 동시에 쿼리하여 힌트 아이디어와 변형을 빠르게 테스트하세요.
- 응답 품질 비교단서, 모델, 모델 설정에 따른 응답 품질 비교.
- 시각화 평가평가 지표를 설정하고 프롬프트, 매개변수, 모델 및 설정의 결과를 즉시 시각화하세요.
- 다층적 대화템플릿 매개변수와 채팅 모델 간의 여러 차례의 대화 라운드, 각 대화 라운드의 결과물을 확인하고 평가합니다.
- 템플릿 팁: 프롬프트를 템플릿으로 만들 수 있을 뿐만 아니라 후속 채팅 메시지도 템플릿으로 만들 수 있습니다.
- 평가 스트림 예시가능한 사용 시나리오를 보여주기 위해 여러 가지 평가 스트림 예시를 제공합니다.
- 로컬 및 온라인 설치로컬 설치 및 온라인 평가판을 지원하여 유연하게 사용할 수 있습니다.
- 여러 모델 지원OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI 및 기타 여러 모델 제공업체를 지원합니다.
도움말 사용
설치 프로세스
로컬 설치
- Python 3.8 이상이 설치되어 있는지 확인합니다.
- 다음 명령을 실행하여 ChainForge를 설치합니다:
pip install chainforge
- 설치가 완료되면 다음 명령을 실행하여 체인포지 서버를 시작합니다:
chainforge serve
- 브라우저를 열고 다음 사이트를 방문하세요.
localhost:8000
지금 바로 체인포지 사용을 시작할 수 있습니다.
Docker로 설치하기
- Docker 이미지를 빌드합니다:
docker build -t chainforge .
- Docker 컨테이너를 실행합니다:
docker run -p 8000:8000 chainforge
- 브라우저를 열고 다음 사이트를 방문하세요.
127.0.0.1:8000
지금 바로 체인포지 사용을 시작할 수 있습니다.
사용 가이드라인
- API 키 설정오른쪽 상단의 설정 아이콘을 클릭하고 OpenAI, Anthropic, Google PaLM 등에 대한 API 키를 입력합니다.
- 새 프로젝트 만들기'새 프로젝트' 버튼을 클릭하고 원하는 모델과 프롬프트 템플릿을 선택합니다.
- 팁 및 모델 추가하기프로젝트에 프롬프트 템플릿과 모델을 추가하고 테스트를 위한 다양한 매개변수를 설정합니다.
- 운영 평가"실행" 버튼을 클릭하면 체인포지는 선택한 모든 모델을 자동으로 쿼리하고 응답 결과를 표시합니다.
- 비교 및 시각화시각화 도구를 사용하여 다양한 프롬프트와 모델의 응답 품질을 비교하고 최상의 프롬프트 및 모델 설정을 선택합니다.
- 저장 및 공유프로젝트가 완료되면 평가를 저장하고 공유 링크를 생성하여 다른 사람들과 공유할 수 있습니다.
평가 스트림 예시
체인포지는 사용자가 빠르게 시작할 수 있도록 몇 가지 샘플 평가 플로우를 제공합니다. 예를 들어, "응답 길이 비교" 예제를 사용하여 동일한 단서를 가진 여러 모델의 응답 길이를 비교할 수 있습니다. 특정 평가 지표와 시각화를 사용하여 사용자 정의 평가 플로우를 만들 수도 있습니다.
고급 기능
- 맞춤형 평가 노드사용자가 Python 코드를 작성하여 보다 복잡한 응답 평가를 위해 평가 노드를 사용자 지정할 수 있습니다.
- 다라운드 대화 평가여러 라운드의 대화 평가가 지원되므로 사용자는 다양한 대화 라운드에 대한 응답 품질을 테스트할 수 있습니다.
- 데이터 내보내기평가 결과는 추가 분석을 위해 Excel 표로 내보낼 수 있습니다.
ChainForge는 연구자, 개발자, 데이터 과학자가 큐와 모델 설정을 최적화하고 LLM 응답의 품질을 개선할 수 있도록 도와주는 강력한 도구입니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...