ChainForge: 대규모 언어 모델 힌트의 효과를 테스트하고 평가하기 위한 오픈 소스 시각적 프로그래밍 환경

최신 AI 리소스8 개월 전에 게시 됨 AI 공유 서클
1.8K 00

일반 소개

ChainForge는 대규모 언어 모델(LLM)의 프롬프트 효과를 테스트하고 평가하기 위해 설계된 오픈 소스 시각적 프로그래밍 환경입니다. 사용자가 다양한 단서가 LLM의 응답 품질에 미치는 영향을 신속하게 탐색하고 분석할 수 있는 데이터 흐름 큐잉 엔지니어링 환경을 제공하며, OpenAI, HuggingFace, Anthropic 등 다양한 모델 제공업체를 지원하고 단일 인터페이스에서 여러 모델을 비교 및 평가할 수 있습니다. 이 도구는 특히 초기 단계의 큐 탐색과 빠른 반복에 적합하여 사용자가 최적의 응답 품질을 위해 큐 및 모델 설정을 최적화할 수 있도록 도와줍니다.

ChainForge:测试和评估大型语言模型提示效果的开源可视化编程环境

 

기능 목록

  • 다중 모델 쿼리여러 LLM을 동시에 쿼리하여 힌트 아이디어와 변형을 빠르게 테스트하세요.
  • 응답 품질 비교단서, 모델, 모델 설정에 따른 응답 품질 비교.
  • 시각화 평가평가 지표를 설정하고 프롬프트, 매개변수, 모델 및 설정의 결과를 즉시 시각화하세요.
  • 다층적 대화템플릿 매개변수와 채팅 모델 간의 여러 차례의 대화 라운드, 각 대화 라운드의 결과물을 확인하고 평가합니다.
  • 템플릿 팁: 프롬프트를 템플릿으로 만들 수 있을 뿐만 아니라 후속 채팅 메시지도 템플릿으로 만들 수 있습니다.
  • 평가 스트림 예시가능한 사용 시나리오를 보여주기 위해 여러 가지 평가 스트림 예시를 제공합니다.
  • 로컬 및 온라인 설치로컬 설치 및 온라인 평가판을 지원하여 유연하게 사용할 수 있습니다.
  • 여러 모델 지원OpenAI, HuggingFace, Anthropic, Google PaLM2, Azure OpenAI 및 기타 여러 모델 제공업체를 지원합니다.

 

도움말 사용

설치 프로세스

로컬 설치

  1. Python 3.8 이상이 설치되어 있는지 확인합니다.
  2. 다음 명령을 실행하여 ChainForge를 설치합니다:
   pip install chainforge
  1. 설치가 완료되면 다음 명령을 실행하여 체인포지 서버를 시작합니다:
   chainforge serve
  1. 브라우저를 열고 다음 사이트를 방문하세요. localhost:8000지금 바로 체인포지 사용을 시작할 수 있습니다.

Docker로 설치하기

  1. Docker 이미지를 빌드합니다:
   docker build -t chainforge .
  1. Docker 컨테이너를 실행합니다:
   docker run -p 8000:8000 chainforge
  1. 브라우저를 열고 다음 사이트를 방문하세요. 127.0.0.1:8000지금 바로 체인포지 사용을 시작할 수 있습니다.

사용 가이드라인

  1. API 키 설정오른쪽 상단의 설정 아이콘을 클릭하고 OpenAI, Anthropic, Google PaLM 등에 대한 API 키를 입력합니다.
  2. 새 프로젝트 만들기'새 프로젝트' 버튼을 클릭하고 원하는 모델과 프롬프트 템플릿을 선택합니다.
  3. 팁 및 모델 추가하기프로젝트에 프롬프트 템플릿과 모델을 추가하고 테스트를 위한 다양한 매개변수를 설정합니다.
  4. 운영 평가"실행" 버튼을 클릭하면 체인포지는 선택한 모든 모델을 자동으로 쿼리하고 응답 결과를 표시합니다.
  5. 비교 및 시각화시각화 도구를 사용하여 다양한 프롬프트와 모델의 응답 품질을 비교하고 최상의 프롬프트 및 모델 설정을 선택합니다.
  6. 저장 및 공유프로젝트가 완료되면 평가를 저장하고 공유 링크를 생성하여 다른 사람들과 공유할 수 있습니다.

평가 스트림 예시

체인포지는 사용자가 빠르게 시작할 수 있도록 몇 가지 샘플 평가 플로우를 제공합니다. 예를 들어, "응답 길이 비교" 예제를 사용하여 동일한 단서를 가진 여러 모델의 응답 길이를 비교할 수 있습니다. 특정 평가 지표와 시각화를 사용하여 사용자 정의 평가 플로우를 만들 수도 있습니다.

고급 기능

  • 맞춤형 평가 노드사용자가 Python 코드를 작성하여 보다 복잡한 응답 평가를 위해 평가 노드를 사용자 지정할 수 있습니다.
  • 다라운드 대화 평가여러 라운드의 대화 평가가 지원되므로 사용자는 다양한 대화 라운드에 대한 응답 품질을 테스트할 수 있습니다.
  • 데이터 내보내기평가 결과는 추가 분석을 위해 Excel 표로 내보낼 수 있습니다.

ChainForge는 연구자, 개발자, 데이터 과학자가 큐와 모델 설정을 최적화하고 LLM 응답의 품질을 개선할 수 있도록 도와주는 강력한 도구입니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...