vLLM: 효율적인 메모리 활용을 위한 LLM 추론 및 서비스 엔진

49.8K 00

일반 소개

vLLM은 대규모 언어 모델링(LLM)을 위해 설계된 처리량이 많고 메모리 효율이 높은 추론 및 서비스 엔진입니다. 원래 UC 버클리의 스카이 컴퓨팅 연구소에서 개발되었으나 현재는 학계와 업계가 주도하는 커뮤니티 프로젝트입니다. vLLM은 빠르고 사용하기 쉬우며 비용 효율적인 LLM 추론 서비스를 제공하는 것을 목표로 CUDA, ROCm, TPU 등을 포함한 광범위한 하드웨어 플랫폼을 지원합니다. 주요 기능으로는 최적화된 실행 루프, 제로 오버헤드 접두사 캐싱, 향상된 멀티모달 지원 등이 있습니다.

기능 목록

높은 처리량 추론: 대규모 병렬 추론을 지원하여 추론 속도를 크게 향상시킵니다.
메모리 효율: 메모리 관리를 최적화하여 메모리 사용량을 줄이고 모델 운영 효율성을 개선합니다.
멀티 하드웨어 지원: 유연한 배포를 위해 CUDA, ROCm, TPU 및 기타 하드웨어 플랫폼과 호환됩니다.
제로 오버헤드 접두사 캐싱: 중복 계산을 줄이고 추론 효율성을 개선합니다.
멀티 모달 지원: 텍스트, 이미지 등 여러 입력 유형을 지원하여 애플리케이션 시나리오를 확장합니다.
오픈 소스 커뮤니티: 학계와 업계에서 유지 관리하며 지속적으로 업데이트하고 최적화합니다.

도움말 사용

설치 프로세스

vLLM 프로젝트 리포지토리를 복제합니다:

   git clone https://github.com/vllm-project/vllm.git
cd vllm

종속성을 설치합니다:

   pip install -r requirements.txt

하드웨어 플랫폼에 따라 빌드에 적합한 도커파일을 선택합니다:

   docker build -f Dockerfile.cuda -t vllm:cuda .

사용 가이드라인

vLLM 서비스를 시작합니다:

   python -m vllm.serve --model <模型路径>

추론 요청을 보냅니다:

   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好，世界！"})
print(response.json())

세부 기능 작동

높은 처리량 추론추론 작업을 병렬화함으로써 vLLM은 동시 접속이 많은 시나리오에서 단기간에 많은 요청을 처리할 수 있습니다.
메모리 효율vLLM은 최적화된 메모리 관리 전략을 사용하여 메모리 공간을 줄이므로 리소스가 제한된 환경에서 실행하기에 적합합니다.
여러 하드웨어 지원사용자는 하드웨어 구성에 따라 적합한 Docker파일을 선택하여 빌드하고 다양한 플랫폼에 유연하게 배포할 수 있습니다.
제로 오버헤드 접두사 캐싱접두사 계산 결과를 캐싱함으로써 vLLM은 반복 계산을 줄이고 추론 효율성을 개선합니다.
멀티모달 지원vLLM은 텍스트 입력뿐만 아니라 이미지 등 다양한 입력 유형을 처리할 수 있어 적용 시나리오를 확장할 수 있습니다.