vLLM: um mecanismo de serviço e inferência LLM para utilização eficiente da memória

Recursos mais recentes de IAAtualizado há 7 meses Círculo de compartilhamento de IA

24.1K 00

Introdução geral

O vLLM é um mecanismo de serviço e raciocínio de alto rendimento e eficiente em termos de memória, projetado para Modelagem de Linguagem Grande (LLM). Originalmente desenvolvido pelo Sky Computing Lab da Universidade da Califórnia em Berkeley, agora é um projeto comunitário conduzido tanto pelo setor acadêmico quanto pelo setor industrial. O vLLM tem como objetivo fornecer serviços de raciocínio LLM rápidos, fáceis de usar e econômicos, com suporte para uma ampla variedade de plataformas de hardware, incluindo CUDA, ROCm, TPUs e muito mais. Seus principais recursos incluem loops de execução otimizados, cache de prefixo sem sobrecarga e suporte multimodal aprimorado.

Lista de funções

Raciocínio de alto rendimento: suporta raciocínio paralelo em massa, melhorando significativamente a velocidade de raciocínio.
Eficiência de memória: reduza o espaço ocupado pela memória e melhore a eficiência da operação do modelo otimizando o gerenciamento da memória.
Suporte a vários hardwares: compatível com CUDA, ROCm, TPU e outras plataformas de hardware para uma implementação flexível.
Zero-overhead prefix caching: reduzindo a computação duplicada e melhorando a eficiência da inferência.
Suporte multimodal: oferece suporte a vários tipos de entrada, como texto, imagem etc., para ampliar os cenários de aplicativos.
Comunidade de código aberto: mantida pelo setor acadêmico e pelo setor, continuamente atualizada e otimizada.

Usando a Ajuda

Processo de instalação

Clone o repositório do projeto vLLM:

   git clone https://github.com/vllm-project/vllm.git
cd vllm

Instale a dependência:

   pip install -r requirements.txt

Escolha o Dockerfile correto para a compilação com base na plataforma de hardware:

   docker build -f Dockerfile.cuda -t vllm:cuda .

Diretrizes para uso

Inicie o serviço vLLM:

   python -m vllm.serve --model <模型路径>

Envia uma solicitação de raciocínio:

   import requests
response = requests.post("http://localhost:8000/infer", json={"input": "你好，世界！"})
print(response.json())

Operação detalhada da função

Raciocínio de alto rendimentoO vLLM é capaz de lidar com um grande número de solicitações em um curto período de tempo para cenários altamente simultâneos.
Memória eficienteO vLLM usa uma estratégia de gerenciamento de memória otimizada para reduzir o espaço de memória, tornando-o adequado para execução em ambientes com recursos limitados.
Suporte a vários hardwaresDockerfile: os usuários podem escolher o Dockerfile certo para construir de acordo com a configuração de hardware e implementar com flexibilidade em diferentes plataformas.
Cache de prefixo sem overheadO vLLM reduz a repetição de cálculos e melhora a eficiência da inferência, pois armazena em cache os resultados dos cálculos de prefixo.
suporte multimodalO vLLM não só suporta entrada de texto, mas também pode lidar com vários tipos de entrada, como imagens, expandindo os cenários de aplicativos.