Introdução geral
O GLM-Edge é uma série de grandes modelos de linguagem e modelos de compreensão multimodal projetados para dispositivos finais da Universidade de Tsinghua (Smart Spectrum Light Language). Esses modelos incluem o GLM-Edge-1.5B-Chat, o GLM-Edge-4B-Chat, o GLM-Edge-V-2B e o GLM-Edge-V-5B para plataformas de telefone celular, carro e PC, respectivamente. A série de modelos GLM-Edge se concentra na facilidade de implantação prática e na velocidade de inferência, mantendo o alto desempenho, e se destaca nas plataformas Qualcomm Snapdragon e Intel, em particular. Os modelos da série GLM-Edge se concentram na facilidade de implantação e na velocidade de inferência, mantendo um desempenho eficiente, especialmente nas plataformas Qualcomm Snapdragon e Intel. Os usuários podem baixar e usar esses modelos via Huggingface, ModelScope, etc., e realizar a inferência do modelo por meio de vários backends de inferência (por exemplo, transformadores, OpenVINO, vLLM).
Lista de funções
- Várias opções de modelosModelo de compreensão multimodal: fornece modelos de diálogo e modelos de compreensão multimodal em diferentes escalas de parâmetros para uma ampla variedade de dispositivos finais.
- Raciocínio eficienteObtenha velocidades de inferência eficientes nas plataformas Qualcomm Snapdragon e Intel com suporte para esquemas de quantificação híbridos.
- Suporte a várias plataformasModelos: Os modelos estão disponíveis para download no Huggingface, ModelScope e outras plataformas, e suportam uma ampla gama de backends de inferência.
- Fácil de implementarGuia de instalação e uso detalhado para que os usuários possam começar a usar rapidamente.
- Suporte para ajuste finoFornecimento de tutoriais de ajuste fino e arquivos de configuração para dar suporte aos usuários no ajuste fino de seus modelos de acordo com suas necessidades específicas.
Usando a Ajuda
Instalação de dependências
Certifique-se de que você tenha a versão 3.10 ou superior do Python. E instale as dependências da seguinte forma:
pip install -r requirements.txt
raciocínio modelado
Fornecemos vLLM, OpenVINO e transformadores para inferência de back-end, e você pode executar os modelos executando os seguintes comandos:
python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend vllm --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
python cli_demo.py --backend ov --model_path THUDM/glm-edge-1.5b-chat-ov --precision int4
Observação: o modelo de versão do OpenVINO precisa ser convertido. Acesse a página relevante para executar o código de conversão:
python convert_chat.py --model_path THUDM/glm-edge-1.5b-chat --precision int4
python convert.py --model_path THUDM/glm-edge-v-2b --precision int4
Ajuste fino do modelo
Fornecemos código para o ajuste fino do modelo; consulte o tutorial de ajuste fino. A seguir estão as etapas básicas para o ajuste fino:
- Prepare o conjunto de dados e configure os parâmetros de treinamento.
- Execute o script de ajuste fino:
OMP_NUM_THREADS=1 torchrun --standalone --nnodes=1 --nproc_per_node=8 finetune.py data/AdvertiseGen/ THUDM/glm-edge-4b-chat configs/lora. yaml
- Se você precisar continuar o ajuste fino a partir do ponto de salvamento, poderá adicionar um quarto parâmetro:
python finetune.py data/AdvertiseGen/ THUDM/glm-edge-4b-chat configs/lora.yaml yes
Iniciando a WebUI com o Gradio
Você também pode usar o Gradio para iniciar a WebUI:
python cli_demo.py --backend transformers --model_path THUDM/glm-edge-1.5b-chat --precision bfloat16
Raciocínio com a API OpenAI
importar openai
client = openai.Client(api_key="your_api_key", base_url="http://:/v1")
output = client.chat.completions.create(
model="glm-edge-v",
messages=[
{"role": "image_url", "image_url": {"url": "img.png"}}
],
max_tokens=512,
temperature=0.7
)
print(output)