Introdução geral
O Skywork-R1V é um modelo de raciocínio multimodal de código aberto desenvolvido pela equipe do SkyworkAI (Kunlun Wanwei) e publicado no GitHub. Ele é capaz de processar imagens e textos simultaneamente, realizar raciocínio lógico em várias etapas e é particularmente bom na análise de problemas complexos de imagem. O modelo foi lançado oficialmente em 18 de março de 2025 com um tamanho de parâmetro de 3,8 bilhões. Ele suporta Chain-of-Thought (Cadeia de Pensamento), que pode decompor passo a passo o conteúdo da imagem para ajudar os usuários a resolver problemas de matemática, ciências etc. O Skywork-R1V tem como objetivo impulsionar a tecnologia de IA e disponibilizar ferramentas de raciocínio poderosas gratuitamente para mais pessoas. Ele não é apenas avançado, mas também fornece documentação detalhada e código para os desenvolvedores usarem e aprimorarem.
Lista de funções
- Raciocínio em cadeia do pensamento visualCapacidade de analisar o conteúdo das imagens passo a passo, detalhando questões complexas e fornecendo respostas claras.
- Resolução de problemas de matemáticaReconhecer questões matemáticas em imagens e dar respostas de alta precisão.
- Interpretação de imagens científicasAnálise de imagens médicas ou científicas para extrair informações importantes.
- compreensão multimodalCombina texto e imagens para fornecer resultados de raciocínio mais abrangentes.
- Suporte a código abertoCódigo completo e modelos são fornecidos, permitindo que os usuários os modifiquem e implementem livremente.
Usando a Ajuda
O Skywork-R1V é um projeto de código aberto, os usuários precisam baixá-lo via GitHub e configurar o ambiente localmente para usá-lo. Aqui está um guia detalhado para ajudá-lo a começar rapidamente.
Processo de instalação
- Preparação do ambiente
- Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando
python --versão
Verificar. - O Git precisa ser instalado para fazer o download do código; os usuários do Windows podem fazer o download no site oficial, e os usuários do Linux ou Mac podem fazer o download no terminal digitando
sudo apt install git
talvezbrew install git
Instalação. - Um ambiente de GPU (por exemplo, placa de vídeo NVIDIA) é recomendado para melhorar o desempenho, e o CUDA e o cuDNN precisam ser instalados.
- Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando
- Código de download
- Abra um terminal ou uma linha de comando e digite o seguinte comando para clonar o repositório:
git clone https://github.com/SkyworkAI/Skywork-R1V.git
- Vá para a pasta do projeto:
cd Skywork-R1V
- Abra um terminal ou uma linha de comando e digite o seguinte comando para clonar o repositório:
- Instalação de dependências
- O projeto fornece um arquivo de dependência
. Execute o seguinte comando para instalar as bibliotecas necessárias:
pip install -r requirements.txt
- Se você precisar acelerar o raciocínio, instale o Flash Attention:
pip install flash-attn --no-build-isolation
- O projeto fornece um arquivo de dependência
- Modelos para download
- Os arquivos de modelo do Skywork-R1V estão hospedados no Hugging Face. Acesse
https://huggingface.co/Skywork/Skywork-R1V-38B
Faça o download do arquivo de modelo manualmente ou use o seguinte comando:huggingface-cli download Skywork/Skywork-R1V-38B --local-dir . /model
- Coloque os arquivos de modelo baixados no diretório do projeto no diretório
modelo
Pasta.
- Os arquivos de modelo do Skywork-R1V estão hospedados no Hugging Face. Acesse
- Configuração do ambiente de tempo de execução
- Se houver mais de uma GPU, defina os dispositivos visíveis. Por exemplo, use duas GPUs:
export CUDA_VISIBLE_DEVICES="0,1"
- Se houver mais de uma GPU, defina os dispositivos visíveis. Por exemplo, use duas GPUs:
Como usar os principais recursos
A principal função do Skywork-R1V é o raciocínio por meio de imagens e textos. O procedimento de operação é o seguinte.
Função 1: Raciocínio da cadeia de pensamento visual
- Prepare-se para entrarSalvar imagens para serem analisadas localmente (por exemplo, tópicos de matemática ou diagramas científicos), por exemplo
image1.jpg
. - Preparação de perguntasEspecifique a pergunta no código. Por exemplo, você deseja perguntar "Qual é a resposta para a pergunta de matemática na figura?". .
- raciocínio de execução:: Editorial
preencha o caminho da imagem e a pergunta:
image_paths = ["image1.jpg"] question = "Qual é a resposta para a pergunta de matemática na imagem?"
- executar um comandoExecuta no terminal:
python inference_with_transformers.py ---model_path . /model --image_paths image1.jpg --question "Qual é a resposta para a pergunta de matemática na imagem?"
- Exibir resultadosO programa gera o processo de raciocínio passo a passo e a resposta final.
Função 2: Resolução de problemas de matemática
- imagem de entradaCarregar imagens que contenham fórmulas matemáticas, como títulos manuscritos ou impressos.
- código de execuçãoSimilar à cadeia de pensamento visual, defina o problema como "Solve a maths problem in a picture" (Resolva um problema de matemática em uma imagem) e execute-o:
python inference_with_transformers.py ---model_path . /model --image_paths math_image.jpg --question "Resolva o problema de matemática na imagem"
- Mostra de resultadosO modelo reconhece a fórmula, calcula-a passo a passo e, por fim, fornece a resposta.
Função 3: Interpretação de imagens científicas
- Carregar uma imagemPreparação de imagens médicas ou diagramas científicos, como raios X ou imagens de microscópio de células.
- fazer perguntasDigite perguntas específicas, como "Qual é a estrutura da célula na imagem?" .
- programa de corrida::
python inference_with_transformers.py ---model_path . /model --image_paths science_image.jpg --question "Qual é a estrutura celular na imagem?"
- análise de resultadosO modelo extrai os recursos da imagem e fornece uma explicação detalhada em conjunto com o problema.
Precauções de manuseio
- Formato da imagemFormatos comuns, como JPG e PNG, são suportados, e recomenda-se alta nitidez de imagem.
- Requisitos de hardwareDesempenho: Funciona em computadores sem GPUs, mas é lento. Recomenda-se pelo menos 16 GB de RAM.
- Problemas de depuraçãoSe você encontrar um erro, verifique o
para uma instalação completa ou consulte a página de problemas no GitHub para obter ajuda.
Com as etapas acima, você pode usar facilmente o Skywork-R1V para processar tarefas de imagem e texto. Para uso mais avançado, você pode consultar a documentação oficial .
cenário do aplicativo
- Auxílios educacionais
Os alunos podem usar o Skywork-R1V para analisar perguntas com figuras em suas lições de casa de matemática para obter respostas rápidas e etapas para resolver as perguntas, ajudando a entender os pontos. - pesquisa científica
Os pesquisadores podem fazer upload de imagens de seus experimentos para permitir que o modelo interprete os dados ou o conteúdo da imagem, economizando tempo de análise. - Suporte médico
Os médicos podem inserir imagens de raios X ou microscópicas para aconselhamento de diagnóstico inicial, melhorando a eficiência do trabalho.
QA
- Quais são os idiomas suportados pelo Skywork-R1V?
Atualmente, o suporte principal é para chinês e inglês, e a entrada e a saída de texto podem ser em ambos os idiomas. - Preciso pagar?
Não. O Skywork-R1V é totalmente de código aberto e o código e os modelos estão disponíveis gratuitamente. - Ele funciona sem uma GPU?
É possível, mas a inferência será muito mais lenta. Recomenda-se reduzir a resolução da imagem ao usar a CPU.