Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Skywork-R1V: um modelo de raciocínio multimodal híbrido gráfico de código aberto por Kunlun Wanwen

Introdução geral

O Skywork-R1V é um modelo de raciocínio multimodal de código aberto desenvolvido pela equipe do SkyworkAI (Kunlun Wanwei) e publicado no GitHub. Ele é capaz de processar imagens e textos simultaneamente, realizar raciocínio lógico em várias etapas e é particularmente bom na análise de problemas complexos de imagem. O modelo foi lançado oficialmente em 18 de março de 2025 com um tamanho de parâmetro de 3,8 bilhões. Ele suporta Chain-of-Thought (Cadeia de Pensamento), que pode decompor passo a passo o conteúdo da imagem para ajudar os usuários a resolver problemas de matemática, ciências etc. O Skywork-R1V tem como objetivo impulsionar a tecnologia de IA e disponibilizar ferramentas de raciocínio poderosas gratuitamente para mais pessoas. Ele não é apenas avançado, mas também fornece documentação detalhada e código para os desenvolvedores usarem e aprimorarem.

Skywork-R1V: um modelo de raciocínio multimodal híbrido gráfico para Kunlun Wanwen Open Source-1


 

Lista de funções

  • Raciocínio em cadeia do pensamento visualCapacidade de analisar o conteúdo das imagens passo a passo, detalhando questões complexas e fornecendo respostas claras.
  • Resolução de problemas de matemáticaReconhecer questões matemáticas em imagens e dar respostas de alta precisão.
  • Interpretação de imagens científicasAnálise de imagens médicas ou científicas para extrair informações importantes.
  • compreensão multimodalCombina texto e imagens para fornecer resultados de raciocínio mais abrangentes.
  • Suporte a código abertoCódigo completo e modelos são fornecidos, permitindo que os usuários os modifiquem e implementem livremente.

 

Usando a Ajuda

O Skywork-R1V é um projeto de código aberto, os usuários precisam baixá-lo via GitHub e configurar o ambiente localmente para usá-lo. Aqui está um guia detalhado para ajudá-lo a começar rapidamente.

Processo de instalação

  1. Preparação do ambiente
    • Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando python --versão Verificar.
    • O Git precisa ser instalado para fazer o download do código; os usuários do Windows podem fazer o download no site oficial, e os usuários do Linux ou Mac podem fazer o download no terminal digitando sudo apt install git talvez brew install git Instalação.
    • Um ambiente de GPU (por exemplo, placa de vídeo NVIDIA) é recomendado para melhorar o desempenho, e o CUDA e o cuDNN precisam ser instalados.
  2. Código de download
    • Abra um terminal ou uma linha de comando e digite o seguinte comando para clonar o repositório:
      git clone https://github.com/SkyworkAI/Skywork-R1V.git
      
    • Vá para a pasta do projeto:
      cd Skywork-R1V
      
  3. Instalação de dependências
    • O projeto fornece um arquivo de dependência . Execute o seguinte comando para instalar as bibliotecas necessárias:
      pip install -r requirements.txt
      
    • Se você precisar acelerar o raciocínio, instale o Flash Attention:
      pip install flash-attn --no-build-isolation
      
  4. Modelos para download
    • Os arquivos de modelo do Skywork-R1V estão hospedados no Hugging Face. Acesse https://huggingface.co/Skywork/Skywork-R1V-38BFaça o download do arquivo de modelo manualmente ou use o seguinte comando:
      huggingface-cli download Skywork/Skywork-R1V-38B --local-dir . /model
      
    • Coloque os arquivos de modelo baixados no diretório do projeto no diretório modelo Pasta.
  5. Configuração do ambiente de tempo de execução
    • Se houver mais de uma GPU, defina os dispositivos visíveis. Por exemplo, use duas GPUs:
      export CUDA_VISIBLE_DEVICES="0,1"
      

Como usar os principais recursos

A principal função do Skywork-R1V é o raciocínio por meio de imagens e textos. O procedimento de operação é o seguinte.

Função 1: Raciocínio da cadeia de pensamento visual

  • Prepare-se para entrarSalvar imagens para serem analisadas localmente (por exemplo, tópicos de matemática ou diagramas científicos), por exemplo image1.jpg.
  • Preparação de perguntasEspecifique a pergunta no código. Por exemplo, você deseja perguntar "Qual é a resposta para a pergunta de matemática na figura?". .
  • raciocínio de execução:: Editorial  preencha o caminho da imagem e a pergunta:
    image_paths = ["image1.jpg"]
    question = "Qual é a resposta para a pergunta de matemática na imagem?"
  • executar um comandoExecuta no terminal:
    python inference_with_transformers.py ---model_path . /model --image_paths image1.jpg --question "Qual é a resposta para a pergunta de matemática na imagem?"
    
  • Exibir resultadosO programa gera o processo de raciocínio passo a passo e a resposta final.

Função 2: Resolução de problemas de matemática

  • imagem de entradaCarregar imagens que contenham fórmulas matemáticas, como títulos manuscritos ou impressos.
  • código de execuçãoSimilar à cadeia de pensamento visual, defina o problema como "Solve a maths problem in a picture" (Resolva um problema de matemática em uma imagem) e execute-o:
    python inference_with_transformers.py ---model_path . /model --image_paths math_image.jpg --question "Resolva o problema de matemática na imagem"
    
  • Mostra de resultadosO modelo reconhece a fórmula, calcula-a passo a passo e, por fim, fornece a resposta.

Função 3: Interpretação de imagens científicas

  • Carregar uma imagemPreparação de imagens médicas ou diagramas científicos, como raios X ou imagens de microscópio de células.
  • fazer perguntasDigite perguntas específicas, como "Qual é a estrutura da célula na imagem?" .
  • programa de corrida::
    python inference_with_transformers.py ---model_path . /model --image_paths science_image.jpg --question "Qual é a estrutura celular na imagem?"
    
  • análise de resultadosO modelo extrai os recursos da imagem e fornece uma explicação detalhada em conjunto com o problema.

Precauções de manuseio

  • Formato da imagemFormatos comuns, como JPG e PNG, são suportados, e recomenda-se alta nitidez de imagem.
  • Requisitos de hardwareDesempenho: Funciona em computadores sem GPUs, mas é lento. Recomenda-se pelo menos 16 GB de RAM.
  • Problemas de depuraçãoSe você encontrar um erro, verifique o  para uma instalação completa ou consulte a página de problemas no GitHub para obter ajuda.

Com as etapas acima, você pode usar facilmente o Skywork-R1V para processar tarefas de imagem e texto. Para uso mais avançado, você pode consultar a documentação oficial .

 

cenário do aplicativo

  1. Auxílios educacionais
    Os alunos podem usar o Skywork-R1V para analisar perguntas com figuras em suas lições de casa de matemática para obter respostas rápidas e etapas para resolver as perguntas, ajudando a entender os pontos.
  2. pesquisa científica
    Os pesquisadores podem fazer upload de imagens de seus experimentos para permitir que o modelo interprete os dados ou o conteúdo da imagem, economizando tempo de análise.
  3. Suporte médico
    Os médicos podem inserir imagens de raios X ou microscópicas para aconselhamento de diagnóstico inicial, melhorando a eficiência do trabalho.

 

QA

  1. Quais são os idiomas suportados pelo Skywork-R1V?
    Atualmente, o suporte principal é para chinês e inglês, e a entrada e a saída de texto podem ser em ambos os idiomas.
  2. Preciso pagar?
    Não. O Skywork-R1V é totalmente de código aberto e o código e os modelos estão disponíveis gratuitamente.
  3. Ele funciona sem uma GPU?
    É possível, mas a inferência será muito mais lenta. Recomenda-se reduzir a resolução da imagem ao usar a CPU.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Skywork-R1V: um modelo de raciocínio multimodal híbrido gráfico de código aberto por Kunlun Wanwen
pt_BRPortuguês do Brasil