Skywork-R1V: um modelo de raciocínio multimodal híbrido gráfico de código aberto por Kunlun Wanwen

Recursos mais recentes de IAPublicado há 6 meses Círculo de compartilhamento de IA

15.7K 00

Introdução geral

O Skywork-R1V é um modelo de raciocínio multimodal de código aberto desenvolvido pela equipe do SkyworkAI (Kunlun Wanwei) e publicado no GitHub. Ele é capaz de processar imagens e textos simultaneamente, realizar raciocínio lógico em várias etapas e é particularmente bom na análise de problemas complexos de imagem. O modelo foi lançado oficialmente em 18 de março de 2025 com um tamanho de parâmetro de 3,8 bilhões. Ele suporta Chain-of-Thought (Cadeia de Pensamento), que pode decompor passo a passo o conteúdo da imagem para ajudar os usuários a resolver problemas de matemática, ciências etc. O Skywork-R1V tem como objetivo impulsionar a tecnologia de IA e disponibilizar ferramentas de raciocínio poderosas gratuitamente para mais pessoas. Ele não é apenas avançado, mas também fornece documentação detalhada e código para os desenvolvedores usarem e aprimorarem.

Lista de funções

Raciocínio em cadeia do pensamento visualCapacidade de analisar o conteúdo das imagens passo a passo, detalhando questões complexas e fornecendo respostas claras.
Resolução de problemas de matemáticaReconhecer questões matemáticas em imagens e dar respostas de alta precisão.
Interpretação de imagens científicasAnálise de imagens médicas ou científicas para extrair informações importantes.
compreensão multimodalCombina texto e imagens para fornecer resultados de raciocínio mais abrangentes.
Suporte a código abertoCódigo completo e modelos são fornecidos, permitindo que os usuários os modifiquem e implementem livremente.

Usando a Ajuda

O Skywork-R1V é um projeto de código aberto, os usuários precisam baixá-lo via GitHub e configurar o ambiente localmente para usá-lo. Aqui está um guia detalhado para ajudá-lo a começar rapidamente.

Processo de instalação

Preparação do ambiente
- Certifique-se de ter o Python 3.8 ou superior instalado em seu computador. Isso pode ser feito com o comando python --version Verificar.
- O Git precisa ser instalado para fazer o download do código; os usuários do Windows podem fazer o download no site oficial, e os usuários do Linux ou Mac podem fazer o download no terminal digitando sudo apt install git talvez brew install git Instalação.
- Um ambiente de GPU (por exemplo, placa de vídeo NVIDIA) é recomendado para melhorar o desempenho, e o CUDA e o cuDNN precisam ser instalados.
Código de download
- Abra um terminal ou uma linha de comando e digite o seguinte comando para clonar o repositório:
```
git clone https://github.com/SkyworkAI/Skywork-R1V.git
```
- Vá para a pasta do projeto:
```
cd Skywork-R1V
```
Instalação de dependências
- O projeto fornece um arquivo de dependência <requirements.txt>. Execute o seguinte comando para instalar as bibliotecas necessárias:
```
pip install -r requirements.txt
```
- Se você precisar acelerar o raciocínio, instale o Flash Attention:
```
pip install flash-attn --no-build-isolation
```
Modelos para download
- Os arquivos de modelo do Skywork-R1V estão hospedados no Hugging Face. Acesse https://huggingface.co/Skywork/Skywork-R1V-38BFaça o download do arquivo de modelo manualmente ou use o seguinte comando:
```
huggingface-cli download Skywork/Skywork-R1V-38B --local-dir ./model
```
- Coloque os arquivos de modelo baixados no diretório do projeto no diretório model Pasta.
Configuração do ambiente de tempo de execução
- Se houver mais de uma GPU, defina os dispositivos visíveis. Por exemplo, use duas GPUs:
```
export CUDA_VISIBLE_DEVICES="0,1"
```

Como usar os principais recursos

A principal função do Skywork-R1V é o raciocínio por meio de imagens e textos. O procedimento de operação é o seguinte.

Função 1: Raciocínio da cadeia de pensamento visual

Prepare-se para entrarSalvar imagens para serem analisadas localmente (por exemplo, tópicos de matemática ou diagramas científicos), por exemplo image1.jpg.
Preparação de perguntasEspecifique a pergunta no código. Por exemplo, você deseja perguntar "Qual é a resposta para a pergunta de matemática na figura?". .
raciocínio de execução:: Editorial <inference_with_transformers.py> preencha o caminho da imagem e a pergunta:
```
image_paths = ["image1.jpg"]
question = "图片中的数学题答案是什么？"
```

executar um comandoExecuta no terminal:

python inference_with_transformers.py --model_path ./model --image_paths image1.jpg --question "图片中的数学题答案是什么？"

Exibir resultadosO programa gera o processo de raciocínio passo a passo e a resposta final.

Função 2: Resolução de problemas de matemática

imagem de entradaCarregar imagens que contenham fórmulas matemáticas, como títulos manuscritos ou impressos.
código de execuçãoSimilar à cadeia de pensamento visual, defina o problema como "Solve a maths problem in a picture" (Resolva um problema de matemática em uma imagem) e execute-o:
```
python inference_with_transformers.py --model_path ./model --image_paths math_image.jpg --question "求解图片中的数学问题"
```
Mostra de resultadosO modelo reconhece a fórmula, calcula-a passo a passo e, por fim, fornece a resposta.

Função 3: Interpretação de imagens científicas

Carregar uma imagemPreparação de imagens médicas ou diagramas científicos, como raios X ou imagens de microscópio de células.
fazer perguntasDigite perguntas específicas, como "Qual é a estrutura da célula na imagem?" .

programa de corrida::

python inference_with_transformers.py --model_path ./model --image_paths science_image.jpg --question "图片中的细胞结构是什么？"

análise de resultadosO modelo extrai os recursos da imagem e fornece uma explicação detalhada em conjunto com o problema.

Precauções de manuseio

Formato da imagemFormatos comuns, como JPG e PNG, são suportados, e recomenda-se alta nitidez de imagem.
Requisitos de hardwareDesempenho: Funciona em computadores sem GPUs, mas é lento. Recomenda-se pelo menos 16 GB de RAM.
Problemas de depuraçãoSe você encontrar um erro, verifique o <requirements.txt> para uma instalação completa ou consulte a página de problemas no GitHub para obter ajuda.

Com as etapas acima, você pode usar facilmente o Skywork-R1V para processar tarefas de imagem e texto. Para uso mais avançado, você pode consultar a documentação oficial <Skywork_R1V.pdf>.

cenário do aplicativo

Auxílios educacionais
Os alunos podem usar o Skywork-R1V para analisar perguntas com figuras em suas lições de casa de matemática para obter respostas rápidas e etapas para resolver as perguntas, ajudando a entender os pontos.
pesquisa científica
Os pesquisadores podem fazer upload de imagens de seus experimentos para permitir que o modelo interprete os dados ou o conteúdo da imagem, economizando tempo de análise.
Suporte médico
Os médicos podem inserir imagens de raios X ou microscópicas para aconselhamento de diagnóstico inicial, melhorando a eficiência do trabalho.

QA

Quais são os idiomas suportados pelo Skywork-R1V?
Atualmente, o suporte principal é para chinês e inglês, e a entrada e a saída de texto podem ser em ambos os idiomas.
Preciso pagar?
Não. O Skywork-R1V é totalmente de código aberto e o código e os modelos estão disponíveis gratuitamente.
Ele funciona sem uma GPU?
É possível, mas a inferência será muito mais lenta. Recomenda-se reduzir a resolução da imagem ao usar a CPU.