Qwen2.5-VL 노트북 예제 세부 정보: 멀티모달 시각 모델 시작하기

63.6K 00

최근 Qwen 팀은 자랑스럽게도 일련의 Qwen2.5-VL 사용 사례 노트 예시이 노트북은 네이티브 모델과 API의 강력한 기능을 포괄적으로 보여줍니다. 세심하게 제작된 이 노트북 모음은 개발자와 사용자가 네이티브 모델에 대해 더 깊이 이해할 수 있도록 설계되었습니다. Qwen2.5-VL 강력한 시각적 이해를 바탕으로 더욱 혁신적인 애플리케이션을 개발할 수 있습니다.

노트북 예제: Qwen2.5-VL 시작하기

이러한 자세한 노트북 예제를 통해 개발자는 다음을 수행할 수 있습니다. Qwen 2.5-VL 모델이 모든 작업에서 어떤 성능을 발휘하는지 직접 확인해 보세요!Qwen2.5-VL 복잡한 문서 구문 분석, 정확한 OCR 작업 수행, 심층적인 비디오 콘텐츠 이해 등 어떤 작업을 처리하든 Qwen2.5-VL은 효율적이고 정확한 피드백을 제공하여 뛰어난 성능을 입증합니다.

동시에 Qwen 팀은 Qwen 2.5-VL의 기능을 개선 및 확장하고 멀티모달 기술 개발을 촉진하기 위해 함께 노력하기 위해 커뮤니티의 피드백과 기여를 기대하고 있습니다.

🔗 관련:

GitHub 리포지토리. https://github.com/QwenLM/Qwen2.5-VL/tree/main/cookbooks
온라인 경험. https://chat.qwenlm.ai(Qwen2.5-VL-72B-Instruct 모델 선택)
모델 범위 모델 링크: https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
파슨스 브린커호프 API 인터페이스. https://help.aliyun.com/zh/model-studio/user-guide/vision/

노트북 예시 자세히 보기

01 컴퓨터 사용

이 노트북 예제에서는 Qwen2.5-VL을 사용하여 컴퓨터 사용과 관련된 작업을 수행하는 방법을 보여 드립니다.

사용자는 컴퓨터 바탕 화면의 스크린샷을 찍고 쿼리하기만 하면 Qwen2.5-VL 모델이 스크린샷의 내용을 분석하고 사용자의 의도를 파악한 다음 클릭 또는 입력과 같은 정확한 지침을 생성하여 컴퓨터를 지능적으로 제어할 수 있습니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/computer_use.ipynb

02 공간 이해

이 노트북 예제는 정확한 물체 감지 및 이미지 내 특정 대상의 위치 파악을 포함한 Qwen2.5-VL의 고급 공간 위치 파악 기능을 강조합니다.

이 사례는 Qwen2.5-VL이 시각적 이해와 언어적 이해를 효과적으로 통합하여 복잡한 시나리오를 정확하게 해석하고 고급 공간 추론을 가능하게 하는 방법에 대한 인사이트를 제공합니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/spatial_understanding.ipynb

03 문서 구문 분석

이 노트북 예제는 Qwen2.5-VL의 강력한 문서 구문 분석 기능을 강조합니다. 다양한 이미지 형식의 문서를 처리하고 파싱된 결과를 HTML, JSON, MD 및 LaTeX를 포함한 다양한 형식으로 출력할 수 있습니다.

특히 주목할 만한 점은 Qwen이 독자적인 QwenVL HTML 형식을 혁신적으로 도입한 것입니다. 이 형식에는 문서 내 각 구성 요소의 위치에 대한 정보가 포함되어 있어 문서를 정확하게 재구성하고 유연하게 조작할 수 있습니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

04 모바일 에이전트(모바일 디바이스 에이전트)

이 노트북 예제에서는 Qwen2.5-VL의 에이전트 기능을 사용하여 모바일 장치와 지능적으로 상호 작용하는 방법을 보여 줍니다.

이 예는 Qwen2.5-VL 모델이 사용자의 쿼리와 모바일 디바이스의 시각적 컨텍스트를 기반으로 작업을 생성하고 실행하여 모바일 디바이스를 쉽게 제어할 수 있는 방법을 보여줍니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/mobile_agent.ipynb

05 OCR(광학 문자 인식)

이 노트북 예제는 이미지에서 텍스트 정보를 정확하게 추출하고 인식하는 등 Qwen2.5-VL의 OCR(광학 문자 인식) 기능을 시연하는 데 중점을 둡니다.

사용자는 예제를 통해 Qwen2.5-VL이 복잡한 시나리오에서 텍스트 콘텐츠를 정확하게 캡처하고 해석하는 방법을 직관적으로 이해할 수 있으며, 강력한 텍스트 인식 기능을 보여줄 수 있습니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/ocr.ipynb

06 범용 인식

이 노트북 예제는 일반 객체 인식에 Qwen2.5-VL을 사용하는 방법을 보여줍니다.

Qwen2.5-VL 모델은 이미지를 분석하고 사용자의 쿼리 의도를 이해한 후 해당 인식 결과를 제공하여 이미지 콘텐츠에 대한 포괄적인 이해를 달성합니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/universal_recognition.ipynb

07 비디오 이해

Qwen2.5-VL은 강력한 장시간 동영상 이해 기능을 갖추고 있으며 1시간 이상의 동영상 콘텐츠를 처리할 수 있습니다. 이 노트북 예제에서는 동영상 이해 작업을 위한 Qwen2.5-VL 모델의 기능에 대해 자세히 살펴봅니다.

Qwen2.5-VL은 기본 OCR(광학 문자 인식)부터 복잡한 이벤트 감지 및 콘텐츠 요약에 이르기까지 광범위한 비디오 분석 시나리오에서 그 잠재력을 입증하도록 설계되었습니다.

👉 노트북 링크. https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/video_understanding.ipynb

매직 히치 모범 사례: 무료 산수 놀이 쿡북 예시

모델스코프 매직 히치 커뮤니티에서 사용자는 무료 산술을 통해 이러한 쿡북 예제를 쉽게 체험할 수 있습니다.

먼저 Qwen2.5-VL 코드를 다운로드합니다.

git clone https://github.com/QwenLM/Qwen2.5-VL.git

노트북에서 모델 API를 사용하세요: MagicBuilder 플랫폼 API-Inference는 Qwen2.5-VL 모델 제품군을 위한 무료 API를 제공하며, 이 API는 쿡북에서 기본 URL을 대체하고 MagicBuilder SDK를 작성하여 API 호출을 통해 사용자가 직접 사용할 수 있습니다. 토큰 준비 완료.자세한 문서: https://www.modelscope.cn/docs/model-service/API-Inference/intro

from openai import OpenAI
client = OpenAI(
    api_key="<MODELSCOPE_SDK_TOKEN>", # ModelScope Token
    base_url="https://api-inference.modelscope.cn/v1"
)


response = client.chat.completions.create(
    model="Qwen/Qwen2.5-VL-72B-Instruct", # ModelScope Model-Id
    messages = [
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {"url": "https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/bird-vl.jpg"}
                },
                {   "type": "text",
                    "text": "Count the number of birds in the figure, including those that are only showing their heads. To ensure accuracy, first detect their key points, then give the total number."
                },
            ],
        }
    ],
    stream=True
    )

노트북은 로컬 모델을 사용합니다: GPU 모델을 선택하세요.

결론: 함께 미래를 경험하고 만들어가는 것을 환영합니다.

앞으로 Qwen 팀은 개발자에게 보다 포괄적인 솔루션을 제공하기 위해 더 유용한 기능과 애플리케이션 시나리오를 통합하기 위해 이러한 노트북 예제를 지속적으로 업데이트하고 확장할 예정입니다. 이 노트북 예제를 체험하고 여러분의 경험과 혁신적인 애플리케이션을 공유하기 위해 Qwen2.5-VL의 GitHub 리포지토리 또는 ModelScope를 방문해 주세요! Qwen 팀은 여러분과 함께 Qwen2.5-VL의 가능성을 탐구하기를 고대하고 있습니다.