튜토리얼이 포함된 DeepSeek 멀티모달 대형 모델 Janus-Pro 원클릭 설치 프로그램
오늘은 강력한 오픈 소스 멀티모달 모델인 DeepSeek 야누스 시리즈의 최신 버전 야누스 프로 . 그림을 읽고 질문에 답할 수 있을 뿐만 아니라 텍스트 설명을 기반으로 그림을 생성할 수도 있습니다. 요컨대, GPT-4V와 유사한 그림을 보는 기능과 스테이블 디퓨전의 그림 그리기 기능을 통합한 것입니다.
이 게시물에서는 야누스의 장단점, 사용 방법, 배포 관련 및 통합 패키지에 대해 설명합니다.

야누스란 무엇인가요?
딥시크 오픈소스 멀티모달 대형 모델은 간단히 말해 사진의 내용을 이해하고 사진을 생성할 수 있는 모델입니다. 현재 야누스, 야누스플로우, 야누스-프로의 세 가지 버전이 있습니다.
자세히 읽어보세요:DeepSeek, 통합 멀티모달 이해 및 생성 모델 출시: 야누스플로우에서 야누스-프로까지
야누스 테스트
색상 인식
여기에 다른 색상의 헬멧 사진을 업로드하고 야누스에게 사진 해석을 맡겼습니다.

야누스의 대답.
이 사진은 빨간색, 흰색, 노란색, 파란색의 헬멧 4개를 보여줍니다. 각 헬멧에는 환기 및 열 방출을 위한 통풍구가 있습니다. 이러한 헬멧은 일반적으로 건설 현장, 공장 또는 기타 안전 장비가 필요한 작업 환경에서 사용됩니다. 이미지의 배경은 흰색으로 안전모 색상이 더 잘 보이도록 했습니다.
야누스는 헬멧의 색상과 개수를 정확하게 식별하는 것을 볼 수 있습니다.
물체 인식
여기서 저는 CNC 기계 사진을 찾아서 야누스에게 던져서 이해하는지 확인했습니다.

야누스의 대답.
이것은 산업용 기계, 특히 수치 제어 기계(CNC 기계)입니다. 기계의 전면에는 기계를 작동하고 모니터링하기 위한 여러 버튼과 디스플레이가 있는 제어판이 있습니다. 기계의 왼쪽에는 공작물이나 재료를 고정할 수 있는 조절 가능한 트레이가 있습니다. 기계 상단에는 작업 공간을 시원하게 유지하기 위한 냉각 팬이 있습니다. 기계의 측면과 전면 패널에는 기계 상태와 작동 정보를 표시하는 여러 디스플레이와 표시기가 있습니다. 기계의 전면과 측면에는 "VNT-600L" 로고가 표시되어 있어 이 제품이 VNT 브랜드의 600L 모델임을 나타냅니다. 전체적인 디자인은 현대적이고 기능적이며 정밀 가공 및 제조에 적합합니다.
여기에는 몇 가지 문제가 있습니다. Janus가 전체 기계의 일반적인 구조를 포함하여이 CNC 기계를 인식 할 수있는 것은 맞습니다. 그러나 여기에는 "VNT-600L" 로고가 잘못 식별되어 있으며, VMC850L이어야 합니다.
텍스트 인식
다음은 공식 예제를 사용한 테스트이며, 야누스가 수학 공식도 인식하는 것을 확인할 수 있습니다.

야누스의 대답.
이 공식은 집합(S)에서 숫자(n)의 위치를 설명하는 함수(A_n)의 정의입니다. 구체적으로, 이 공식은 집합(S)에서 숫자(n)의 위치에 따라 달라지는 함수(A_n)의 값을 정의합니다.
구체적으로 공식은 다음과 같이 정의됩니다:
[A_n = a_0 왼쪽[ 1 + frac{3}{4} sum_{k=1}^{n} frac{4}{9} 오른쪽]^{k}
]
이 공식은 다음과 같이 해석할 수 있습니다:
- 함수(a_0)는 함수(A_n)의 초기값을 정의하는 상수입니다.
- 함수(A_n)의 값은 집합(S)에서 (n)의 위치에 따라 달라집니다.
- (S)에서 (n)의 위치는 집합 (S)에서 (n)의 위치에 따라 값이 달라지는 숫자 (k)로 표현됩니다.
이 공식은 집합 (S)에서 (A_n)의 값을 계산하는 데 사용할 수 있으며, 여기서 (S)는 (n)을 포함하는 집합입니다.
다음 그림과 같이 텍스트 인식이 이상적이지 않은 경우도 있습니다.

빈센느 다이어그램
야누스의 또 다른 큰 매력은 텍스트 생성 그래픽인데, 실제로 사용해 보니 그다지 훌륭하다고 느껴지지 않습니다. 생성 속도가 빠르지 않고 필요한 그래픽 메모리도 높습니다.


하지만... 없는 것보다는 있는 것이 낫다 👍🏻
야누스 시리즈의 다른 버전 간의 차이점
- 1세대 버전인 야누스에서는 '시각적 디커플링'이라는 개념을 처음 도입했습니다. 모델 크기: 13억 개의 매개변수.
- 2세대 버전인 야누스플로우는 이전 버전에 비해 이미지 생성 방식이 개선되어 이미지 생성 속도와 품질이 향상되었습니다.
- 최신 버전인 야누스 프로는 완전히 업그레이드되어 모델 이해도가 크게 향상되었습니다. 모델 크기: 1B와 7B 두 가지 버전이 있습니다.
세 가지 버전은 동일한 제품을 지속적으로 업그레이드하는 것과 같으며, 각 세대마다 상당한 개선이 이루어졌으며, 야누스 프로가 가장 강력한 버전입니다.
로컬 배포
Python 버전 3.10
git clone https://github.com/deepseek-ai/Janus.git
pip install -e .
python demo/app_januspro.py
모델 수정
야누스 프로에는 1B와 7B의 두 가지 버전의 모델이 있으며, 모델마다 다른 비디오 메모리가 필요하며 1B에 비해 7B가 가장 좋습니다.
제가 제공한 통합 팩의 MAC 버전에서는 기본적으로 1B 모델이 사용됩니다.
메모리가 충분하고 7B 모델을 사용하려는 경우, 다음과 같이 설정할 수 있습니다.demo/app_januspro.py
스크립트load_model
메서드의
model_path = "deepseek-ai/Janus-Pro-1B"
로 수정
model_path = "deepseek-ai/Janus-Pro-7B"
물론 Windows 사용자라면 1B 및 7B 부팅 옵션 중에서 선택할 수 있으므로 걱정할 필요가 없습니다.
실행 중인 구성
WIN
Windows NVIDIA 그래픽 1B에는 8G 비디오 메모리가 필요합니다.
통합 패키지를 실행하려면 CUDA 지원이 필요합니다. cuda12.4가 필요합니다.
https://developer.nvidia.com/cuda-12-4-0-download-archive
MAC
MAC은 대부분의 사용자의 구성을 고려하여 여기서는 1B 버전의 모델만 넣었으며, 7B가 필요한 경우 위의 배포 섹션의 단계를 참조하여 모델을 수정할 수 있습니다.
MAC 버전의 경우 메모리 중복을 피하기 위해 제때 메모리를 해제하기 위해 메모리 최적화를 수행했습니다.MAC Apple Silicon M1/M2/M3/M4 칩 16G 메모리.
마지막에 쓰기
이 프로젝트의 적용이 상대적으로 제한적이라고 느끼는 소규모 파트너가 있을 수 있습니다. 하지만 제가 알기로는 야누스의 강력한 그래픽 이해 기능, 엔지니어링 도면, 기술 문서 및 기타 PDF 정보를 지능형 지식 베이스로 활용하는 파트너가 있었습니다.
그가 보내준 스크린샷은 다음과 같습니다:

더 좋은 점은, 지난번 WeChat BOT에 대한 포스팅을 읽어보셨다면, Janus를 연결하여 봇에 사진을 보고 생성하는 기능도 부여할 수 있다는 것입니다!
야누스 프로 원클릭 설치 프로그램 받기
투시 랩스 에디션(공개 버전과 동일한 이름)
Quark:
https://pan.quark.cn/s/55f98151a84c
Baidu.
https://pan.baidu.com/s/19Oy6bbzCv8dL3GtOKffAlg?pwd=xiyi
© 저작권 정책
文章版权归 AI 공유 서클 所有,未经允许请勿转载。
관련 문서
댓글 없음...