Megrez-3B-Omni: 텍스트, 이미지 및 오디오 멀티모달 이해 및 분석을 지원하는 엔드사이드 멀티모달 이해 모델

42.7K 00

일반 소개

인피니메그레즈는 하드웨어와 소프트웨어의 공동 설계를 통해 효율적인 멀티모달 이해 및 분석을 목표로 인피니전스 AI가 개발한 엣지 인텔리전스 솔루션입니다. 프로젝트의 핵심은 높은 정확도와 빠른 추론으로 통합 이미지, 텍스트 및 오디오 이해를 지원하는 Megrez-3B 모델로, 여러 주요 벤치마크에서 우수한 성능을 보이며 장면 이해 및 광학 문자 인식(OCR)과 같은 작업에 적합합니다. 이 프로젝트는 개발자가 다양한 플랫폼에 쉽게 적용할 수 있도록 완전한 배포 코드를 제공합니다.

Megrez-3B-Omni：端侧多模态理解模型，支持文本、图像、音频多模态理解和分析

기능 목록

그래픽 이해SigLip-400M을 사용하여 이미지 마커를 구성하고 MME, MMVet, OCRBench와 같은 벤치마크에서 우수한 성능을 발휘합니다.
언어 이해뛰어난 텍스트 이해력을 유지하며 C-EVAL 및 MMLU와 같은 벤치마크 테스트에서 우수한 성능을 발휘합니다.
음성 이해중국어 및 영어 음성 입력, 다자간 대화 및 음성 명령 응답을 지원합니다.
빠른 추론하드웨어와 소프트웨어의 공동 설계를 통해 최대 300%의 추론 속도 향상을 달성합니다.
간편한 사용클래식 LLaMA 아키텍처를 채택하여 개발자가 다양한 플랫폼에 쉽게 배포할 수 있습니다.
다양한 애플리케이션더 나은 요약 결과를 제공하기 위해 검색 호출 타이밍을 자동으로 결정하는 풀스택 웹검색 솔루션을 제공합니다.

도움말 사용

설치 프로세스

클론 창고터미널에서 다음 명령을 실행하여 Infini-Megrez 리포지토리를 복제합니다:

   git clone https://github.com/infinigence/Infini-Megrez.git

종속성 설치프로젝트 디렉토리로 이동하여 필요한 종속성을 설치합니다:

   cd Infini-Megrez
pip install -r requirements.txt

모델 다운로드README 파일의 지침에 따라 필요한 모델 파일을 다운로드하여 지정된 디렉토리에 배치합니다.

사용 가이드라인

그래픽 이해::
- 이미지 파일을 지정된 디렉터리에 배치합니다.
- 이미지 이해 스크립트를 실행합니다:
```
 python image_understanding.py --input_dir ./images
```
- 이미지 마커와 분석 결과가 포함된 결과물을 확인합니다.
언어 이해::
- 텍스트 파일을 지정된 디렉터리에 배치합니다.
- 언어 이해 스크립트 실행:
```
 python text_understanding.py --input_dir ./texts
```
- 텍스트 분석 및 이해 결과가 포함된 결과물을 확인합니다.
음성 이해::
- 오디오 파일을 지정된 디렉토리에 배치합니다.
- 음성 이해 스크립트를 실행합니다: bash python speech_understanding.py --input_dir ./audios
- 음성-텍스트 변환 및 분석 결과가 포함된 결과물을 확인하세요.

주요 기능 작동 절차

멀티모달 이해::
- 이미지, 텍스트 및 오디오 파일을 해당 디렉터리에 배치합니다.
- 멀티모달 이해 스크립트를 실행합니다:
```
 python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./audios
```
- 이미지, 텍스트 및 음성에 대한 공동 이해와 분석이 포함된 종합적인 분석 결과를 확인하세요.
웹검색 솔루션::
- WebSearch 모듈을 구성하고 네트워크 연결이 제대로 작동하는지 확인합니다.
- 웹검색 스크립트를 실행합니다: bash python websearch.py --query "输入查询内容"
- 검색 결과 및 요약 보기. 시스템이 자동으로 검색 기능의 호출 여부를 결정하고 최적화된 요약 결과를 제공합니다.

위의 단계를 따르면 사용자는 Infini-Megrez의 기능을 완전히 이해하고 사용하여 효율적인 멀티모달 이해 및 분석을 달성할 수 있습니다.