Megrez-3B-Omni: 텍스트, 이미지 및 오디오 멀티모달 이해 및 분석을 지원하는 엔드사이드 멀티모달 이해 모델

최신 AI 리소스7개월 전 업데이트 AI 공유 서클
2.5K 00

일반 소개

인피니메그레즈는 하드웨어와 소프트웨어의 공동 설계를 통해 효율적인 멀티모달 이해 및 분석을 목표로 인피니전스 AI가 개발한 엣지 인텔리전스 솔루션입니다. 프로젝트의 핵심은 높은 정확도와 빠른 추론으로 통합 이미지, 텍스트 및 오디오 이해를 지원하는 Megrez-3B 모델로, 여러 주요 벤치마크에서 우수한 성능을 보이며 장면 이해 및 광학 문자 인식(OCR)과 같은 작업에 적합합니다. 이 프로젝트는 개발자가 다양한 플랫폼에 쉽게 적용할 수 있도록 완전한 배포 코드를 제공합니다.

Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

 

기능 목록

  • 그래픽 이해SigLip-400M을 사용하여 이미지 마커를 구성하고 MME, MMVet, OCRBench와 같은 벤치마크에서 우수한 성능을 발휘합니다.
  • 언어 이해뛰어난 텍스트 이해력을 유지하며 C-EVAL 및 MMLU와 같은 벤치마크 테스트에서 우수한 성능을 발휘합니다.
  • 음성 이해중국어 및 영어 음성 입력, 다자간 대화 및 음성 명령 응답을 지원합니다.
  • 빠른 추론하드웨어와 소프트웨어의 공동 설계를 통해 최대 300%의 추론 속도 향상을 달성합니다.
  • 간편한 사용클래식 LLaMA 아키텍처를 채택하여 개발자가 다양한 플랫폼에 쉽게 배포할 수 있습니다.
  • 다양한 애플리케이션더 나은 요약 결과를 제공하기 위해 검색 호출 타이밍을 자동으로 결정하는 풀스택 웹검색 솔루션을 제공합니다.

 

도움말 사용

설치 프로세스

  1. 클론 창고터미널에서 다음 명령을 실행하여 Infini-Megrez 리포지토리를 복제합니다:
   git clone https://github.com/infinigence/Infini-Megrez.git
  1. 종속성 설치프로젝트 디렉토리로 이동하여 필요한 종속성을 설치합니다:
   cd Infini-Megrez
pip install -r requirements.txt
  1. 모델 다운로드README 파일의 지침에 따라 필요한 모델 파일을 다운로드하여 지정된 디렉토리에 배치합니다.

사용 가이드라인

  1. 그래픽 이해::
    • 이미지 파일을 지정된 디렉터리에 배치합니다.
    • 이미지 이해 스크립트를 실행합니다:
     python image_understanding.py --input_dir ./images
    
    • 이미지 마커와 분석 결과가 포함된 결과물을 확인합니다.
  2. 언어 이해::
    • 텍스트 파일을 지정된 디렉터리에 배치합니다.
    • 언어 이해 스크립트 실행:
     python text_understanding.py --input_dir ./texts
    
    • 텍스트 분석 및 이해 결과가 포함된 결과물을 확인합니다.
  3. 음성 이해::
    • 오디오 파일을 지정된 디렉토리에 배치합니다.
    • 음성 이해 스크립트를 실행합니다: bash
      python speech_understanding.py --input_dir ./audios
    • 음성-텍스트 변환 및 분석 결과가 포함된 결과물을 확인하세요.

주요 기능 작동 절차

  1. 멀티모달 이해::
    • 이미지, 텍스트 및 오디오 파일을 해당 디렉터리에 배치합니다.
    • 멀티모달 이해 스크립트를 실행합니다:
     python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./audios
    
    • 이미지, 텍스트 및 음성에 대한 공동 이해와 분석이 포함된 종합적인 분석 결과를 확인하세요.
  2. 웹검색 솔루션::
    • WebSearch 모듈을 구성하고 네트워크 연결이 제대로 작동하는지 확인합니다.
    • 웹검색 스크립트를 실행합니다: bash
      python websearch.py --query "输入查询内容"
    • 검색 결과 및 요약 보기. 시스템이 자동으로 검색 기능의 호출 여부를 결정하고 최적화된 요약 결과를 제공합니다.

위의 단계를 따르면 사용자는 Infini-Megrez의 기능을 완전히 이해하고 사용하여 효율적인 멀티모달 이해 및 분석을 달성할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...