Bee - 텐센트 혼합 메타 및 칭화 오픈소스 풀스택 멀티모달 대형 모델 프로젝트

최신 AI 리소스1개월 전 게시 됨 AI 공유 서클
13.9K 00
堆友AI

Bee가 무엇인가요?

Bee는 데이터 품질을 개선하여 오픈 소스 모델과 폐쇄 소스 모델 간의 성능 격차를 좁히기 위해 텐센트 혼합 요소 팀과 칭화대학교가 공동으로 출시한 풀스택 오픈 소스 멀티모달 대규모 모델 솔루션입니다. 이 프로젝트는 세 가지 핵심 성과로 구성되어 있습니다. 1,500만 개 규모의 고품질 이중 레이어 CoT 데이터 세트인 Honey-Data-15M, 오픈 소스 데이터 향상 도구인 HoneyPipe 및 DataStudio, 그리고 데이터 세트를 기반으로 학습된 8B 모델인 Bee-8B는 여러 벤치마크에서 특히 수학적 추론 및 다이어그램 이해 작업에서 주류 세미 오픈 소스 모델보다 뛰어난 성능을 보였습니다. 주류 세미 오픈 소스 모델보다 성능이 뛰어납니다. 이 프로젝트는 데이터 세트와 방법론을 공개적으로 사용 가능하게 함으로써 오픈 소스 커뮤니티에 MLLM 성능 향상을 위한 중요한 인프라를 제공했습니다.

Bee - 腾讯混元联合清华开源的全栈多模态大模型项目

Bee의 특징

  • 고품질 데이터 세트데이터 품질을 크게 개선하고 모델 학습을 위한 견고한 기반을 제공하는 미세 정제 및 2계층 CoT(Chain of Thought)로 확장된 Honey-Data-15M 데이터 세트를 제공합니다.
  • 풀스택 오픈 소스 파이프라인데이터 집계, 노이즈 필터링, 추론 향상에 이르는 전체 프로세스를 포괄하는 오픈 소스 HoneyPipe 및 DataStudio로, 데이터 처리의 투명성과 재현성을 보장합니다.
  • 고성능 모델고품질 데이터로 학습된 Bee-8B 모델은 여러 벤치마크 테스트에서 모든 오픈소스 멀티모달 대형 모델에 대한 새로운 성능 기록을 세웠으며, 뛰어난 추론 및 이해 능력을 입증했습니다.
  • 멀티모달 융합이미지, 텍스트 등 여러 양식의 융합 처리를 지원하며 시각적 질의응답, 이미지 설명 생성 등과 같은 멀티모달 애플리케이션 시나리오에 적합합니다.
  • 추론 향상복잡한 문제 해결에서 모델의 성능을 향상시키기 위해 짧은 CoT 및 긴 CoT 전략을 통해 복잡한 작업에 대한 세부 추론 프로세스를 생성합니다.
  • 커뮤니티 중심데이터 세트, 도구, 모델 가중치를 제공하고 커뮤니티 참여와 기여를 장려하며 기술의 지속적인 발전을 촉진하는 오픈 소스 생태계를 구축합니다.
  • 유연한 배포로컬 배포 및 클라우드 배포를 포함한 다양한 배포 방법을 지원하여 다양한 사용자의 요구를 충족합니다.
  • 지속적인 최적화데이터 기여 인센티브 및 온라인 학습 패러다임을 통한 지속적인 모델 진화 및 성능 개선.

Bee의 핵심 강점

  • 우수한 데이터 품질다단계 정제 및 2계층 CoT(Chain of Thought) 확장을 통해 고품질의 Honey-Data-15M 데이터셋을 구축하여 데이터의 정확도와 추론 깊이를 크게 향상시킵니다.
  • 풀스택 오픈 소스 투명성데이터 처리부터 모델 학습에 이르는 풀스택 오픈 소스 도구(HoneyPipe, DataStudio 포함)를 제공하여 프로세스 전반의 투명성과 재현성을 보장합니다.
  • 모범 성과 리더십Bee-8B 모델은 여러 벤치마크에서 모든 오픈 소스 멀티모달 대형 모델에 대한 성능 기록을 세우며 강력한 추론과 복잡한 작업 처리 능력을 입증했습니다.
  • 뛰어난 추론 능력짧은 CoT 및 긴 CoT 전략을 사용하여 다양한 복잡성의 작업에 대한 세부 추론 프로세스를 생성하여 모델의 논리적 추론 능력을 크게 향상시킵니다.
  • 오픈 소스 생태계의 완벽함데이터 세트, 트레이닝 레시피, 평가 도구, 모델 가중치 등 완전한 오픈 소스 리소스를 제공하여 학계와 개발자가 빠르게 속도를 내고 더 발전할 수 있도록 지원합니다.

Bee의 공식 웹사이트는 무엇인가요?

  • 프로젝트 웹사이트:: https://open-bee.github.io/
  • 허깅페이스 모델 라이브러리:: https://huggingface.co/collections/Open-Bee/bee
  • arXiv 기술 논문:: https://arxiv.org/pdf/2510.13795
  • Honey-Data-15M 데이터 세트:: https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

비의 대상

  • 인공 지능 연구원고품질 데이터 세트와 오픈 소스 모델을 멀티모달 매크로 모델링의 연구와 혁신에 사용할 수 있습니다.
  • 개발자 및 엔지니어애플리케이션 개발 및 멀티모달 기능의 신속한 통합을 위해 오픈 소스 도구와 모델을 활용할 수 있습니다.
  • 데이터 과학자데이터 품질과 모델 성능을 개선하기 위해 HoneyPipe 및 DataStudio로 데이터를 처리하고 분석할 수 있습니다.
  • 교육자Bee 모델은 교수 자료를 생성하거나 교수 학습을 지원하여 교수 학습을 향상시키는 데 사용할 수 있습니다.
  • 콘텐츠 크리에이터멀티모달 콘텐츠 생성 기능을 통해 고품질 그래픽 및 동영상 콘텐츠를 빠르게 제작할 수 있습니다.
  • 비즈니스 사용자꿀벌 모델은 지능형 고객 서비스, 시장 분석, 비즈니스 인텔리전스 및 기타 시나리오에 적용하여 비즈니스 효율성을 향상시킬 수 있습니다.
© 저작권 정책

관련 게시물

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...