ビー - テンセント・ミックスメタ・清華オープンソース・フルスタック・マルチモーダル・ラージモデル・プロジェクト

26.7K 00

ビーとは？

Beeは、Tencent Mixed Elementチームと清華大学が共同で立ち上げたフルスタックのオープンソース・マルチモーダル大規模モデルソリューションで、データ品質を向上させることで、オープンソースとクローズドソースのモデル間の性能差を縮めることを目的としている。Honey-Data-15Mは1,500万サイズの高品質な二層CoTデータセットで、オープンソースのデータ強化ツールHoneyPipeとDataStudio、そしてBee-8Bはこのデータセットに基づいて学習された8Bモデルで、複数のベンチマーク、特に数学的推論と図の理解タスクにおいて、主流のセミ・オープンソース・モデルを凌駕しています。主流のセミ・オープンソース・モデルを凌駕しています。データセットと手法を公開することで、本プロジェクトはオープンソースコミュニティにMLLMの性能向上のための重要なインフラを提供します。

Beeの特徴

高品質のデータセットHoney-Data-15Mデータセットは、ファインクリーニングと2層のChain of Thought (CoT)によって拡張され、データ品質が大幅に改善され、モデルトレーニングのための強固な基盤となっています。
フルスタック・オープンソース・パイプラインオープンソースのHoneyPipeとDataStudioは、データ集計からノイズフィルタリング、推論強化までの全プロセスをカバーし、データ処理の透明性と再現性を保証します。
高性能モデルBee-8Bモデルは、高品質なデータで学習され、いくつかのベンチマークテストにおいて、オープンソースのマルチモーダル大規模モデルの新記録を樹立し、優れた推論と理解能力を実証しました。
マルチモーダルフュージョン画像とテキストなど複数のモダリティの融合処理をサポートし、視覚的な質疑応答や画像説明の生成など、マルチモーダルなアプリケーションシナリオに適しています。
推論の強化複雑な問題解決におけるモデルのパフォーマンスを向上させるために、短いCoTと長いCoT戦略を通して、複雑なタスクに対する詳細な推論プロセスを生成する。
地域主導データセット、ツール、モデルウェイトを提供し、コミュニティへの参加と貢献を奨励し、技術の継続的な発展を促進するオープンソースのエコシステムを構築する。
柔軟な展開ローカル・デプロイメントやクラウド・デプロイメントなど、さまざまなデプロイメント方法をサポートし、さまざまなユーザーのニーズに応えます。
継続的な最適化データ貢献インセンティブとオンライン学習パラダイムによる継続的なモデルの進化とパフォーマンスの改善。

Beeの強み

優れたデータ品質高品質なHoney-Data-15Mデータセットは、多段階のクリーニングと2層のChain of Thought (CoT)展開によって構築され、データの精度と推論の深さを大幅に向上させる。
フルスタック・オープンソースの透明性HoneyPipeやDataStudioなど、データ処理からモデルトレーニングまでフルスタックのオープンソースツールを提供し、プロセス全体の透明性と再現性を確保。
モデル・パフォーマンス・リーダーシップBee-8Bモデルは、いくつかのベンチマークにおいて、すべてのオープンソースのマルチモーダル大型モデルの性能記録を更新し、強力な推論能力と複雑なタスク処理能力を実証しました。
卓越した推理力ショートCoTストラテジーとロングCoTストラテジーは、様々な複雑さのタスクに対して詳細な推論プロセスを生成するために使用され、モデルの論理的推論能力を大幅に向上させます。
オープンソースのエコロジカル・パーフェクトデータセット、トレーニングレシピ、評価ツール、モデルウェイトを含む完全なオープンソースリソースを提供することで、学者や開発者が迅速にスピードアップし、さらなる開発を行えるようにする。

Beeの公式ウェブサイトは？

プロジェクトのウェブサイト:: https://open-bee.github.io/
HuggingFaceモデルライブラリ:: https://huggingface.co/collections/Open-Bee/bee
arXivテクニカルペーパー:: https://arxiv.org/pdf/2510.13795
ハニーデータ-15Mデータセット:: https://huggingface.co/datasets/Open-Bee/Honey-Data-15M

Beeの対象者

人工知能研究者質の高いデータセットとオープンソースのモデルは、マルチモーダル・マクロモデリングの研究と革新に利用できる。
開発者とエンジニアアプリケーション開発とマルチモーダル機能の迅速な統合のために、オープンソースのツールとモデルを活用する能力。
データサイエンティストHoneyPipeとDataStudioでデータを処理・分析し、データ品質とモデル性能を向上させることができます。
教育者Beeモデルは、教材を作成したり、教育や学習をサポートするために使用することができます。
コンテンツクリエーターマルチモーダルコンテンツ生成機能により、高品質なグラフィックやビデオコンテンツを素早く作成できます。
ビジネスユーザーBeeモデルは、インテリジェントな顧客サービス、市場分析、ビジネスインテリジェンス、およびビジネス効率を向上させるその他のシナリオに適用することができます。