アップルの研究者たちは、視覚と言語理解を組み合わせて高度な機能を実現するマルチモーダルAIモデルのファミリーであるMM1について説明した新しい論文を発表した。
詳細はこちら。
MM1モデルは、画像キャプション、画像テキストデータ、プレーンテキストデータを慎重に混合して学習される。
最大の30Bパラメトリック・モデルは、少数の例から学習し、複数の画像を推測する力を示している。
研究結果
スケーリングされたモデルの画像処理は、パフォーマンスに最も大きな影響を与える。
MM1ベンチマークは、GPT-4VやGemini Proといった最先端のマルチモーダルモデルと競合する。
懸念される理由:アップルの詳細かつ控えめな新モデルのリリースは、いつもの秘密主義とは一線を画すものであり、オープンソースソフトウェアにとっては大きな勝利である。 パワフルな新モデルが正式に発売された今、Siriはついにアップグレードの準備が整ったのだろうか?