Gemini API、新しいテキスト埋め込みモデルを発表：パフォーマンス急上昇、8K入力サポート

23.3K 00

画像：Google ジェミニ 2.0 フラッシュ世代

最近、グーグルはジェミニAPI に新しい実験的テキスト埋め込みモデルが導入された。 gemini-embedding-exp-03-07^[1]モデルはGeminiモデルに基づいて学習される。このモデルはジェミニ・モデルに基づいて訓練されており、ジェミニの言語と微妙な文脈に対する深い理解を受け継ぎ、幅広いシナリオに適用できる。特筆すべきは、この新しいモデルが、グーグルが以前にリリースした text-embedding-004 多言語テキストエンベッディングベンチマーク(MTEB)のチャートで上位にランクインし、さらに長い入力時間を実現しました。トークン長さなどの新機能。

解説
市場には、multilingual-e5-large-instructのようなオープンソースのエンベッディングモデルがすでに存在していることを考慮すると、性能の点ではジェミニの新モデルに若干劣るかもしれないが、小さなテキストブロックの処理やコスト重視のアプリケーションなど、特定のシナリオではオープンソースモデルがまだ競争力を持つ可能性がある。したがって、ジェミニの新モデルが今後市場に受け入れられるかどうかは、最終的には、その優れた性能に加えて、価格戦略と使用制限が開発者のニーズを満たすかどうかにかかっている。

包括的な主要テキスト埋め込みモデル

グーグルによれば、この新しいモデルは、金融、科学、法律、検索、その他多くの分野で優れた性能を発揮する、卓越した汎用性のために特別に訓練されたもので、特定のタスクのために大掛かりな微調整をすることなく、そのまま使用することができるという。

多言語MTEBのランキングで。gemini-embedding-exp-03-07 平均タスクスコアは68.32に達し、2位のモデルより5.81ポイント高い。MTEBランキングは、検索や分類など様々なタスクにおけるテキスト埋め込みモデルの性能を包括的に評価するものであり、モデル比較の重要な参考資料となる。

なぜテキスト埋め込みを選ぶのか？

インテリジェント・サーチの構築による生成の強化(ラグ)や推薦システムからテキスト分類に至るまで、テキストの背後にある意味を理解する大規模言語モデル(LLM)の能力は非常に重要である。埋め込み技術は、多くの場合、より効率的なシステムを構築することができ、キーワードマッチングシステムよりも優れた結果を提供しながら、コストと待ち時間を削減することができる。

埋め込み技術は、データの数値表現を通してセマンティクスとコンテキストを捉える。似たようなセマンティクスを持つデータは、より近い埋め込みベクトルを持つ。埋め込み技術は、以下のような様々なアプリケーションをサポートする：

効率的な検索： 法的文書検索や企業検索のような大規模データベースにおいて、文書の埋め込みベクトルとクエリを比較することにより、関連する文書を見つける。
検索拡張世代（RAG）： 関連情報を検索し、モデルのコンテキストに統合することで、生成されたテキストの品質と関連性を向上させる。
クラスタリングと分類： 類似したテキストをグループ分けし、データの傾向やテーマを特定する。
分類テキストコンテンツに基づく自動分類（センチメント分析やスパム検出など）。
テキストの類似性： 重複コンテンツを特定し、ウェブページの重複排除や盗用検出などのタスクを実現します。

エンベッディングと一般的なAIの使用例について詳しく知りたい方は、以下を参照してください。 Gemini API ドキュメント.

今すぐGeminiテキスト埋め込みを体験する

開発者は、Gemini APIを介して、この新しい実験的なテキスト埋め込みモデルを使用できるようになった。これは既存の embed_content インターフェイスの互換性。

from google import genai
client = genai.Client(api_key="GEMINI_API_KEY")
result = client.models.embed_content(
model="gemini-embedding-exp-03-07",
contents="阿尔法折叠是如何工作的？",
)
print(result.embeddings)

のあらゆる面での品質向上に加えgemini-embedding-exp-03-07 また、次のような特徴もある：

8Kトークン入力制限： 以前のモデルと比べて、グーグルはコンテキストの長さを改善し、より大きなテキスト、コード、その他のデータの塊を埋め込めるようにした。
3072 寸法出力： 高次元の埋め込みベクトルは、以前の埋め込みモデルよりも4倍近くトークンが多い。
マトリョーシカ表現学習（MRL）： MRL により、開発者は元の 3072 次元ベクトルを切り捨ててストレージ・コストを削減することができます。簡単に言えば、MRL テクノロジーはストレージ・スペースの節約と引き換えに精度の一部を犠牲にすることを可能にします。
拡張言語サポート： 対応言語数は倍増の100以上。
統一モデル： このモデルは、グーグルが以前にリリースしたタスク別、多言語、平易な英語、コード別のモデルを品質面で凌駕している。

現在、容量に制限のある実験的な段階だが、このリリースは、開発者に初期の gemini-embedding-exp-03-07 能力の機会。すべての実験的モデルと同様、変更される可能性がある。グーグルによれば、今後数ヶ月のうちに安定した一般利用可能なバージョンに向けて取り組んでいるとのことだ。

グーグルは、開発者に対し、自社製品をよりアクセシブルなものにするよう、次のような方法で働きかけている。フィードバック・フォームフィードバックを提供する。

一部のユーザーは、このモデルはプレビュー中は無料であることを指摘している。制限速度-1分あたり5リクエスト、1日あたり100リクエスト。開発者はモデルをテストする際に、これらの制限を簡単に発動させることができる。一部のユーザーは、グーグルがこれらの制限をすぐに引き上げることを望んでいる。

Redditのディスカッションでは、多くのユーザーが新モデルのリリースに興奮を示し、「人々が思っている以上に大きな出来事」と表現した。あるユーザーは、「3k次元のfp32埋め込みベクトルは巨大だ。これだけのデータがあれば、とてもリーズナブルなデコーダーが作れるに違いない。このモデルが安ければ、本格的な大規模言語モデルよりも頻繁に使うだろう。通常、本当に必要なのは意味的特徴抽出なのだから。"

別のユーザーは、このモデルは多言語ドメインでは「あまり競合がいない」と指摘し、レートの制限と埋め込みの次元性から、より大きなテキストブロックに最適であろうと付け加えた。

[1]：バーテックスAIでは、同じモデルが次のように渡される。 text-embedding-large-exp-03-07 インターフェイスが提供される。正式リリース時にはネーミングを統一する。