ミストラルは昨夜、チャットツール「ル・チャット」とマルチモーダルモデル「ピクストラル・ラージ」という2つの大きな製品アップデートを一挙にリリースした。
新しいル・シャット
新機能追加:キャンバス、ウェブ検索、画像生成、画像理解。 ミストラルAPI サービスは変わらない。
ル・チャット・キャンバス
生成されたコンテンツの一部を選択して変更を提案することで、新しいコンテンツを生成することができる。右側は修正記録とラベルのついたバージョンで、左側のキャンバスは生成されたメインコンテンツです。
ル・チャット ウェブ検索
Braveの検索エンジンに頼って、引用元のURLを出力する。
ル・チャット画像認識
中国語の長さは、より正確な認識することができますが、個々の複雑な漢字はまだエラーまたは単一の単語に類似した出力意味を識別することができない場合、中国語の単一の認識は不正確ながら、画像コンテンツと意味認識キャリブレーションは、同じではありません。これはopenaiモデルに似ていますが、あまりにも多くを期待しないでください。
OCRの次の例では、状況の良い説明することができます:画像は、テキスト認識エラーを指摘するだけで、図の元のテキストは、テキストの画像認識または "推測 "に依存していることを示す "誘導体 "であり、中国語は英語と比較してわずかに推測が発生しません。
ル・チャット・イメージ・ジェネレーション
画像生成を選択し、create、draw、generateなどのプロンプトを入力すると、Flux Proのモデルが自動的に起動され、画像が生成される。
ウェイクアップ・エージェント
これは長い間リリースされていた機能なのだが...。多くの人は、ミストラルがリリースしたすべてのモデルのカスタム・インテリジェント・アシスタントを選択して会話できることに気づいていない。@
知的アシスタントを呼び起こす。ほとんどのタスクにおいて、ミストラルの大型モデルはあらゆるタイプのタスクをこなす。
新発売のマルチモーダルラージモデル「ピクトラル・ラージ」をご紹介します。
- フロンティアレベルのマルチモーダル性能
- MathVista、DocVQA、VQAv2に関する最新情報
- テキストのパフォーマンスに影響を与えることなく、Mistral Large 2の機能を拡張します。
- 123Bマルチモーダルデコーダー、1Bパラメトリック視覚エンコーダー
- 128Kのコンテキスト・ウィンドウ:少なくとも30枚の高解像度画像をサポート
- 使い方:
Pixtral Large は、Mistral Large 2 をベースに開発された 124B のオープン・ウェイト・マルチモーダルモデルです。特にこのモデルは、Mistral Large 2の優れたテキスト理解能力を維持しながら、文書、図、自然画像を理解することができます。
このモデルは、ミストラル・リサーチ・ライセンス(MRL)のもと、研究・教育用に開放されています。商業目的の実験・試験・生産用には、ミストラル・コマーシャル・ライセンスのもとで使用することができます。
パフォーマンス
Pixtral LargeとFrontierモデルの性能を、汎用テストツールを用いて標準的なマルチモーダルベンチマークで評価した。MathVista上で、我々のモデルは69.4%を達成し、他の全てのモデルを凌駕し、視覚データ上で複雑な数学を推論する能力を実証した。複雑な図表や文書に対する推論能力を評価するため、ChartQAとDocVQAを用いて評価したところ、Pixtral LargeはGPT-4oとGemini-1.5 Proを上回った。
最後に、Pixtral LargeはMM-MT-Benchで競争力を発揮し、Claude-3.5 Sonnet(新製品)、Gemini-1.5 Pro、GPT-4o(最新)を上回った。 ざいげんをひろげる マルチモーダル大規模言語モデルの実際の適用シナリオを反映するように設計されたレビューベースの評価(詳細については、以下を参照)。 ピクストラル12Bテクニカルレポート).
質的な例
多言語OCRと推論...
キュー・ワード:
コーヒーとソーセージを買った。いくら払えばいい?プラスチップ18%。
答えてくれ:
18%チップを含む合計金額を計算するには、以下の手順に従ってください:
- コーヒーとソーセージの値段を計算する:
- 2x ラテ・マキアート:2 * 4.50 CHF = 9.00 CHF
- 1x シュヴァインシュニッツェル:22.00スイスフラン
- コーヒーとソーセージの合計: 9.00 CHF + 22.00 CHF = 31.00 CHF
- 18%のチップを計算する:
- チップ: 31.00 CHF * 0.18 = 5.58 CHF
- 合計金額にチップを加算する:
- 支払総額: 31.00 CHF + 5.58 CHF = 36.58 CHF
したがって、合計36.58スイスフランを支払うことになる。
グラフィカルな理解...
キュー・ワード:
ダークドラゴンのモデルにはいつから問題があったのですか?
答えてくれ:
dark-dragon-50」モデルのトレーニング損失は、約10,000ステップで大きな不安定性を示し始める。この時点で損失値に明確なピークがあり、さらに約20,000ステップで大きなピークがある。これらのピークは、「dark-dragon-50」モデルのトレーニング過程が約10,000ステップから問題を抱え始めていることを示している。
その他の例
キュー・ワード:
どのような企業が利用しているか ミストラルAI モデルは?
答えてくれ:
ミストラルのAIモデルを使用している企業は図表の通りである:
- BNPパリバ
- 勇敢
- クラウドフレア
- CMA CGM(ダフィー・シッピング・グループ、フランス)
- フロント
もうひとつ。
ピクトラル・ラージのリリースでミストラル ラージまた、我々の最先端のテキストモデルも更新された。このモデルは API 組み込み ピクストラル-ラージ-最新
また、HuggingFaceの研究にはMistral Research Licence (MRL)、商業利用にはMistral AIからの商業ライセンスをご利用いただけます。
この最新モデルは、前モデルのMistral Large 24.07から大幅にアップグレードされており、ロングコンテキストの理解、新しいシステムヒント、より正確な関数呼び出しが大幅に進化している。このモデルは次のような用途に最適です。 ラグ 知識探索と共有、ドキュメントの意味理解、タスクの自動化、顧客体験の向上など、企業レベルのアプリケーションシナリオで使用できるインテリジェントなボディワークフロー。
Mistral Large 24.11は、Google CloudとMicrosoft Azureを皮切りに、クラウド・プロバイダー・パートナーを通じて間もなく公開され、1週間以内に利用可能になる予定です。