Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル
Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル
OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
Claudable - オープンソースAIウェブアプリケーションビルダー、自然言語生成コード
Claudableは、Next.jsをベースにしたオープンソースのウェブアプリビルダーです。Claude CodeとCursor CLIの高度なAIエージェント機能と、Lovableのシンプルで直感的なアプリ構築体験を組み合わせています。
FineVision - Hugging Faceがオープンソースの視覚言語データセットを発表
FineVisionは、高度な視覚言語モデルをトレーニングするためのHugging Faceのオープンソースの視覚言語データセットです。1,730万枚の画像、2,430万個のサンプル、8,890万ラウンドの対話、95億個のアンサートークンが含まれています。このデータセットは...
HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル
HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
Hunyuan-MT-7B - Tencent Mixed Metaオープンソース軽量翻訳モデル
Hunyuan-MT-7Bは、テンセントのMixed Meta Teamが導入した軽量翻訳モデルで、70億の参照数を持ち、33の言語と広東語、ウイグル語、チベット語を含む5つの中国語の民間言語/方言の相互翻訳をサポートする。国際計算言語学会(ACL)のWMT2025コンペティションで...
Step-Audio 2 mini - Step-Star オープンソース音声マクロモデリング
Step-Audio 2 miniは、Step-Audioによるオープンソースのエンドツーエンド音声マクロモデルです。従来の音声モデル構造を打破し、真のエンド・ツー・エンド・マルチモーダルアーキテクチャを採用しており、生の音声入力をより低遅延で音声応答出力に直接変換し、パラ言語情報と非音声信号を理解します。
MobileCLIP2 - アップルのオープンソースによる効率的なエンドサイド・マルチモーダルモデル
MobileCLIP2は、Appleの研究者によって導入された効率的なエンドサイド・マルチモーダルモデルであるMobileCLIPのアップグレード版です。マルチモーダル強化トレーニング用に最適化され、DFNデータセットでより良いパフォーマンスをトレーニングすることでCLIP教師モデルを統合し、グラフィカルな生成機能を改善しました。
InternVL3.5 - 上海AIラボ オープンソース マルチモーダル大規模モデル
InternVL3.5(Shusheng-Wanxiang3.5)は、上海人工知能研究所のオープンソース・マルチモーダル大型モデルであり、一般的な能力、推論能力、展開効率の面で完全にアップグレードされ、10億から2410億パラメータまでの9つのサイズのバージョンを提供し、厚さを含むさまざまなリソース需要シナリオをカバーする。
FastVLM - Appleのビジュアル言語モデリング
FastVLM(Fast Vision Language Model)は、アップルが導入した効率的な視覚言語モデルである。FastViTHDハイブリッド視覚コーダーをコアとし、畳み込みとトランスフォーマーアーキテクチャを組み込むことで、視覚言語を大幅に...









