最新のAIリソース

共 3143 篇文章

コース情報最新のAIリソース AI知識ベース AIニュース

順番に並べる

目を通すブックマーク

nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - カルパシーによるフリーでオープンソースの低コストモデル・トレーニング・プロジェクト

nanochatは、AIのレジェンドであり元テスラAIディレクターのアンドレイ・カルパシーが公開したオープンソースプロジェクトで、個人が非常に低コストかつシンプルに、小規模なChatGPTのような言語モデルを素早く学習することを可能にする。プロジェクト全体で使用されているのは、わずか約800...

最新のAIリソース

10ヶ月前

049K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデル

LLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス（言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整）を通じて...

最新のAIリソース

10ヶ月前

045.3K

Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

Paper2Videoは、シンガポール国立大学のShow Labで行われている、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換されます。

最新のAIリソース

10ヶ月前

048.5K

NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス（携帯電話、ラップトップ、Raspberry Piなど）上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。

最新のAIリソース

10ヶ月前

054.9K

KAT-Dev-72B-Exp - 快手开源的免费编程专用模型

KAT-Dev-72B-Exp - レーサー・オープンソース・フリーのプログラミング専用モデル

KAT-Dev-72B-Expは、強化学習技術に基づいて最適化された、Racerチームによって発表されたオープンソースのプログラミング専用大規模言語モデルであり、SWE-Bench Verifiedベンチマークテストで74.6%の精度を達成した。このモデルは革新的な...

最新のAIリソース

10ヶ月前

044.5K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - イスラエルAI21ラボのオープンソース軽量推論モデル

Jamba Reasoning 3Bは、イスラエルのAIスタートアップAI21 Labsによってオープンソース化された軽量推論モデルで、強力なパフォーマンスと幅広いアプリケーションへの応用が期待されている。SSMとTransformerのハイブリッド・アーキテクチャを採用し、Trans...

最新のAIリソース

10ヶ月前

041.7K

吴恩达的《Agentic AI》最新智能体免费课程

エルンスト・ウーによるAgentic AIから最新のインテリジェンスを学ぶ無料コース

Agentic AIは、アーネスト・ングが開始した知的身体に関する最新のコースです。このコースでは、知的身体の設計と構築に焦点を当て、4つの主要な設計モードである反射、ツールの使用、計画、および複数の知的身体のコラボレーションをカバーします。学習者は、理論的な説明と実践的なコードを通して、インテリジェント・ボディが出力をチェックし、自律的に調整する方法を習得します。

最新のAIリソースコース情報

10ヶ月前

076K

OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクト

OpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...

最新のAIリソース

10ヶ月前

045.8K

Androidify - 谷歌开源如何在Android上构建AI应用的免费资源

Androidify - Google、Android上でAIアプリを構築する方法に関するリソースを無償でオープンソース化

AndroidifyはGoogleのオープンソースプロジェクトであり、開発者がAndroid上でAI主導のアプリケーションを構築する方法を学ぶことを支援する。このプロジェクトでは、Jetpack Compose、Gemini API（via Fire...

最新のAIリソース

10ヶ月前

045.1K

Ling-1T - 蚂蚁集团开源的万亿参数通用语言模型

Ling-1T - アント・グループのオープンソース万能言語モデル。

Ling-1Tは、アント・グループによってオープンソース化された1兆パラメータユニバーサル言語モデルで、Bering社の大型モデルLing2.0シリーズのフラッグシップ製品に属します。このモデルは、非常に効率的なMoEアーキテクチャを採用し、128Kのコンテキストウィンドウをサポートし、コード生成、数学的推論、論理テストを含む7つのベンチマークでGPTを上回っています。

最新のAIリソース

10ヶ月前

074.8K

聆音EchoCare - 香港科学院开源的超声基座大模型

エコーケア - 香港科学院オープンソース超音波ベース大型モデル

EchoCareは、中国科学院香港創新研究院（CAS）の人工知能・ロボットイノベーションセンター（CAIR）によって開発された超音波ベースの大規模モデルであり、多施設、多地域、多民族、50人以上の個人をカバーする世界最大の超音波画像データセット（450万枚以上）で学習される。

最新のAIリソース

10ヶ月前

050.4K

Code2Video - Show Lab开源的AI教学视频生成框架

Code2Video - Show Lab オープンソースAI教育ビデオ生成フレームワーク

Code2Videoは、コードスニペットを自動的に高品質のビデオコンテンツ（MP4形式）に変換する革新的なオープンソースプロジェクトです。このプロジェクトは、ユニークなコード中心のパラダイムを通して、carbon-now-cliツールを使ってコードを美しい画像に生成します。

最新のAIリソース

10ヶ月前

053.9K

SceneGen - 上海交大开源的单图像生成3D场景框架

SceneGen - 上海交通大学オープンソース3Dシーン生成フレームワーク

SceneGenは、上海交通大学の1枚の画像から3Dシーンを生成するオープンソースの手法であり、1枚のシーン画像とターゲットリソースマスクから、リソースの幾何学的構造、テクスチャ、相対的な空間位置を含む、複数の3Dリソースを含む完全なシーンを効率的に生成する。

最新のAIリソース

10ヶ月前

045.1K

Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。

最新のAIリソース

10ヶ月前

051K

AIMangaStudio - 免费的AI漫画创作工具，提供完整创作流程

AIMangaStudio - フリーのAIマンガ作成ツール！

AIMangaStudioは、プロット生成、サブシーンデザイン、キャラクター設定などの機能を含む完全なマンガ制作パイプラインをクリエイターに提供し、脚本からマンガページまでの制作プロセスを簡素化できる無料のAIマンガ制作ツールです。プロット、セリフ、キャラクター設定など、マンガ原稿の自然言語生成をサポート。

最新のAIリソース

10ヶ月前

064.7K

FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。

最新のAIリソース

10ヶ月前

059.2K

Logics-Parsing - 阿里开源的文档解析模型

Logics-Parsing - Ali オープンソース文書解析モデル

Logics-Parsingは、Qwen2.5-VL-7Bをベースとした、オープンソースのAliのエンドツーエンドの文書解析モデルです。強化学習を通じて、文書のレイアウト解析と読み順推論を最適化し、PDF画像を構造化されたHTML出力に変換することができます。

最新のAIリソース

10ヶ月前

058K

Ring-1T-preview - 蚂蚁集团开源的万亿参数大模型

Ring-1T-preview - Antグループのオープンソースの兆パラメータ大規模モデル

Ring-1T-previewは、Ant Groupによるオープンソースの1兆パラメータマクロモデルであり、Ling2.0 MoEアーキテクチャに基づき、20Tコーパスで事前学習され、ASystem（自社開発の強化学習システム）によって推論能力が学習される。自然言語推論では...

最新のAIリソース

10ヶ月前

065K

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所オープンソースゼロサンプルクロスオントロジー一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。

最新のAIリソース

10ヶ月前

049.7K

Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー（DiT）をベースモデルとしており、IDアダプターとRef-adapte...

最新のAIリソース

10ヶ月前

052.2K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

クロード・ソネット4.5 - Anthropicの最強AIプログラミングモデル

クロード・ソネット4.5は、プログラミング、コンピュータ操作、複雑なタスクの自動化のために設計されたAnthropic社の人工知能モデルです。コード生成、長時間のタスク処理、推論、数学的計算を得意とし、初期計画から...

最新のAIリソース

10ヶ月前

055.3K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - ディープシークの最新のオープンソース実験的AIモデル

DeepSeek-V3.2-Expは、DeepSeekがオープンソース化した実験的なAIモデルで、DeepSeek Sparse Attention（DSA）メカニズムを導入することで、長文処理の効率を大幅に向上させています。このモデルはDeepSeek...

最新のAIリソース

10ヶ月前

051.6K

HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0（渾元画像3.0）は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...

最新のAIリソース

10ヶ月前

062.9K

Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part（ハイブリッド3D-Part）は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...

最新のAIリソース

10ヶ月前

069K

AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。

最新のAIリソース

10ヶ月前

061.2K

Hunyuan3D-Omni - 腾讯混元开源的3D模型生成框架

Hunyuan3D-Omni - テンセント混合ソースオープンソース3Dモデル生成フレームワーク

Hunyuan3D-Omni（ハイブリッド3D-オムニ）は、Tencentのハイブリッド3Dチームによるオープンソースの3Dアセット生成フレームワークで、複数の制御信号を通じて正確な3Dモデル生成を可能にする。Hunyuan3D 2.1アーキテクチャに基づき、点...

最新のAIリソース

10ヶ月前

062.3K

FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル（FLM-Audio）は、南洋理工学院（NTI）と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...

最新のAIリソース

10ヶ月前

055.2K

CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM（Code World Model）は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。

最新のAIリソース

10ヶ月前

054.2K

Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...

最新のAIリソース

10ヶ月前

054K

Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。

最新のAIリソース

10ヶ月前

056.2K

Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - AliCloud Tongyi Qianqian オープンソース・マルチモーダル視覚言語マクロモデル

Qwen3-VLは、AliCloud Tongyi Qianqianチームによるオープンソースのマルチモーダル視覚言語ラージモデルで、2,350億の参照と約471GBのモデルファイルを持っています。命令バージョンと思考バージョンを含み、強化されたMRopeインターリーブレイアウト、DeepStackなどの技術を採用し、視覚変換を効果的に使用することができます...

最新のAIリソース

10ヶ月前

071.4K

Qwen3Guard - 阿里Qwen开源的安全模型

Qwen3Guard - Ali Qwenオープンソースセキュリティモデル

Qwen3Guardは、Qwen3の基本モデルに基づき、セキュリティ検出のために設計された、きめ細かいセキュリティ保護モデルです。Qwen3Guardは、2つのプロ...

最新のAIリソース

10ヶ月前

059.1K

Qwen3-TTS-Flash - 阿里通义推出的语音合成模型

Qwen3-TTS-Flash - Ali Tongyiによる音声合成モデル

Qwen3-TTS-FlashはAli Tongyiによって導入された先進的な音声合成モデルで、北京語、英語、方言などをカバーする17の声調と10の言語をサポートする。

最新のAIリソース

10ヶ月前

067.1K

Qwen3-Omni - 阿里通义推出的全模态AI模型

Qwen3-Omni - Ali Tongyiが紹介するオムニモーダルAIモデル

Qwen3-Omniは、Ali Tongyiチームによって導入された完全なモーダルAIモデルであり、テキスト、画像、オーディオ、ビデオなどの複数のデータタイプを扱うことができ、低レイテンシと高い制御性で119言語のテキストインタラクションをサポートしています。

最新のAIリソース

10ヶ月前

056K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeekが導入したAIモデルの最新バージョン

DeepSeek-V3.1-Terminusは、DeepSeekチームの人工知能言語モデルであるDeepSeek-V3.1のアップグレード版です。このモデルは、言語の一貫性、コード生成、検索機能の面で最適化され、より正確に...

最新のAIリソース

10ヶ月前

054.3K

Granite-Docling-258M - IBM开源的视觉语言模型

Granite-Docling-258M - IBM オープンソース視覚言語モデル

Granite-Docling-258Mは、効率的な文書変換のために設計された、IBMによる超コンパクトなオープンソースの視覚言語モデルです。このモデルは、レイアウト、表、数式、その他の要素をそのままに、文書を機械可読形式に変換します。

最新のAIリソース

10ヶ月前

050.3K

Lucy Edit - 开源的AI视频编辑工具，自然语言描述编辑

Lucy Edit - オープンソースのAIビデオ編集ツール、自然言語記述編集

Lucy Editは、Decart AIが開発したオープンソースのAI動画編集ツールです。複雑な微調整やマスクの使用を必要とせず、「キャラクターをシロクマに変える」「シーンを2Dアニメ風にする」といった簡単な自然言語による記述で動画を編集できる。

最新のAIリソース

10ヶ月前

061.9K

LongCat-Flash-Thinking - 美团开源的高效推理模型

LongCat-フラッシュ思考 - Meituanオープンソースのための効率的な推論モデル

LongCat-Flash-Thinkingは、LongCat-Flash-Chatのスピードはそのままに、よりパワフルでプロフェッショナルになった、Mission LongCatのLongCatチームによってリリースされた効率的な推論モデルです。このモデルは、論理、数学、コード、知性に基づいています。

最新のAIリソース

10ヶ月前

047.6K

Ling-V2 - 蚂蚁百灵开源的MoE架构语言模型系列

Ling-V2 - Ant-BellingオープンソースのMoEアーキテクチャ言語モデルシリーズ

Ling-V2は、Ant-Bellingチームによって導入されたMoEアーキテクチャに基づく大規模言語モデルファミリーである。最初のバージョンであるLing-mini-2.0は、総パラメータが160億であり、入力トークンあたり14億のパラメータしか起動しない。

最新のAIリソース

10ヶ月前

051.2K

Kronos - 清华和微软联合开源的金融K线图基础模型

クロノス - 清華とマイクロソフトが共同でオープンソースの財務Kチャートベースモデルを開発

クロノスは、清華大学とマイクロソフト・リサーチ・アジアが共同でオープンソース化した、金融市場初の基本的なK線チャートモデルです。株式、暗号通貨、その他の資産の始値、高値、安値、終値、出来高などのK線データを分析することで、将来の値動きを予測することができる。

最新のAIリソース

10ヶ月前

080.6K

Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 同義万象のアクション生成モデルオープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。

最新のAIリソース

10ヶ月前

053.5K

Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。

最新のAIリソース

10ヶ月前

058.8K

InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。

最新のAIリソース

10ヶ月前

062.9K

VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Facing Intelligenceと清華オープンソースのエンドツーエンドTTSモデル

VoxCPMはエンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声表現を生成することで、従来の離散的な曖昧性解消の限界を打ち破っている。階層的言語モデリングと有限状態量子化を通して...

最新のAIリソース

10ヶ月前

063.3K

InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 上海AIラボオープンソースエンドツーエンドデュアルシステムナビゲーション大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。

最新のAIリソース

10ヶ月前

063.1K

WebWeaver - 阿里通义开源的新型双智能体框架

WebWeaver - アリ・トンイ、新しいデュアル・インテリジェンス・ボディ・フレームワークをオープンソースで公開

WebWeaverはアリババ同業チームが導入した新しい二重知能体フレームワークで、主にオープンディープリサーチで使用され、人間の研究プロセスをシミュレートすることができる。

最新のAIリソース

10ヶ月前

057.2K

MCP Registry - GitHub推出的官方MCP服务器管理平台

MCP Registry - GitHubが提供する公式MCPサーバー管理プラットフォーム。

MCPレジストリは、開発者がMCPサーバーをより簡単に発見し、インストールできるようにするGitHubの集中型プラットフォームです。MCPレジストリを使えば、開発者は必要なAIツールを一箇所ですぐに見つけることができ、大幅に簡素化されます。

最新のAIリソース

10ヶ月前

054.6K

VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。

最新のAIリソース

10ヶ月前

054.7K

通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - アリ・トンイオープンソース・ディープリサーチインテリジェンス機関

Tongyi DeepResearch（同義ディープリサーチ）は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...

最新のAIリソース

10ヶ月前

060.7K

InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。

最新のAIリソース

10ヶ月前

048.1K

OpenAI《在AI时代保持领先》PDF指南 - 附下载链接

OpenAIの「AI時代を先取りするためのPDFガイド」 - ダウンロードリンク付き

AIの時代に先んじる」は、ビジネスリーダーがAIの時代において競争力を維持するためのOpenAIのAIリーダーシップガイドである。このガイドでは、AIの急速な成長を指摘し、より速いモデルリリース、より低いコスト、より速い企業導入...

最新のAIリソースコース情報

11ヶ月前

061.5K

浙江大学免费PDF资料《大模型基础》 - 附下载链接

浙江大学から大型モデルの基礎の無料PDF - ダウンロードリンク付き

ファンダメンタルズ・オブ・ラージ・モデルは、ラージ・ランゲージ・モデル（LLM）のコア技術と実用的な道筋を詳細に分析する。言語モデリングの基礎理論から始まり、統計的、リカレントニューラルネットワーク（RNN）、トランスフォーマーアーキテクチャに基づくモデル設計の原理を、3つの主要な大規模言語モデルに焦点を当てて体系的に解説しています。

最新のAIリソースコース情報

11ヶ月前

066.4K

PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - TencentハイブリッドオープンソースAIプロンプト単語拡張ツール

PromptEnhancerは、TencentのMixed Metaチームによるオープンソースのプロンプト語強化ツールで、テキストから画像への変換（Text-to-Image、T2I）モデルの生成を改善します。推論の連鎖(Chain-of-Thought, CoT)アプローチにより、...

最新のAIリソース

11ヶ月前

055.5K

LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。

最新のAIリソース

11ヶ月前

048.8K

混元3D 3.0 - 腾讯推出的3D生成模型，支持超高清建模

Hybrid 3D 3.0 - UHDモデリングに対応したTencentの3D生成モデル

ハイブリッド3D 3.0は、3D-DiT階層造形技術に基づくテンセントの先進的な3D生成モデルで、最大1536³の幾何学的解像度を持ち、超高精細でディテールに富んだ3Dモデルを生成でき、五感や体型を正確に造形できるなど、キャラクターモデリングに優れている。

最新のAIリソース

11ヶ月前

067.2K

UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology オープンソースワールドモデルアクションアーキテクチャ

UnifoLM-WMA-0は、Yu Shu Technologyによる複数のクラスのロボットオントロジーにまたがるオープンソースのワールドモデル-アクションアーキテクチャであり、一般的なロボット学習のために設計されている。ワールドモデルとアクションアーキテクチャから構成され、ワールドモデルはロボットと環境の相互作用の物理法則を理解し、アクションアーキテクチャは特定の...

最新のAIリソース

11ヶ月前

070.2K

InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Mission Vision AI用オープンソース音声駆動ビデオ生成ツール

InfiniteTalkは、MeiGen-AIチームによって開発された音声駆動型の動画生成ツールで、入力された音声に基づいて長さ無制限のトーキング動画を生成する。主な特長は、正確なリップシンク技術で、音声とキャラクターの口の形を完全に一致させ、自然で滑らかな動画を生成します。

最新のAIリソース

11ヶ月前

081.2K

Mini-o3 - 字节、港大联合开源的视觉推理模型

Mini-o3 - バイト、HKU共同オープンソース視覚推論モデル

Mini-o3は、ByteDanceと香港大学が共同で立ち上げたオープンソースモデルで、複雑な視覚探索問題の解決に焦点を当てている。このモデルは、強力な多ラウンド対話型推論機能を持ち、深い探索と試行錯誤を通じてターゲットを見つけることができる。

最新のAIリソース

11ヶ月前

052.7K

GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。

最新のAIリソース

11ヶ月前

051K

ROMA - 开源的元Agent框架，自动分解复杂任务并行处理

ROMA - 並列処理のための複雑なタスクの自動分解のためのオープンソースメタエージェントフレームワーク

ROMA (Recursive-Open-Meta-Agent) は Sentient AGI によって開発されたオープンソースのメタエージェントフレームワークで、再帰的なタスク分解と並列処理によって複雑な問題を効率的に解決します。Python 3.12+、Docker、...をサポートしています。

最新のAIリソース

11ヶ月前

066.9K

Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所（SAL）が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...

最新のAIリソース

11ヶ月前

060.3K

Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。

最新のAIリソース

11ヶ月前

060.3K

MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング（SFT...

最新のAIリソース

11ヶ月前

048.1K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - Baiduオープンソース推論思考モデル

ERNIE-4.5-21B-A3B-Thinkingは、推論タスクに特化したBaiduのオープンソース大規模言語モデルです。Mixed Expert (MoE) アーキテクチャを採用し、総参照数は210億、各トークンは30億のパラメータを起動し、128K長のコンテキストウィンドウをサポートします。

最新のAIリソース

11ヶ月前

047.6K

MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...

最新のAIリソース

11ヶ月前

057.1K

ZipVoice - 小米开源的语音合成系列模型

ZipVoice - シャオミのオープンソース音声合成モデル群

ZipVoiceはXiaomiがリリースしたFlow Matchingアーキテクチャに基づく一連の音声合成（TTS）モデルで、ZipVoice（ゼロサンプル単一話者音声合成モデル）とZipVoice-Dialog（ゼロサンプル対話音声合成モデル）がある。

最新のAIリソース

11ヶ月前

068.8K

PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 百度の次世代テキスト認識用オープンソースAIモデル

PP-OCRv5は、百度がリリースした最新世代のテキスト認識AIモデルである。軽量設計とわずか0.07Bの参照数で、CPUやエッジデバイスでの効率的な動作に適しており、1秒間に370文字以上を処理できる。このモデルは、簡体字中国語、繁体字中国語、英語、日本語、ピンインをサポートしている。

最新のAIリソース

11ヶ月前

084.7K

Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...

最新のAIリソース

11ヶ月前

058.1K

Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。

最新のAIリソース

11ヶ月前

057.5K

IndexTTS2 - B站开源的免费TTS模型，首个支持精确时长控制

IndexTTS2 - B局オープンソースのフリーTTSモデル。

IndexTTS2は、Bステーション音声チームによってオープンソース化された新しいフリー音声合成（TTS）モデルで、感情表現と継続時間制御の大きなブレークスルーを達成し、正確な継続時間制御をサポートする初の自己回帰型TTSモデルです。ゼロサンプルの音声クローニングをサポートし、1つの音声ファイルだけで正確に音声をコピーできます。

最新のAIリソース

11ヶ月前

0125.6K

MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル！

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...

最新のAIリソース

11ヶ月前

058.9K

HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清華大学United Bytesオープンソース・マルチモーダルビデオ生成フレームワーク

HuMoは、清華大学とByteDance Intelligent Creation Labが共同でオープンソース化したマルチモーダル映像生成フレームワークで、人間中心の映像生成に焦点を当てている。HuMoは、テキスト、画像、音声などのマルチモーダル入力から、高品質かつきめ細かく制御可能な人物映像を生成することができる。

最新のAIリソース

11ヶ月前

0144.6K

AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像（グリッド、点群など）を動的な動画に変換することをサポートする。

最新のAIリソース

11ヶ月前

055.8K

SRPO - 腾讯混元推出的文本到图像生成模型

SRPO - テンセントハイブリッドがテキスト画像生成モデルを発表

SRPO（Semantic Relative Preference Optimization）は、Tencent Mixed Metaによって導入されたテキストから画像への生成モデルであり、報酬のオンライン調整を達成し、オフラインの微調整依存性を低減するために、テキスト条件信号を通じて報酬メカニズムを最適化する。

最新のAIリソース

11ヶ月前

071.2K

Qwen3-Next - 阿里通义推出的最新基础模型

Qwen3-Next-アリ・トンイが発表した最新ベースモデル

Qwen3-Nextは、Ali Tongyi氏によってオープンソース化された新世代のハイブリッドアーキテクチャ・ビッグモデルで、Gated DeltaNetとGated Attention技術を組み合わせたものである。

最新のAIリソース

11ヶ月前

053.6K

文心大模型X1.1 - 百度推出的深度思考模型，理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。

最新のAIリソース

11ヶ月前

058.9K

混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。

最新のAIリソース

11ヶ月前

055.2K

AntSK FileChunk - 免费的AI语义文档切片工具，动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。

最新のAIリソース

11ヶ月前

059.9K

UnifiedTTS - 一站式TTS API服务平台，实时性能监控

UnifiedTTS - ワンストップTTS APIサービスプラットフォーム、リアルタイムパフォーマンス監視

UnifiedTTSは音声合成（TTS）サービスのワンストッププラットフォームです。中国語、英語、日本語、韓国語を含む多言語をサポートし、グローバルビジネスのニーズに応えます。統一されたAPIインターフェイスを通じて、Micro...

最新のAIリソース

11ヶ月前

064.3K

MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...

最新のAIリソース

11ヶ月前

055.7K

WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChatオープンソースドキュメント理解と意味検索フレームワーク

WeKnoraはTencent WeChatチームのオープンソースで、Large Language Model (LLM)文書理解と意味検索フレームワークに基づいており、複雑な異種文書コンテンツシナリオの構造のために設計され、モジュラーアーキテクチャを使用するように設計されており、マルチモーダル前処理、セマンティックベクターインデキシング、インテリジェントリコールと大規模なモデルの生成推論の統合...

最新のAIリソース

11ヶ月前

0104K

XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート（MoE）モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。

最新のAIリソース

11ヶ月前

054.1K

Qwen3-ASR-Flash - 阿里通义千问推出的系列语音识别模型

Qwen3-ASR-Flash - Ali Tongyi Qianqianが発表した一連の音声認識モデル。

Qwen3-ASR-Flashは、Qwen3のベースモデルをベースに、膨大なマルチモーダルデータで学習させたアリババの最新の高精度音声認識モデルです。北京語、四川語、閩南語、呉語、広東語、その他の方言を含む11の言語と複数のアクセントをサポートしています。

最新のAIリソース

11ヶ月前

067.4K

Seedream 4.0 - 字节推出的最新一代图像创作模型

Seedream4.0-バイトが発表した最新世代の画像作成モデル

Seedream4.0は、ByteDance社が発表した高度な画像生成・編集ツールで、生成と編集の統合を中心に、正確なコマンド編集、高い機能保持、深いインテント理解などの強力な機能を備えています。

最新のAIリソース

11ヶ月前

0103.8K

rStar2-Agent - 微软开源的高效AI推理模型

rStar2-Agent - マイクロソフトのオープンソースの効率的なAI推論モデル

rStar2-Agentは、AIME24テストで80.61 TP3Tの精度を達成し、強力な数学的問題解決能力を実証した、Microsoftによってオープンソース化された高度なAI数学的推論モデルです。このモデルは科学的推論能力を備えており、GPQA-Diamondベンチマークで...

最新のAIリソース

11ヶ月前

052.5K

Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。

最新のAIリソース

11ヶ月前

058.4K

OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...

最新のAIリソース

11ヶ月前

056.5K

Claudable - 开源AI Web应用构建器，自然语言生成代码

Claudable - オープンソースAIウェブアプリケーションビルダー、自然言語生成コード

Claudableは、Next.jsをベースにしたオープンソースのウェブアプリビルダーです。Claude CodeとCursor CLIの高度なAIエージェント機能と、Lovableのシンプルで直感的なアプリ構築体験を組み合わせています。

最新のAIリソース

11ヶ月前

064.5K

FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Hugging Faceがオープンソースの視覚言語データセットを発表

FineVisionは、高度な視覚言語モデルをトレーニングするためのHugging Faceのオープンソースの視覚言語データセットです。1,730万枚の画像、2,430万個のサンプル、8,890万ラウンドの対話、95億個のアンサートークンが含まれています。このデータセットは...

最新のAIリソース

11ヶ月前

061.1K

InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman（インフィニティ・ヒューマン）：バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。

最新のAIリソース

11ヶ月前

056.2K

HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager（略してHunyuan Voyager）は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...

最新のAIリソース

11ヶ月前

056.9K

Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Tencent Mixed Metaオープンソース軽量翻訳モデル

Hunyuan-MT-7Bは、テンセントのMixed Meta Teamが導入した軽量翻訳モデルで、70億の参照数を持ち、33の言語と広東語、ウイグル語、チベット語を含む5つの中国語の民間言語/方言の相互翻訳をサポートする。国際計算言語学会（ACL）のWMT2025コンペティションで...

最新のAIリソース

11ヶ月前

052.6K

Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Step-Star オープンソース音声マクロモデリング

Step-Audio 2 miniは、Step-Audioによるオープンソースのエンドツーエンド音声マクロモデルです。従来の音声モデル構造を打破し、真のエンド・ツー・エンド・マルチモーダルアーキテクチャを採用しており、生の音声入力をより低遅延で音声応答出力に直接変換し、パラ言語情報と非音声信号を理解します。

最新のAIリソース

11ヶ月前

062K

MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2 - アップルのオープンソースによる効率的なエンドサイド・マルチモーダルモデル

MobileCLIP2は、Appleの研究者によって導入された効率的なエンドサイド・マルチモーダルモデルであるMobileCLIPのアップグレード版です。マルチモーダル強化トレーニング用に最適化され、DFNデータセットでより良いパフォーマンスをトレーニングすることでCLIP教師モデルを統合し、グラフィカルな生成機能を改善しました。

最新のAIリソース

11ヶ月前

071.1K

InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - 上海AIラボオープンソースマルチモーダル大規模モデル

InternVL3.5（Shusheng-Wanxiang3.5）は、上海人工知能研究所のオープンソース・マルチモーダル大型モデルであり、一般的な能力、推論能力、展開効率の面で完全にアップグレードされ、10億から2410億パラメータまでの9つのサイズのバージョンを提供し、厚さを含むさまざまなリソース需要シナリオをカバーする。

最新のAIリソース

11ヶ月前

066.8K

FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Appleのビジュアル言語モデリング

FastVLM（Fast Vision Language Model）は、アップルが導入した効率的な視覚言語モデルである。FastViTHDハイブリッド視覚コーダーをコアとし、畳み込みとトランスフォーマーアーキテクチャを組み込むことで、視覚言語を大幅に...

最新のAIリソース

11ヶ月前

065.1K

Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...

最新のAIリソース

11ヶ月前

058.9K

gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。

最新のAIリソース

11ヶ月前

063.1K

Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - Tencentオープンソースの効率的な知的ボディフレームワーク

Youtu-agentは、Tencent Youtu Labsが提供する自律型インテリジェンスを構築・実行するためのオープンソースフレームワークです。このフレームワークはWebWalkerQAとGAIAのベンチマークでそれぞれ71.47%と72.8%の精度を出しています。

最新のAIリソース

11ヶ月前

073.1K

もっと読む