最新のAIリソース

共 2985 篇文章
混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。
6ヶ月前
033K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化

UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案した、ピクセルレベルの視覚言語理解を実現するための新しいマルチモーダルモデルである。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、ピ...
5ヶ月前
032.9K
CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM(Code World Model)は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。
6ヶ月前
032.9K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3(DA3)は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。
4ヶ月前
032.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混成世界モデル1.1 - テンセント混成世界オープンソース3D復元大型モデルリリース

WorldMirror 1.1(WorldMirror)は、TencentのWorldMirrorチームによってリリースされたオープンソースの大規模モデルの3D再構築であり、WorldMirrorシリーズのアップグレード版である。マルチビュー画像、動画、カメラ位置、内部参照、深度マップなどのマルチモーダル先験的入力をサポートしています。
5ヶ月前
032.5K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

Paper2Videoは、シンガポール国立大学のShow Labで行われている、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換されます。
5ヶ月前
032.2K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - チームシャンダによるオープンソース長期メモリオペレーティングシステム

EverMemOSは、陳天樵が率いるシャンダチームが立ち上げたオープンソースの長期記憶オペレーティングシステムであり、AI知能のために設計され、大規模言語モデルの固定コンテキストウィンドウに起因するメモリ破壊の問題を解決する。このシステムは人間の脳の記憶メカニズムに基づいており、4層アーキテクチャ(エージェント層、メモリ層、インデックス層...)を採用している。
4ヶ月前
032.2K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtuオープンソースの汎用テキスト表現モデル

Youtu-Embeddingは、TencentのYoutu Labsによるオープンソースのユニバーサルテキスト表現モデルで、エンタープライズレベルのアプリケーション向けに設計されている。テキストはディープニューラルネットワークによって高次元のベクトル空間にマッピングされ、その空間では意味的に類似した文章がより近くに配置され、正確な意味検索が実現される。
5ヶ月前
032.1K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能:クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...
3ヶ月前
032.1K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ(ジョイスティック操作のアノテーションを含む)を分析することで実現されています...
3ヶ月前
031.7K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像(グリッド、点群など)を動的な動画に変換することをサポートする。
6ヶ月前
031.6K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。
3ヶ月前
031.5K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所 オープンソース ゼロサンプル クロスオントロジー 一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。
5ヶ月前
031.4K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。
6ヶ月前
031.4K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - カルパシーによるフリーでオープンソースの低コストモデル・トレーニング・プロジェクト

nanochatは、AIのレジェンドであり元テスラAIディレクターのアンドレイ・カルパシーが公開したオープンソースプロジェクトで、個人が非常に低コストかつシンプルに、小規模なChatGPTのような言語モデルを素早く学習することを可能にする。プロジェクト全体で使用されているのは、わずか約800...
5ヶ月前
031.1K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソース テキスト生成3Dモーションモデル

Hybrid Motion1.0(HY-Motion1.0)は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。
2ヶ月前
031K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
4ヶ月前
031K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
4ヶ月前
030.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM上に構築されたオープンソースのAIエージェントアプリケーション開発・管理プラットフォーム

LazyCraftは、オープンソースフレームワークLazyLLMに基づいてShangtangによって構築されたオープンソースのAIエージェントアプリケーション開発および管理プラットフォームであり、企業と開発者にワンストップのAIアプリケーション開発ソリューションを提供します。開発者が敷居が低く、低コストで大規模なモデルアプリケーションを迅速に構築し、リリースすることを支援します。
4ヶ月前
030.9K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。
6ヶ月前
030.8K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング(SFT...
6ヶ月前
030.1K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。
3ヶ月前
030K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデル

LLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス(言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整)を通じて...
5ヶ月前
029.6K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク

VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大規模なモデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行という高頻度の3つの生活シナリオをキャリアとして、パッケージを構築する...
5ヶ月前
029.4K
OmniVinci - NVIDIA开源的全模态大语言模型

オムニヴィンチ - NVIDIAのオープンソース全方位大規模言語モデル

OmniVinciは、NVIDIAによって開発されたオープンソースのフルモーダル大規模言語モデルであり、アーキテクチャの革新とデータの最適化を通じて、マルチモーダルモデルにおけるモーダルの断片化の問題を解決します。視覚と音声のエンベッディングのアライメントは、時間的に埋め込まれたグループキャプチャを利用するOmniAlignNetによって強化されます...
5ヶ月前
029.3K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - ターミナルでMarkdownファイルのレンダリングをサポートするオープンソースのコマンドラインツール

GlowはターミナルでMarkdownファイルをエレガントにレンダリングするオープンソースのコマンドラインツールです。このツールはコードブロック、数式、その他の複雑な要素のハイライトをサポートし、カスタムスタイル、ページング表示、マウスサポートなどの豊富な機能を提供します。
4ヶ月前
029.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - アリババのオープンソースAI履歴書解析・最適化ツール

SmartResumeは、PDF、画像、Office文書から基本情報、学歴、職歴などの構造化された情報を効率的に抽出する、アリババのオープンソースのインテリジェントな履歴書解析・最適化ツールです。OCRテクノロジーとPDFメタデータを統合することで、履歴書や職務経歴書の基本情報や学歴、職歴などの構造化された情報を効率的に抽出します。
4ヶ月前
029.1K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。
6ヶ月前
028.9K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
3ヶ月前
028.6K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
4ヶ月前
028.5K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。
3ヶ月前
028.4K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - オープンソースのAIローコードウェブサイトビルダー。

Frappe Builderは、Frappeによって開発されたオープンソースのローコードウェブサイトビルダーです。中心的な機能は、ウェブサイトを素早く構築するためのドラッグ&ドロップコンポーネントをサポートするFigmaライクなビジュアルエディタを提供することです。Frappeのエコロジー(Frappeverse)の一部です。
4ヶ月前
028.4K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル

OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。
3ヶ月前
028.3K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学のオープンソース学術論文をスライドに変換するAIツール

Paper2Slidesは、香港大学のData Intelligence LaboratoryによるオープンソースのAIツールで、学術論文をワンクリックでプロフェッショナルなスライドやポスターに変換する。RAG (Retrieval Augmented Generation)技術を使用し、ネットワーク情報に依存するのではなく、ドキュメントの内容を直接解析することで、生成されるPPTが元のPPTと高い整合性を持つようにします。
3ヶ月前
028.3K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポート

ClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。
3ヶ月前
028.2K
Step-Audio-EditX - 阶跃星辰开源的首个LLM级音频编辑大模型

Step-Audio-EditX - Step-Star初のオープンソースLLMレベルオーディオ編集ラージモデル

Step-Audio-EditXは、Step-Starチームによって開発されたオープンソースのオーディオ編集マクロモデルで、人工知能技術によるオーディオコンテンツのきめ細かな操作に焦点を当てています。このモデルは、オーディオのムード、話し方(小心者、老人アクセントなど)、パラ言語的要素(笑い、ため息など)を動的に調整することができます。
4ヶ月前
028.2K
OpenAgents - 开源免费的构建AI Agent网络开放协作项目

OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクト

OpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...
5ヶ月前
028K
LongCat-Flash-Omni - 美团开源的全模态大语言模型

LongCat-Flash-Omni - 明潭オープンソースのための完全モード大規模言語モデル

LongCat-Flash-Omniは、MeituanのLongCatチームによってリリースされたオープンソースの完全モーダルビッグ言語モデルです。5,600億のパラメータスケール(270億のアクティブ化されたパラメータ)を持ち、多数のパラメータを維持しながら、ミリ秒レベルのリアルタイムの音声と映像のインタラクション機能を実現している。
4ヶ月前
027.9K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
3ヶ月前
027.9K
LongCat-Audio-Codec - 美团LongCat开源的语音编解码方案

LongCat-Audio-Codec - Meituan LongCatオープンソーススピーチコーデックソリューション

LongCat-Audio-Codecは、MeituanのLongCatチームによるオープンソースの音声コーデックソリューションです。このソリューションは、Speech Large Language Model (Speech LLM)のために設計されており、意味的・音響的な二重トークン並列抽出メカニズムによって、音声の意味的・音響的特徴を考慮に入れています。
5ヶ月前
027.6K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。
3ヶ月前
027.6K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。
3ヶ月前
027.5K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...
2ヶ月前
027.5K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。
3ヶ月前
027.5K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワーク

PersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード(12GBのビデオメモリ)で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。
3ヶ月前
027.4K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。
6ヶ月前
027.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。
3ヶ月前
027.4K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP(Visual Tokenizer Pre-training)とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー(トークナイザー)の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...
3ヶ月前
027.3K
UniWorld V2 - 兔展智能联合北大推出的新一代图像编辑模型

UniWorld V2 - RabbitShow Intelligenceと北京大学が発表した新世代の画像編集モデル

UniWorld V2は、RabbitZhan Intelligenceと北京大学のUniWorldチームが共同で発表した新世代の画像編集モデルです。画像編集の分野、特に中国語の理解や複雑なコマンドの実行において大きな優位性を持っている。このモデルは、芸術的な中国語フォントを正確にレンダリングすることができ、細かい...
4ヶ月前
027.3K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント

SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。
3ヶ月前
027.1K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト(最大128K)を処理することができる。
3ヶ月前
027K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - 複雑なタスクをサポートするフリーでオープンソースのAIプログラミングデスクトップアシスタント

TalkCodyはフリーでオープンソースのAIプログラミングアシスタントデスクトップアプリケーションで、Rust + Tauri 2で構築され、Windows、macOS、Linuxの3つのプラットフォームをサポートし、ネイティブパフォーマンス、高速起動、低リソース使用の利点を備えています。50以上のメインストリームA...
3ヶ月前
026.9K
Astron Agent - 科大讯飞开源的企业级智能工作流开发平台

アストロンエージェント - KDDIオープンソースエンタープライズクラスインテリジェントワークフロー開発プラットフォーム

アストロンエージェントは、KDDIのオープンソースエンタープライズグレードのインテリジェントワークフロー開発プラットフォームです。Java + Spring Boot技術スタックを使用し、軽量なプライベートデプロイメント(最小2コア4G構成)をサポートし、ビルトイン...
4ヶ月前
026.8K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVergeによるオープンソースAIメモリシステム

MemMachineは、MemVerge社によって開発されたオープンソースのAIメモリシステムで、AIモデルや知能のために設計され、人間の脳のように相互作用データを保存して呼び出すことができ、AIの「無状態記憶喪失」の問題を解決する。レイヤー構造(短期記憶、長期記憶、ユーザー画像...)を採用している。
3ヶ月前
026.5K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100~200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...
3ヶ月前
026.5K