最新のAIリソース

共 2968 篇文章
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソース テキスト生成3Dモーションモデル

Hybrid Motion1.0(HY-Motion1.0)は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。
2ヶ月前
026.5K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

Yume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング(シングルカードで12FPS)が可能です。時空間結合チャネルモデリング(TSCM)技術を採用しており、コンテキストの長さが長くなっても...
2ヶ月前
020.6K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...
2ヶ月前
022.2K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワーク

PersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード(12GBのビデオメモリ)で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。
2ヶ月前
021.6K
Computer Use Preview - Google开源的AI浏览器自动化工具

コンピュータ利用プレビュー - GoogleのオープンソースAIブラウザ自動化ツール

コンピュータの使用プレビューは、Webページの対話を達成するために自然言語コマンドを介して、ジェミニモデルに基づいて、GoogleのオープンソースのAIブラウザ自動化ツールです。視覚認識プロセスの「スクリーンショット→分析→実行」を使用し、Playwrighをサポートします。
2ヶ月前
020.7K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポート

ClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。
2ヶ月前
023.9K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能:クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...
2ヶ月前
028.9K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - リトルレッドブックと復旦大学のオープンソースレイアウト制御生成技術

InstanceAssembleは、Xiaohongshuと復旦大学が共同でオープンソース化したレイアウト制御生成技術で、「Instance Assemble Attention」のメカニズムにより、単純なレイアウトから複雑なレイアウトまで、また疎なレイアウトから密なレイアウトまで、正確な画像生成を実現します。2段階のカスケードアーキテクチャを採用し、最初に画像の背景に入り、次に1つずつ...
2ヶ月前
014.1K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。
2ヶ月前
023.7K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデル

QwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト(例えば1M-4Mトークン)の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...
2ヶ月前
019.5K
Infographic - 阿里AntV团队开源的信息图生成框架

インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワーク

インフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。
2ヶ月前
020.3K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーション

opcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。
2ヶ月前
021.1K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100~200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...
2ヶ月前
023.4K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。
2ヶ月前
024.6K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル

Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...
2ヶ月前
019.6K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - ウィズダムスペクトラムAIオープンソースの最新世代フラッグシップ大型モデル

GLM-4.7は、Smart Spectrum AIによってリリースされ、オープンソース化されたフラッグシップ・グランドモデルの最新世代で、AIプログラミング、複雑な推論、知的身体タスクのために深く最適化されています。このモデルは、200kのコンテキスト長と128kの最大出力をサポートし、多言語コーディング、長距離タスク計画、ツールコラボレーション機能を備えています。
2ヶ月前
034.7K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ(ジョイスティック操作のアノテーションを含む)を分析することで実現されています...
2ヶ月前
026.5K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。
2ヶ月前
029.5K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP(Visual Tokenizer Pre-training)とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー(トークナイザー)の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...
2ヶ月前
022.9K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト(最大128K)を処理することができる。
2ヶ月前
022.6K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...
2ヶ月前
021.3K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。
2ヶ月前
028.5K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - エージェント駆動型ユーザー・インタラクション・インターフェースのためのGoogleのオープンソース宣言型プロトコル

A2UI(Agent-to-User Interface)は、Googleがオープンソースで提供するエージェント駆動型インターフェース・プロトコルであり、AIエージェント向けに複雑な対話型インターフェースを生成する際の課題に対処する。AIエージェントがユーザーインターフェースの構造を記述できるようにする宣言的なJSONフォーマットを通じて、クライアントアプリケーションは、AIエージェントがユーザーインターフェースの構造を記述できるようにします。
2ヶ月前
035.3K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
2ヶ月前
023.4K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
2ヶ月前
023.2K