最新のAIリソース

共 2985 篇文章
浙江大学免费PDF资料《大模型基础》 - 附下载链接

浙江大学から大型モデルの基礎の無料PDF - ダウンロードリンク付き

ファンダメンタルズ・オブ・ラージ・モデルは、ラージ・ランゲージ・モデル(LLM)のコア技術と実用的な道筋を詳細に分析する。言語モデリングの基礎理論から始まり、統計的、リカレントニューラルネットワーク(RNN)、トランスフォーマーアーキテクチャに基づくモデル設計の原理を、3つの主要な大規模言語モデルに焦点を当てて体系的に解説しています。
6ヶ月前
040K
QVQ-Max - 阿里通义推出视觉推理模型

QVQ-Max - アリ・トンイ、視覚的推論モデルを発表

QVQ-MaxはAlitonix社の最先端の視覚推論モデルで、QVQ-72B-Previewのアップグレード版です。画像やビデオコンテンツを「読み取り」、分析と問題解決のための情報と組み合わせることができます。QVQ-Maxは、画像やビデオコンテンツを「読み取り」、分析、推論、問題解決のために情報を組み合わせることができる最先端の視覚推論モデルです。QVQ-Maxの主な機能には、画像解析、ビデオ分析...
9ヶ月前
039.8K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1-アリが発表したマルチモーダル統一AIモデル

Ovis-U1は、アリババグループのOvisチームによって導入されたマルチモーダル統一モデルで、パラメータ規模は30億である。このモデルは、マルチモーダル理解、テキストから画像への生成、画像編集の3つのコア機能を持ち、先進的なアーキテクチャ設計と協調的かつ統一的なトレーニングメソッドにより、忠実度の高い画像の実現をサポートする。
9ヶ月前
039.7K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - 統一されたマルチモーダル理解・生成モデル by Tongyi Qianqian

Qwen VLoはTongyi Qianqianチームによって導入されたマルチモーダル統一理解・生成モデルである。クウェンVLoは世界を「理解」し、その理解に基づいて高品質で再現することができ、知覚から生成への飛躍を実現する。VLoは映像の内容を正確に理解し、それに基づいて一貫した高品質の生成を行うことができる。
9ヶ月前
039.7K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - ウィズダムスペクトラムAIオープンソースの最新世代フラッグシップ大型モデル

GLM-4.7は、Smart Spectrum AIによってリリースされ、オープンソース化されたフラッグシップ・グランドモデルの最新世代で、AIプログラミング、複雑な推論、知的身体タスクのために深く最適化されています。このモデルは、200kのコンテキスト長と128kの最大出力をサポートし、多言語コーディング、長距離タスク計画、ツールコラボレーション機能を備えています。
3ヶ月前
039.5K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - アリ・トンイ オープンソース・ディープリサーチ インテリジェンス機関

Tongyi DeepResearch(同義ディープリサーチ)は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...
6ヶ月前
039.5K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

なぜ妻は私を怒鳴るのか:夫婦間のコミュニケーションを疑似体験できるインタラクティブ・ツール

概要 「妻が私に怒鳴る理由」は、人工知能を通じてパートナーの感情的な反応やコミュニケーションパターンを理解できるように設計された、ユニークな夫婦関係シミュレーションサイトである。ユーザーは様々なシナリオを入力し、仮想パートナーの反応を体験することができます。
11ヶ月前
039.5K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - フリーのAIマンガ作成ツール!

AIMangaStudioは、プロット生成、サブシーンデザイン、キャラクター設定などの機能を含む完全なマンガ制作パイプラインをクリエイターに提供し、脚本からマンガページまでの制作プロセスを簡素化できる無料のAIマンガ制作ツールです。プロット、セリフ、キャラクター設定など、マンガ原稿の自然言語生成をサポート。
5ヶ月前
039.5K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。
5ヶ月前
039.4K
万兴天幕 – 万兴科技推出AIGC视频创作平台

万興キャノピー - 万興科技、AIGCビデオ作成プラットフォームを発表

万興キャノピーは万興科技が発表したAIGC動画作成プラットフォームで、動画、画像、音声の3大作成分野をカバーし、メディア・文化産業従事者、映画・テレビ・ポストプロダクション従事者、アート・デザイン従事者、広告・マーケティング従事者などのために特別に設計され、ワンストップの専門的作成ソリューションを提供する。
9ヶ月前
039.3K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

エレガントなYOYA - AIオーディオ/ビデオコンテンツクリエーションプラットフォームは、ZTE Winkoによって開始された

Elegant YOYAはZhongke Wengeが立ち上げたマルチモーダルリテラティブビデオプラットフォームであり、AIマルチモーダル技術に基づいて、ビデオコンテンツ作成の全チェーンを強化する。ユーザーはテーマ要件を入力するだけで、プラットフォームはスクリプト、画像、動画を迅速に生成し、インテリジェント編集、音声合成、キャラクター口駆動などの操作を完了することができ、出力...
9ヶ月前
039.2K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型

孔子3-数学 - NetEase.com、数学教育に特化したオープンソースの推論モデルを発表

Confucius3-Mathは、NetEaseYouDaoによってオープンソース化された、数学教育に特化した国内初のオープンソース推論モデルです。140億のパラメータを持ち、K-12の数学教育シナリオに最適化されており、コンシューマーグレードのGPU(例:RTX 4090D)1つで効率的に実行でき、推論性能は約...
9ヶ月前
039.2K
Higress MCP - 今日投资推出的MCP服务平台

ハイプレスMCP - インベスト・トゥデイがMCPサービス・プラットフォームを開始

ハイグレスMCPは、インベスト・トゥデイが発表した革新的なプラットフォームで、従来の金融データAPIを最新のMCPサービスに迅速に変換することをサポートします。ハイグレスMCPは、コーディング不要の簡単な設定に基づき、REST APIをMCPサーバーに変換することができます。
8ヶ月前
039.2K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
6ヶ月前
039.1K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - GoogleのAI推論モデル

Gemini 2.5 Deep Thinkは、複雑なタスクを解決するために設計されたGoogleのAI推論モデルである。国際数学オリンピック(IMO)2025で金メダルを獲得したモデルの亜種であり、並列推論によって複雑なタスクを解くように設計されている。
7ヶ月前
039.1K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...
7ヶ月前
039.1K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI CV - AI履歴書生成・最適化プラットフォーム。

ジョブAI履歴書は、効率的で便利なインテリジェント履歴書生成・最適化プラットフォームです。AI技術に基づき、ユーザーはプロフェッショナルでパーソナライズされた履歴書を素早く作成することができます。ユーザーは基本的な情報と経験を入力するだけで、短時間で高品質の履歴書を作成することができ、2800以上の美しいテンプレートを提供し、様々な職種をカバーします。
9ヶ月前
038.7K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 崑崙王維の音声駆動型デジタル人間創造ツール

SkyReels-A3は、崑崙ワールドワイドグループが開発した音声駆動型デジタルヒューマンクリエーションツールです。SkyReels-A3は、音声駆動型デジタル人体作成ツールで、簡単な入力(例:肖像画像と音声)で高品質の動的ビデオコンテンツを生成したり、静止画を「生き生きと」させたり、既存のビデオのセリフを新しいリップシンクに置き換えてキャラクターが自動的に合わせることができます...
7ヶ月前
038.7K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - KunlunWeiのオープンソース推論ビッグモデル

MindLinkは崑崙ワールドワイドウェブによって起動されたオープンソースの推論の大規模なモデルです。適応推論機構を使用すると、タスクの複雑さに応じて柔軟に推論モードを切り替えることができ、単純なタスクが迅速に生成され、複雑なタスクの詳細な推論、アカウントに効率と精度を取る。計画駆動型の推論のパラダイムは、 "考える "タグを削除するには、減らす...
7ヶ月前
038.7K
有道小P - 网易有道推出的新一代AI全科学习助手

Youdao Xiao P - Netease Youdaoが発表した新世代のAI総合学習アシスタント

Youdao Little Pは、NetEase Youdaoが発表したAI全教科学習アシスタントで、K12の学生向けに設計され、Youdao Ziyi教育ビッグモデルを搭載し、小学校、中学校、高校の全教科のQ&Aをカバーし、個人的な学習アドバイスを提供する。AI単語検索とAI翻訳機能で、Youdao Little Pは生徒が言語の問題を素早く解決できるようサポートします...
9ヶ月前
038.6K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPTメーカー、自然言語生成プレゼンテーション

DeckSpeedは、会話型インタラクションに基づいたAIプレゼンテーション作成ツールで、ユーザーは自然言語に基づいてニーズを表現し、従来のテンプレートに依存することなく、パーソナライズされたスライドを素早く生成します。このツールはリアルタイムのフィードバック調整をサポートしており、ユーザーはいつでもスライドの色、スタイル、内容を変更することができ、プレゼンテーションの完成度を高めることができます。
9ヶ月前
038.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
6ヶ月前
038.5K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。
6ヶ月前
038.5K
FactSnap - 新一代AI信息核查工具

FactSnap - 次世代AI情報検証ツール

FactSnapは、ウェブ情報の真偽を迅速に検証する新世代AI情報検証ツールです。複数のモデルと検索エンジンを統合することで、ユーザーがウェブを閲覧している間に、選択したテキストの検証をリアルタイムで実行します。
9ヶ月前
038.4K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
6ヶ月前
038.3K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
6ヶ月前
038.3K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - KunlunWanweiオープンソース自律コードインテリジェントボディベースモデル

Skywork-SWE-32Bは、Kunlun World Wide Webによって導入されたオープンソースの32Bスケールソフトウェアエンジニアリング(SWE)自律コードインテリジェンスベースモデルです。このモデルは、ソフトウェアエンジニアリングのタスクに焦点を当て、強力なリポジトリレベルのコード修復機能を持ち、複数ラウンドのインタラクションと長いテキスト処理を含む複雑なシナリオで実行することができます...
9ヶ月前
038.2K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型

Gemini Robotics On-Device - グーグル、ローカルで動作する初のエンボディド・インテリジェンス・モデルを発表

Gemini Robotics On-Deviceは、Google DeepMindの視覚言語アクションモデルであり、ロボットのローカルでの実行をサポートする。このモデルは、オフラインでタスクを実行することができ、服をたたんだり、開いたバッグを引っ張ったりといった、自然言語コマンドに基づいた細かい動作を完了する。
9ヶ月前
038K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - 中国初の不動産AIエージェントをCRICが開始

CRIC Depth Intelligenceは、CRICが独自に開発した中国不動産初のAIインテリジェント体であり、CRICの20年にわたる不動産業界での経験とデータ蓄積、マルチモーダルビッグモデル技術に基づき、データ統合、インテリジェント分析からコンテンツ生成までの全チェーンを切り開く。
9ヶ月前
037.9K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。
6ヶ月前
037.8K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
6ヶ月前
037.8K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
6ヶ月前
037.7K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。
6ヶ月前
037.5K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
6ヶ月前
037.4K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。
5ヶ月前
037.4K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス(携帯電話、ラップトップ、Raspberry Piなど)上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。
5ヶ月前
037.2K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 上海AIラボ オープンソース エンドツーエンド デュアルシステムナビゲーション 大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。
6ヶ月前
037.1K
Wide Research - Manus平台推出的多智能体协同功能

ワイドリサーチ - マヌスプラットフォームにマルチインテリジェンス・コラボレーションを導入

ワイドリサーチは、複雑で大規模なタスクを処理するために設計されたManusプラットフォームの強力な機能です。このプラットフォームは、システムレベルの並列処理メカニズムとインテリジェンスコラボレーションプロトコルによって、同時に動作する数百の汎用インテリジェンスをサポートします。
8ヶ月前
037K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - AI Java開発アシスタント、インテリジェント開発の全プロセスの自然言語実装

Flycount JavaAIは、Flycount Technologyが発表したインテリジェントなJava開発アシスタントです。このプラットフォームは自然言語入力をサポートし、要件分析からコード生成まで、インテリジェントな開発の全プロセスを実現します。開発者は要件の説明を入力するだけで、Flycount JavaAIは正確に理解し、完全なエンジニアリングコードフレームワークを生成することができます。
9ヶ月前
037K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
6ヶ月前
036.8K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - アリ・トンイ、オープンソースの大規模モデル検索エンジン・フレームワークを発表

ZeroSearchはAlibaba Tongyi Labオープンソースの革新的な大規模モデルの検索エンジンのフレームワークです。このフレームワークは、実際の検索エンジンと対話する必要はありません、検索エンジンのシミュレーションに基づいて、大幅にトレーニングコストを削減し、関連またはノイズ文書を生成するために、独自の事前学習知識の大規模なモデル(80%以上を削減...
9ヶ月前
036.6K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション(KDA)を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。
5ヶ月前
036.5K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱

Meiman:オンラインソフトファニッシング(家庭用家具)デザインツール、デザインソリューションの迅速な生成、ソフトファニッシング補助AIツールキット

総合紹介 Meimanは、住宅デザインとマーケティング交渉に焦点を当てたオンラインプラットフォームです。このサイトでは、デザイナーと住宅所有者が高品質のデザイン提案を迅速に作成できるよう、豊富なデザイン素材、ソフトファニシング、提案書PPTテンプレート、ポスターテンプレートなどを提供しています。Meimanのオンラインソフトファニシングデザインツールは、わずか10秒で使用することができます...
9ヶ月前
036.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
6ヶ月前
036.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
6ヶ月前
036.1K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル!

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...
6ヶ月前
035.8K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...
6ヶ月前
035.8K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
6ヶ月前
035.6K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。
7ヶ月前
035.4K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
6ヶ月前
034.9K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

ステップス・ディープリサーチ - AIディープリサーチツール by ステップススター

Steps Deep Researchは、Steps Starが発表した効率的なAIリサーチツールで、複雑な問題のリサーチを自律的に完了し、専門的なレポートを短時間で作成することができる。このツールは、金融、コンサルティング、ヘルスケア、法律などの分野向けに設計されており、詳細な検索機能と情報統合機能により、業界レビューで優れた評価を得ている。
7ヶ月前
034.8K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 同義万象のアクション生成モデル オープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。
6ヶ月前
034.8K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク

DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号(IPA)に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決します。統一されたIPAフロントエンドの標準化された音素表現により、方言間の差異を排除し、方言の音韻の変化...
5ヶ月前
034.3K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
6ヶ月前
034.2K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。
3ヶ月前
034K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー(DiT)をベースモデルとしており、IDアダプターとRef-adapte...
6ヶ月前
033.9K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート(MoE)モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。
6ヶ月前
033.9K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル

SongBloomは、テンセントAIラボが香港中文大学(深圳)、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...
5ヶ月前
033.8K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。
5ヶ月前
033.6K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像のコマンドを同時に処理することができ、複数の参照画像をサポートし、クリエイターにより柔軟な創作方法を提供する。このモデルは、3段階のデータ合成プロセスを使用して学習され、共同学習生成/編集...
5ヶ月前
033.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
3ヶ月前
033.4K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...
6ヶ月前
033.3K