最新のAIリソース

共 3100 篇文章
Shortbread - AI漫画生成工具,自然语言描述完成漫画创作

ショートブレッド - AIコミック生成ツール、自然言語記述でコミックを完成させる

Shortbreadは、ユーザーが簡単な自然言語の説明に基づいて完全なコミックをすばやく作成できるAIコミック生成ツールです。Shortbreadは、描画スキルを必要とせず、テキストを入力するだけで、AIがユニークなキャラクター、シーン、感情を持つパーソナライズされたコミックをすばやく生成します。
11ヶ月前
047.2K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Qunar Technologiesのオープンソース3Dシーン生成モデル

SpatialGenはQunar Technologyのオープンソース3Dシーン生成モデルであり、拡散モデルアーキテクチャに基づき、テキスト記述、参照画像、3D空間レイアウトに基づいて時空間的に一貫性のあるマルチビュー画像の生成をサポートし、さらに3Dガウスシーンの生成とローミングビデオのレンダリングを行う。
8ヶ月前
047.2K
AIMangaStudio - 免费的AI漫画创作工具,提供完整创作流程

AIMangaStudio - フリーのAIマンガ作成ツール!

AIMangaStudioは、プロット生成、サブシーンデザイン、キャラクター設定などの機能を含む完全なマンガ制作パイプラインをクリエイターに提供し、脚本からマンガページまでの制作プロセスを簡素化できる無料のAIマンガ制作ツールです。プロット、セリフ、キャラクター設定など、マンガ原稿の自然言語生成をサポート。
7ヶ月前
047.1K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

なぜ妻は私を怒鳴るのか:夫婦間のコミュニケーションを疑似体験できるインタラクティブ・ツール

概要 「妻が私に怒鳴る理由」は、人工知能を通じてパートナーの感情的な反応やコミュニケーションパターンを理解できるように設計された、ユニークな夫婦関係シミュレーションサイトである。ユーザーは様々なシナリオを入力し、仮想パートナーの反応を体験することができます。
1年前
047.1K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1-アリが発表したマルチモーダル統一AIモデル

Ovis-U1は、アリババグループのOvisチームによって導入されたマルチモーダル統一モデルで、パラメータ規模は30億である。このモデルは、マルチモーダル理解、テキストから画像への生成、画像編集の3つのコア機能を持ち、先進的なアーキテクチャ設計と協調的かつ統一的なトレーニングメソッドにより、忠実度の高い画像の実現をサポートする。
10ヶ月前
047.1K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型

孔子3-数学 - NetEase.com、数学教育に特化したオープンソースの推論モデルを発表

Confucius3-Mathは、NetEaseYouDaoによってオープンソース化された、数学教育に特化した国内初のオープンソース推論モデルです。140億のパラメータを持ち、K-12の数学教育シナリオに最適化されており、コンシューマーグレードのGPU(例:RTX 4090D)1つで効率的に実行でき、推論性能は約...
10ヶ月前
047K
HeyGen - AI 数字人视频创作平台,支持多语言翻译配音

HeyGen - 多言語翻訳・吹き替えに対応したAIデジタルヒューマン動画作成プラットフォーム

HeyGenは、AIを活用したデジタルヒューマンビデオ作成プラットフォームで、合理的なビデオ制作プロセスをサポートし、ユーザーはプロ級のデジタルヒューマンビデオを素早く作成することができます。このプラットフォームは高度なAI技術に基づいており、ユーザーはデジタルキャラクターのイメージと声を完全にコントロールすることができます。
11ヶ月前
047K
Magentic-UI - 微软开源的人机协作AI Agent

Magentic-UI - マイクロソフト、人間とコンピュータのコラボレーションのためのオープンソースAIエージェント

Magentic-UIは、マイクロソフトのオープンソースの人間とコンピュータのコラボレーションAIエージェント研究ツールです。Magentic-UIは、ウェブブラウジング、コード実行、ファイル操作などの複雑なウェブタスクを容易にするために、ユーザーと密接に連携することに基づいています。Magentic-UIは、ユーザーと密接に連携し、ウェブブラウジングやコード実行、ファイル操作などの複雑なウェブタスクを容易にすることを基本としています。
11ヶ月前
046.9K
Report mAIstro:生成任意自定义主题的详细报告文档,例如商业分析、年终汇报等

レポートMAIstro:ビジネス分析、期末レポートなど、カスタムトピックに関する詳細なレポートを作成します。

概要 レポートmaistroは、自然言語処理技術により、ユーザーが簡単にカスタムレポートを作成できるように設計された強力なツールです。このツールはLangChainテクノロジーを利用し、ユーザーから提供されたトピックや構造を詳細なレポートに変換します。
1年前
046.9K
Higress MCP - 今日投资推出的MCP服务平台

ハイプレスMCP - インベスト・トゥデイがMCPサービス・プラットフォームを開始

ハイグレスMCPは、インベスト・トゥデイが発表した革新的なプラットフォームで、従来の金融データAPIを最新のMCPサービスに迅速に変換することをサポートします。ハイグレスMCPは、コーディング不要の簡単な設定に基づき、REST APIをMCPサーバーに変換することができます。
10ヶ月前
046.9K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

エレガントなYOYA - AIオーディオ/ビデオコンテンツクリエーションプラットフォームは、ZTE Winkoによって開始された

Elegant YOYAはZhongke Wengeが立ち上げたマルチモーダルリテラティブビデオプラットフォームであり、AIマルチモーダル技術に基づいて、ビデオコンテンツ作成の全チェーンを強化する。ユーザーはテーマ要件を入力するだけで、プラットフォームはスクリプト、画像、動画を迅速に生成し、インテリジェント編集、音声合成、キャラクター口駆動などの操作を完了することができ、出力...
11ヶ月前
046.7K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。
7ヶ月前
046.7K
有道小P - 网易有道推出的新一代AI全科学习助手

Youdao Xiao P - Netease Youdaoが発表した新世代のAI総合学習アシスタント

Youdao Little Pは、NetEase Youdaoが発表したAI全教科学習アシスタントで、K12の学生向けに設計され、Youdao Ziyi教育ビッグモデルを搭載し、小学校、中学校、高校の全教科のQ&Aをカバーし、個人的な学習アドバイスを提供する。AI単語検索とAI翻訳機能で、Youdao Little Pは生徒が言語の問題を素早く解決できるようサポートします...
11ヶ月前
046.4K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
7ヶ月前
046.4K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。
8ヶ月前
046.1K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - 統一されたマルチモーダル理解・生成モデル by Tongyi Qianqian

Qwen VLoはTongyi Qianqianチームによって導入されたマルチモーダル統一理解・生成モデルである。クウェンVLoは世界を「理解」し、その理解に基づいて高品質で再現することができ、知覚から生成への飛躍を実現する。VLoは映像の内容を正確に理解し、それに基づいて一貫した高品質の生成を行うことができる。
10ヶ月前
045.9K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - KunlunWeiのオープンソース推論ビッグモデル

MindLinkは崑崙ワールドワイドウェブによって起動されたオープンソースの推論の大規模なモデルです。適応推論機構を使用すると、タスクの複雑さに応じて柔軟に推論モードを切り替えることができ、単純なタスクが迅速に生成され、複雑なタスクの詳細な推論、アカウントに効率と精度を取る。計画駆動型の推論のパラダイムは、 "考える "タグを削除するには、減らす...
9ヶ月前
045.9K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
7ヶ月前
045.8K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - アリ・トンイ オープンソース・ディープリサーチ インテリジェンス機関

Tongyi DeepResearch(同義ディープリサーチ)は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...
7ヶ月前
045.6K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - KunlunWanweiオープンソース自律コードインテリジェントボディベースモデル

Skywork-SWE-32Bは、Kunlun World Wide Webによって導入されたオープンソースの32Bスケールソフトウェアエンジニアリング(SWE)自律コードインテリジェンスベースモデルです。このモデルは、ソフトウェアエンジニアリングのタスクに焦点を当て、強力なリポジトリレベルのコード修復機能を持ち、複数ラウンドのインタラクションと長いテキスト処理を含む複雑なシナリオで実行することができます...
10ヶ月前
045.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。
7ヶ月前
045.4K
万兴天幕 – 万兴科技推出AIGC视频创作平台

万興キャノピー - 万興科技、AIGCビデオ作成プラットフォームを発表

万興キャノピーは万興科技が発表したAIGC動画作成プラットフォームで、動画、画像、音声の3大作成分野をカバーし、メディア・文化産業従事者、映画・テレビ・ポストプロダクション従事者、アート・デザイン従事者、広告・マーケティング従事者などのために特別に設計され、ワンストップの専門的作成ソリューションを提供する。
10ヶ月前
045.3K
FactSnap - 新一代AI信息核查工具

FactSnap - 次世代AI情報検証ツール

FactSnapは、ウェブ情報の真偽を迅速に検証する新世代AI情報検証ツールです。複数のモデルと検索エンジンを統合することで、ユーザーがウェブを閲覧している間に、選択したテキストの検証をリアルタイムで実行します。
10ヶ月前
045.3K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - GoogleのAI推論モデル

Gemini 2.5 Deep Thinkは、複雑なタスクを解決するために設計されたGoogleのAI推論モデルである。国際数学オリンピック(IMO)2025で金メダルを獲得したモデルの亜種であり、並列推論によって複雑なタスクを解くように設計されている。
9ヶ月前
045.2K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...
8ヶ月前
045.1K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。
4ヶ月前
045.1K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI CV - AI履歴書生成・最適化プラットフォーム。

ジョブAI履歴書は、効率的で便利なインテリジェント履歴書生成・最適化プラットフォームです。AI技術に基づき、ユーザーはプロフェッショナルでパーソナライズされた履歴書を素早く作成することができます。ユーザーは基本的な情報と経験を入力するだけで、短時間で高品質の履歴書を作成することができ、2800以上の美しいテンプレートを提供し、様々な職種をカバーします。
11ヶ月前
045K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 上海AIラボ オープンソース エンドツーエンド デュアルシステムナビゲーション 大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。
7ヶ月前
044.9K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - 中国初の不動産AIエージェントをCRICが開始

CRIC Depth Intelligenceは、CRICが独自に開発した中国不動産初のAIインテリジェント体であり、CRICの20年にわたる不動産業界での経験とデータ蓄積、マルチモーダルビッグモデル技術に基づき、データ統合、インテリジェント分析からコンテンツ生成までの全チェーンを切り開く。
11ヶ月前
044.8K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
8ヶ月前
044.7K
Wide Research - Manus平台推出的多智能体协同功能

ワイドリサーチ - マヌスプラットフォームにマルチインテリジェンス・コラボレーションを導入

ワイドリサーチは、複雑で大規模なタスクを処理するために設計されたManusプラットフォームの強力な機能です。このプラットフォームは、システムレベルの並列処理メカニズムとインテリジェンスコラボレーションプロトコルによって、同時に動作する数百の汎用インテリジェンスをサポートします。
9ヶ月前
044.6K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型

Gemini Robotics On-Device - グーグル、ローカルで動作する初のエンボディド・インテリジェンス・モデルを発表

Gemini Robotics On-Deviceは、Google DeepMindの視覚言語アクションモデルであり、ロボットのローカルでの実行をサポートする。このモデルは、オフラインでタスクを実行することができ、服をたたんだり、開いたバッグを引っ張ったりといった、自然言語コマンドに基づいた細かい動作を完了する。
10ヶ月前
044.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
8ヶ月前
044.5K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
8ヶ月前
044.4K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
8ヶ月前
044.4K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
8ヶ月前
044.3K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。
4ヶ月前
044.2K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
5ヶ月前
044.2K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPTメーカー、自然言語生成プレゼンテーション

DeckSpeedは、会話型インタラクションに基づいたAIプレゼンテーション作成ツールで、ユーザーは自然言語に基づいてニーズを表現し、従来のテンプレートに依存することなく、パーソナライズされたスライドを素早く生成します。このツールはリアルタイムのフィードバック調整をサポートしており、ユーザーはいつでもスライドの色、スタイル、内容を変更することができ、プレゼンテーションの完成度を高めることができます。
11ヶ月前
044.2K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。
7ヶ月前
044.1K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス(携帯電話、ラップトップ、Raspberry Piなど)上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。
7ヶ月前
043.8K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
8ヶ月前
043.7K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

ステップス・ディープリサーチ - AIディープリサーチツール by ステップススター

Steps Deep Researchは、Steps Starが発表した効率的なAIリサーチツールで、複雑な問題のリサーチを自律的に完了し、専門的なレポートを短時間で作成することができる。このツールは、金融、コンサルティング、ヘルスケア、法律などの分野向けに設計されており、詳細な検索機能と情報統合機能により、業界レビューで優れた評価を得ている。
9ヶ月前
043.7K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル!

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...
8ヶ月前
043.6K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。
8ヶ月前
043.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
7ヶ月前
043.4K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。
6ヶ月前
043.2K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - アリ・トンイ、オープンソースの大規模モデル検索エンジン・フレームワークを発表

ZeroSearchはAlibaba Tongyi Labオープンソースの革新的な大規模モデルの検索エンジンのフレームワークです。このフレームワークは、実際の検索エンジンと対話する必要はありません、検索エンジンのシミュレーションに基づいて、大幅にトレーニングコストを削減し、関連またはノイズ文書を生成するために、独自の事前学習知識の大規模なモデル(80%以上を削減...
11ヶ月前
043.1K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
7ヶ月前
043K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
8ヶ月前
043K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション(KDA)を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。
6ヶ月前
042.5K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - AI Java開発アシスタント、インテリジェント開発の全プロセスの自然言語実装

Flycount JavaAIは、Flycount Technologyが発表したインテリジェントなJava開発アシスタントです。このプラットフォームは自然言語入力をサポートし、要件分析からコード生成まで、インテリジェントな開発の全プロセスを実現します。開発者は要件の説明を入力するだけで、Flycount JavaAIは正確に理解し、完全なエンジニアリングコードフレームワークを生成することができます。
11ヶ月前
042.3K
美间:在线软装(家装)设计工具,快速生成设计方案,软装辅助AI工具箱

Meiman:オンラインソフトファニッシング(家庭用家具)デザインツール、デザインソリューションの迅速な生成、ソフトファニッシング補助AIツールキット

総合紹介 Meimanは、住宅デザインとマーケティング交渉に焦点を当てたオンラインプラットフォームです。このサイトでは、デザイナーと住宅所有者が高品質のデザイン提案を迅速に作成できるよう、豊富なデザイン素材、ソフトファニシング、提案書PPTテンプレート、ポスターテンプレートなどを提供しています。Meimanのオンラインソフトファニシングデザインツールは、わずか10秒で使用することができます...
11ヶ月前
042.3K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
8ヶ月前
041.6K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
8ヶ月前
041.6K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...
8ヶ月前
041.5K
DiaMoE-TTS - 清华联合巨人网络开源的多方言语音合成框架

DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク

DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号(IPA)に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決します。統一されたIPAフロントエンドの標準化された音素表現により、方言間の差異を排除し、方言の音韻の変化...
7ヶ月前
041.4K