最新のAIリソース

共 3107 篇文章
FactSnap - 新一代AI信息核查工具

FactSnap - 次世代AI情報検証ツール

FactSnapは、ウェブ情報の真偽を迅速に検証する新世代AI情報検証ツールです。複数のモデルと検索エンジンを統合することで、ユーザーがウェブを閲覧している間に、選択したテキストの検証をリアルタイムで実行します。
12ヶ月前
049.8K
Agentar-Fin-R1 - 蚂蚁数科推出的金融领域推理大模型

Agentar-Fin-R1 - 金融推論のためのビッグモデル by Anthem Digital

Agentar-Fin-R1は、Anthem社によって導入された金融領域向けの最先端の大規模言語モデルである。強力なQwen3アーキテクチャに基づいて開発されたこのモデルは、8Bと32Bの2つのパラメータスケールバージョンを提供し、多段階分析、リスク評価、戦争などの複雑な金融推論タスクを正確に処理することができます。
11ヶ月前
049.8K
Magentic-UI - 微软开源的人机协作AI Agent

Magentic-UI - マイクロソフト、人間とコンピュータのコラボレーションのためのオープンソースAIエージェント

Magentic-UIは、マイクロソフトのオープンソースの人間とコンピュータのコラボレーションAIエージェント研究ツールです。Magentic-UIは、ウェブブラウジング、コード実行、ファイル操作などの複雑なウェブタスクを容易にするために、ユーザーと密接に連携することに基づいています。Magentic-UIは、ユーザーと密接に連携し、ウェブブラウジングやコード実行、ファイル操作などの複雑なウェブタスクを容易にすることを基本としています。
1年前
049.6K
MagicTryOn - 浙大和vivo等机构推出的视频虚拟试穿框架

MagicTryOn(マジックトライオン) - ZJUやVivoなどが提供するビデオバーチャル試着フレームワーク

MagicTryOnは、浙江大学コンピューター科学技術学院がvivoや他の組織と共同で立ち上げた先進的なビデオバーチャルトライオン・フレームワークである。このフレームワークは、従来のU-Netアーキテクチャを革新的なDiffusion Transformer (DiT)アーキテクチャに置き換え、完全なセルフアテンションマシンと組み合わせたものである。
1年前
049.6K
Genie 3 - 谷歌推出的通用世界模型

ジーニー3 - グーグルのユニバーサル世界モデル

Genie 3は、Google DeepMindが提供する新世代のユニバーサルワールドモデルで、高度にダイナミックで一貫性のある仮想世界をリアルタイムで生成することができます。Genie 3は、物理現象や自然生態系をシミュレートし、ファンタジーや歴史的なシナリオの作成をサポートします。テキストプロンプトにより、ユーザーは...
10ヶ月前
049.6K
商汤如影 - 商汤科技推出的AI数字人视频制作平台

Shangtang Ruyi - Shangtang Technologyが立ち上げたAIデジタルヒューマンビデオ制作プラットフォーム

Shangtang Ruyingは、Shangtang Technologyが発表したAIデジタル人体映像制作プラットフォームである。ビッグモデル技術に基づき、顔の特徴、服装、髪型など、非常にリアルなデジタル人体イメージの作成とパーソナライズをサポートする。このプラットフォームは、サウンドクローン、ビデオ生成、自動データ注釈、リアルタイムインタラクションなどの機能を備えている。
1年前
049.6K
优雅YOYA - 中科闻歌推出的AI音视频内容创作平台

エレガントなYOYA - AIオーディオ/ビデオコンテンツクリエーションプラットフォームは、ZTE Winkoによって開始された

Elegant YOYAはZhongke Wengeが立ち上げたマルチモーダルリテラティブビデオプラットフォームであり、AIマルチモーダル技術に基づいて、ビデオコンテンツ作成の全チェーンを強化する。ユーザーはテーマ要件を入力するだけで、プラットフォームはスクリプト、画像、動画を迅速に生成し、インテリジェント編集、音声合成、キャラクター口駆動などの操作を完了することができ、出力...
1年前
049.5K
Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo - 統一されたマルチモーダル理解・生成モデル by Tongyi Qianqian

Qwen VLoはTongyi Qianqianチームによって導入されたマルチモーダル統一理解・生成モデルである。クウェンVLoは世界を「理解」し、その理解に基づいて高品質で再現することができ、知覚から生成への飛躍を実現する。VLoは映像の内容を正確に理解し、それに基づいて一貫した高品質の生成を行うことができる。
12ヶ月前
049.4K
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。
10ヶ月前
049.4K
Report mAIstro:生成任意自定义主题的详细报告文档,例如商业分析、年终汇报等

レポートMAIstro:ビジネス分析、期末レポートなど、カスタムトピックに関する詳細なレポートを作成します。

概要 レポートmaistroは、自然言語処理技術により、ユーザーが簡単にカスタムレポートを作成できるように設計された強力なツールです。このツールはLangChainテクノロジーを利用し、ユーザーから提供されたトピックや構造を詳細なレポートに変換します。
1年前
049.4K
Higress MCP - 今日投资推出的MCP服务平台

ハイプレスMCP - インベスト・トゥデイがMCPサービス・プラットフォームを開始

ハイグレスMCPは、インベスト・トゥデイが発表した革新的なプラットフォームで、従来の金融データAPIを最新のMCPサービスに迅速に変換することをサポートします。ハイグレスMCPは、コーディング不要の簡単な設定に基づき、REST APIをMCPサーバーに変換することができます。
11ヶ月前
049.4K
MoE-TTS - 昆仑万维推出的最新语音生成框架

MoE-TTS - 崑崙微の最新音声生成フレームワーク

MoE-TTSは、KunlunWanweiによって導入された音声合成フレームワークで、事前に訓練された大規模言語モデル(LLM)と音声専門家モジュールを組み合わせたMixed Expert(MoE)アーキテクチャに基づいています。MoE-TTSは、テキストモジュールのパラメータを凍結し、音声モジュールのパラメータのみを更新することにより、強力なテキスト推論を保持します...
10ヶ月前
049.3K
FireRedChat - 小红书开源的全双工语音交互系统

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。
8ヶ月前
049.2K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。
6ヶ月前
049.1K
Why My Wife Yelling At Me:模拟婚姻沟通的互动工具

なぜ妻は私を怒鳴るのか:夫婦間のコミュニケーションを疑似体験できるインタラクティブ・ツール

概要 「妻が私に怒鳴る理由」は、人工知能を通じてパートナーの感情的な反応やコミュニケーションパターンを理解できるように設計された、ユニークな夫婦関係シミュレーションサイトである。ユーザーは様々なシナリオを入力し、仮想パートナーの反応を体験することができます。
1年前
048.8K
SpatialGen - 群核科技推出的开源3D场景生成模型

SpatialGen - Qunar Technologiesのオープンソース3Dシーン生成モデル

SpatialGenはQunar Technologyのオープンソース3Dシーン生成モデルであり、拡散モデルアーキテクチャに基づき、テキスト記述、参照画像、3D空間レイアウトに基づいて時空間的に一貫性のあるマルチビュー画像の生成をサポートし、さらに3Dガウスシーンの生成とローミングビデオのレンダリングを行う。
10ヶ月前
048.8K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。
9ヶ月前
048.8K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - アリ・トンイ オープンソース・ディープリサーチ インテリジェンス機関

Tongyi DeepResearch(同義ディープリサーチ)は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...
9ヶ月前
048.8K
Confucius3-Math - 网易有道推出专注于数学教育的开源推理模型

孔子3-数学 - NetEase.com、数学教育に特化したオープンソースの推論モデルを発表

Confucius3-Mathは、NetEaseYouDaoによってオープンソース化された、数学教育に特化した国内初のオープンソース推論モデルです。140億のパラメータを持ち、K-12の数学教育シナリオに最適化されており、コンシューマーグレードのGPU(例:RTX 4090D)1つで効率的に実行でき、推論性能は約...
12ヶ月前
048.6K
HeyGen - AI 数字人视频创作平台,支持多语言翻译配音

HeyGen - 多言語翻訳・吹き替えに対応したAIデジタルヒューマン動画作成プラットフォーム

HeyGenは、AIを活用したデジタルヒューマンビデオ作成プラットフォームで、合理的なビデオ制作プロセスをサポートし、ユーザーはプロ級のデジタルヒューマンビデオを素早く作成することができます。このプラットフォームは高度なAI技術に基づいており、ユーザーはデジタルキャラクターのイメージと声を完全にコントロールすることができます。
1年前
048.5K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。
6ヶ月前
048.4K
SkyReels-A3 - 昆仑万维推出的音频驱动数字人创作工具

SkyReels-A3 - 崑崙王維の音声駆動型デジタル人間創造ツール

SkyReels-A3は、崑崙ワールドワイドグループが開発した音声駆動型デジタルヒューマンクリエーションツールです。SkyReels-A3は、音声駆動型デジタル人体作成ツールで、簡単な入力(例:肖像画像と音声)で高品質の動的ビデオコンテンツを生成したり、静止画を「生き生きと」させたり、既存のビデオのセリフを新しいリップシンクに置き換えてキャラクターが自動的に合わせることができます...
10ヶ月前
048.4K
Skywork-SWE-32B - 昆仑万维开源的自主代码智能体基座模型

Skywork-SWE-32B - KunlunWanweiオープンソース自律コードインテリジェントボディベースモデル

Skywork-SWE-32Bは、Kunlun World Wide Webによって導入されたオープンソースの32Bスケールソフトウェアエンジニアリング(SWE)自律コードインテリジェンスベースモデルです。このモデルは、ソフトウェアエンジニアリングのタスクに焦点を当て、強力なリポジトリレベルのコード修復機能を持ち、複数ラウンドのインタラクションと長いテキスト処理を含む複雑なシナリオで実行することができます...
1年前
048.4K
MindLink - 昆仑万维推出的开源推理大模型

MindLink - KunlunWeiのオープンソース推論ビッグモデル

MindLinkは崑崙ワールドワイドウェブによって起動されたオープンソースの推論の大規模なモデルです。適応推論機構を使用すると、タスクの複雑さに応じて柔軟に推論モードを切り替えることができ、単純なタスクが迅速に生成され、複雑なタスクの詳細な推論、アカウントに効率と精度を取る。計画駆動型の推論のパラダイムは、 "考える "タグを削除するには、減らす...
11ヶ月前
048.4K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
9ヶ月前
048.3K
DeckSpeed - AI PPT制作工具,自然语言生成演示文稿

DeckSpeed - AI PPTメーカー、自然言語生成プレゼンテーション

DeckSpeedは、会話型インタラクションに基づいたAIプレゼンテーション作成ツールで、ユーザーは自然言語に基づいてニーズを表現し、従来のテンプレートに依存することなく、パーソナライズされたスライドを素早く生成します。このツールはリアルタイムのフィードバック調整をサポートしており、ユーザーはいつでもスライドの色、スタイル、内容を変更することができ、プレゼンテーションの完成度を高めることができます。
1年前
048.2K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
10ヶ月前
048K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 上海AIラボ オープンソース エンドツーエンド デュアルシステムナビゲーション 大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。
9ヶ月前
047.9K
职达AI简历 - AI简历生成与优化平台,精准分析问题、提供优化建议

JobTech AI CV - AI履歴書生成・最適化プラットフォーム。

ジョブAI履歴書は、効率的で便利なインテリジェント履歴書生成・最適化プラットフォームです。AI技術に基づき、ユーザーはプロフェッショナルでパーソナライズされた履歴書を素早く作成することができます。ユーザーは基本的な情報と経験を入力するだけで、短時間で高品質の履歴書を作成することができ、2800以上の美しいテンプレートを提供し、様々な職種をカバーします。
1年前
047.7K
万兴天幕 – 万兴科技推出AIGC视频创作平台

万興キャノピー - 万興科技、AIGCビデオ作成プラットフォームを発表

万興キャノピーは万興科技が発表したAIGC動画作成プラットフォームで、動画、画像、音声の3大作成分野をカバーし、メディア・文化産業従事者、映画・テレビ・ポストプロダクション従事者、アート・デザイン従事者、広告・マーケティング従事者などのために特別に設計され、ワンストップの専門的作成ソリューションを提供する。
12ヶ月前
047.6K
CRIC深度智联 - 克而瑞推出的中国房地产首个AI Agent

CRIC - 中国初の不動産AIエージェントをCRICが開始

CRIC Depth Intelligenceは、CRICが独自に開発した中国不動産初のAIインテリジェント体であり、CRICの20年にわたる不動産業界での経験とデータ蓄積、マルチモーダルビッグモデル技術に基づき、データ統合、インテリジェント分析からコンテンツ生成までの全チェーンを切り開く。
1年前
047.6K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。
9ヶ月前
047.5K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
6ヶ月前
047.5K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
9ヶ月前
047.4K
Gemini 2.5 Deep Think - 谷歌推出的AI推理模型

Gemini 2.5 Deep Think - GoogleのAI推論モデル

Gemini 2.5 Deep Thinkは、複雑なタスクを解決するために設計されたGoogleのAI推論モデルである。国際数学オリンピック(IMO)2025で金メダルを獲得したモデルの亜種であり、並列推論によって複雑なタスクを解くように設計されている。
11ヶ月前
047.2K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
9ヶ月前
047K
Gemini Robotics On-Device - 谷歌推出首个在本地运行的具身智能模型

Gemini Robotics On-Device - グーグル、ローカルで動作する初のエンボディド・インテリジェンス・モデルを発表

Gemini Robotics On-Deviceは、Google DeepMindの視覚言語アクションモデルであり、ロボットのローカルでの実行をサポートする。このモデルは、オフラインでタスクを実行することができ、服をたたんだり、開いたバッグを引っ張ったりといった、自然言語コマンドに基づいた細かい動作を完了する。
12ヶ月前
047K
Meeseeks - 美团开源的评估模型指令遵循能力的评测集

Meeseeks - 模範的な指示に従う能力を評価するためのMeeseeksオープンソース評価セット

Meeseeksは、MeituanのM17チームがモデルの指示に従う能力を評価するために使用しているオープンソースの大規模モデル評価セットです。Meeseeksは、モデルがマクロレベルからミクロレベルまでユーザーの指示に厳密に従った回答を生成できるかどうかを総合的に測定するために3段階の評価フレームワークを使用しており、回答内容の知識をプラス評価することはありません...
10ヶ月前
046.9K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
9ヶ月前
046.7K
Wide Research - Manus平台推出的多智能体协同功能

ワイドリサーチ - マヌスプラットフォームにマルチインテリジェンス・コラボレーションを導入

ワイドリサーチは、複雑で大規模なタスクを処理するために設計されたManusプラットフォームの強力な機能です。このプラットフォームは、システムレベルの並列処理メカニズムとインテリジェンスコラボレーションプロトコルによって、同時に動作する数百の汎用インテリジェンスをサポートします。
11ヶ月前
046.6K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。
9ヶ月前
046.5K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
9ヶ月前
046.2K
NeuTTS Air - 支持离线CPU运行的免费轻量级语音合成模型

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス(携帯電話、ラップトップ、Raspberry Piなど)上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。
8ヶ月前
046K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
9ヶ月前
046K
SoulX-Podcast - Soul AI Lab开源的对话式语音合成模型

SoulX-Podcast - Soul AI Labのオープンソース会話音声合成モデル

SoulX-Podcastは、高品質のポッドキャストコンテンツを生成するために設計された、Soul AI Labのオープンソースの先進的な複数話者会話音声合成モデルです。SoulX-Podcastは複数ラウンドのダイアログを生成する機能を持ち、実際のポッドキャスティングシナリオでスムーズなダイアログをシミュレートできます。
8ヶ月前
046K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ(ジョイスティック操作のアノテーションを含む)を分析することで実現されています...
6ヶ月前
045.7K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル!

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...
9ヶ月前
045.7K
飞算JavaAI - AI Java开发助手,自然语言实现全流程智能化开发

Flycount JavaAI - AI Java開発アシスタント、インテリジェント開発の全プロセスの自然言語実装

Flycount JavaAIは、Flycount Technologyが発表したインテリジェントなJava開発アシスタントです。このプラットフォームは自然言語入力をサポートし、要件分析からコード生成まで、インテリジェントな開発の全プロセスを実現します。開発者は要件の説明を入力するだけで、Flycount JavaAIは正確に理解し、完全なエンジニアリングコードフレームワークを生成することができます。
1年前
045.4K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
9ヶ月前
045.4K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
9ヶ月前
045.3K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
9ヶ月前
045.1K
Kimi Linear - 月之暗面开源的新型混合线性注意力架构

キミ・リニア - 月の裏側でオープンソース化された新しいハイブリッド・リニア・アテンション・アーキテクチャ

キミ・リニアは、ダークサイド・オブ・ザ・ムーンがオープンソース化した新しいハイブリッド・リニア・アテンション・アーキテクチャで、キミ・デルタ・アテンション(KDA)を中核とし、従来のアテンション・モデルをよりきめ細かいゲーティング・メカニズムによって最適化し、ハードウェア効率とメモリ制御能力を大幅に向上させている。
8ヶ月前
045K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
9ヶ月前
045K
ZeroSearch - 阿里通义推出的开源大模型搜索引擎框架

ZeroSearch - アリ・トンイ、オープンソースの大規模モデル検索エンジン・フレームワークを発表

ZeroSearchはAlibaba Tongyi Labオープンソースの革新的な大規模モデルの検索エンジンのフレームワークです。このフレームワークは、実際の検索エンジンと対話する必要はありません、検索エンジンのシミュレーションに基づいて、大幅にトレーニングコストを削減し、関連またはノイズ文書を生成するために、独自の事前学習知識の大規模なモデル(80%以上を削減...
1年前
045K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
9ヶ月前
044.6K
阶跃深研 - 阶跃星辰推出的AI深入研究工具

ステップス・ディープリサーチ - AIディープリサーチツール by ステップススター

Steps Deep Researchは、Steps Starが発表した効率的なAIリサーチツールで、複雑な問題のリサーチを自律的に完了し、専門的なレポートを短時間で作成することができる。このツールは、金融、コンサルティング、ヘルスケア、法律などの分野向けに設計されており、詳細な検索機能と情報統合機能により、業界レビューで優れた評価を得ている。
11ヶ月前
044.5K