AIシェアリングサークル

最新のAI製品、プロジェクト、フレームワーク、論文解釈などを毎日共有〜。
gpt-realtime - OpenAI最新推出的AI语音模型

gpt-realtime - OpenAIの最新AIスピーチモデル

gpt-realtimeはOpenAIの高度な音声モデルで、自然で滑らかな音声を生成するための直接音声処理をサポートしています。このモデルは複数の言語とスタイルをサポートし、笑いなどの非言語的な合図を理解し、言語を切り替えることができます。
3ヶ月前
028.1K
Youtu-agent - 腾讯开源的高效智能体框架

Youtu-agent - Tencentオープンソースの効率的な知的ボディフレームワーク

Youtu-agentは、Tencent Youtu Labsが提供する自律型インテリジェンスを構築・実行するためのオープンソースフレームワークです。このフレームワークはWebWalkerQAとGAIAのベンチマークでそれぞれ71.47%と72.8%の精度を出しています。
3ヶ月前
032.1K
HunyuanVideo-Foley - 腾讯推出的开源视频音效生成模型

HunyuanVideo-フォーリー - テンセントのオープンソース動画音源生成モデル

HunyuanVideo-Foleyは、TencentのMixed Yuanチームによるオープンソースのビデオサウンド生成モデルで、無音ビデオに正確にマッチした効果音を追加することをサポートします。このモデルは、大規模なデータセットのトレーニングに基づいており、マルチモーダル拡散コンバータアーキテクチャと、アライメント損失関数の表現とオーディオVAE最適化技術を組み合わせています...
3ヶ月前
033.5K
PixVerse V5 - 爱诗科技推出的自研AI视频模型

PixVerse V5 - アイシ・テクノロジーズが自社開発のAI動画モデルを発表

PixVerse V5は、アイシ・テクノロジーが発表したAI動画生成の大型モデルである。ユーザーが入力したテキスト説明文や画像をもとに、高品質な動画コンテンツを生成できるモデルで、アニメ、SF、国民的など様々なスタイルに対応している。
3ヶ月前
030.9K
问小白5 - 问小白推出的全能AI模型

アスク・ホワイト5 - アスク・ホワイトのオールインワンAIモデル

アスクホワイト5は、非常に高い知性を備えた「オール・イン・ワン」のフラッグシップモデルである。AA-Index総合評価スコア64.7点、STEM能力評価スコア86点など、多くの評価で好成績を収め、世界トップクラスのGPT-5に迫る。
3ヶ月前
028.5K
Gemini 2.5 Flash Image - 谷歌推出的最强图像生成与编辑模型

Gemini 2.5 Flash Image - Googleによる最も強力な画像生成・編集モデル

ジェミニ2.5フラッシュイメージ(コードネームnano banana)は、Googleが提供する最先端の画像生成・編集モデルであり、シーン間の文字の一貫性を維持し、背景をぼかしたり、汚れを除去したりといった自然言語による精密な画像編集をサポートする。
3ヶ月前
031.2K
Wan2.2-S2V - 阿里通义开源的音频驱动视频生成模型

Wan2.2-S2V - Ali Tongyi オープンソース音声駆動ビデオ生成モデル

Wan2.2-S2VはAli Tongyiのオープンソースのマルチモーダルビデオ生成モデルであり、静止画像と音声のみで、高品質のデジタルヒューマンビデオを生成することができ、様々な画像タイプとフレームをサポートしています。
3ヶ月前
029.8K
吴恩达面向开发者的ChatGPT提示工程免费课程

アーネスト・ンによる開発者のためのChatGPTチップエンジニアリング無料コース

ChatGPT Tip Engineering for Developersは、開発者向けにデザインされたDeepLearning.AIとOpenAIの共同コースで、Isa Fulford、Andrew Ngを講師に迎え、大規模言語モデル(LLM)の使い方を学びます。
3ヶ月前
031K
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。
3ヶ月前
026.3K
VibeVoice - 微软推出的文本到语音模型

VibeVoice - マイクロソフトの音声合成モデリング

バイブボイスは、マイクロソフトの新しい音声合成(TTS)モデルである。このモデルは、最大4つの異なるスピーカーから会話音声を生成し、最大90分の連続音声出力をサポートしており、従来のTTSシステムの長さの制限を打ち破っている。
3ヶ月前
036.3K