AIシェアリングサークル

最新のAI製品、プロジェクト、フレームワーク、論文解釈などを毎日共有〜。
GLM-4.1V-Thinking - 智谱AI推出的开源视觉语言模型系列

GLM-4.1V-Thinking - Smart Spectrum AIによるオープンソース視覚言語モデルシリーズ

GLM-4.1V-Thinkingは、Smart Spectrum AIによって導入されたオープンソースの視覚言語モデルであり、複雑な認知タスクのために設計されている。GLM-4Vアーキテクチャに基づき、このモデルは思考の連鎖を導入...
1ヶ月前
02.1K
ThinkSound - 阿里通义推出的音频生成模型

ThinkSound - オーディオ・ジェネレーション・モデリング from Ali Tongyi

ThinkSoundは、アリ・トンイのスピーチチームが初めて導入したCoT(連鎖思考)音声生成モデルです。このモデルは、CoT推論の導入に基づいて、従来の技術では画面の動的な詳細や空間的な関係をキャプチャすることが困難であるという問題を解決するために、ビデオ画像に正確に一致する効果音を生成することができます。
1ヶ月前
01.7K
Qwen-TTS - 阿里通义千问推出的语音合成模型

Qwen-TTS - Ali Tongyi Qianqianによる音声合成モデル

Qwen-TTSはAli Tongyiによって導入された先進的な音声合成モデルである。テキストを自然で滑らかな音声に効率的に変換することができ、北京語、英語、北京方言など複数の言語や方言をサポートし、異なる地域やシーンのニーズに応えます。膨大なコーパスの訓練に基づき、このモデルの音声出力は高品質で、韻を踏...
1ヶ月前
02.1K
MultiAgentPPT - 开源的AI演示文稿生成系统

MultiAgentPPT - オープンソースのAIプレゼンテーション生成システム

MultiAgentPPTは、オープンソースのマルチインテリジェントAIプレゼンテーション生成システムです。ユーザーは主題を入力するだけで、システムはマルチインテリジェントなコラボレーションに基づいており、自動的にアウトラインの生成、主題の分割、並列調査とコンテンツの要約と他のステップを完了し、迅速に高品質のPPTを生成します。
1ヶ月前
02.4K
Ovis-U1 - 阿里推出的多模态统一AI模型

Ovis-U1-アリが発表したマルチモーダル統一AIモデル

Ovis-U1は、アリババグループのOvisチームによって導入されたマルチモーダル統一モデルで、パラメータ規模は30億である。このモデルは、マルチモーダル理解、テキストから画像への生成、画像編集の3つのコア機能を持ち、先進的なアーキテクチャ設計と協調的かつ統一的なトレーニングメソッドにより、忠実度の高い画像の実現をサポートする。
1ヶ月前
02K
Doppl - 谷歌推出的AI虚拟试衣应用

Doppl - Googleが提供するAIバーチャルフィッティングアプリ

DopplはGoogleが提供するAIバーチャルフィッティングアプリだ。ユーザーが全身写真をアップロードした後、このアプリは自分の体のデジタル版で服の写真やスクリーンショットを「着る」ことをサポートし、静止画からAIが生成した動画に変換することができるため、ユーザーは服が体に与える影響をより実感することができる。
2ヶ月前
01.7K
迅雷MCP - 迅雷推出的AI自动下载服务

迅雷MCP - 迅雷がAI自動ダウンロードサービスを開始

Xunlei MCPは、Xunleiが開始した、AI技術に基づく自動ダウンロードサービスです。このサービスをサポートするAIアプリケーションのユーザーは、音声またはテキスト入力でダウンロードを要求すると、AIが自動的にネットワークリソースを検索し、ダウンロードを開始することができます。Xunlei MCPはPC版XunleiとNAS版Xunleiをサポートし、従来のダウンロードモードを打破する。
2ヶ月前
01.6K
咔皮记账 - 商汤科技推出的智能AI记账应用

Kapi Bookkeeping - ShangTechによるインテリジェントAI簿記アプリ

Kapi Bookkeepingは、Shangtang Technologyが発表したインテリジェントなAI簿記アプリケーションである。このアプリケーションは、自動記帳をコア機能とし、自動的に金額とカテゴリーを識別し、音声入力をサポートし、記帳を簡単かつ便利にする。Kapi Bookkeepingは、請求データをインテリジェントに分析し、パーソナライズされた消費サマリーや財務アドバイスを定期的にプッシュすることで、ユーザーをより...
2ヶ月前
02K
Gemini CLI - 谷歌开源的编程Agent

Gemini CLI - Googleオープンソースプログラミングエージェント

Gemini CLIは、強力なAI機能を開発者に提供するために、開発者のエンドポイントにGemini Big Modelを組み込むことに基づいたGoogleのオープンソースAIプログラミングツールである。このツールは、コードを理解し、ファイルを操作し、コマンドを実行し、問題を動的にトラブルシュートし、開発者が効率的にジェネレーションを書けるように支援する。
2ヶ月前
01.5K
AnimaTensor - 吐司AI等机构推出的二次元图像生成模型

AnimaTensor - Toast AI などによる二次画像生成モデル

AnimaTensorは、CagliostroLabチームがTensorArtと共同で開発した2次画像生成モデルで、画像生成プロセスの「速度」を予測することでノイズスケジューリングを最適化する革新的なV-予測技術に基づいています。
2ヶ月前
01.5K