中国初のAI IDE インテリジェント・プログラミング・ソフトウェア 🚀体験への招待 Trae 中国語版ダウンロードDeepSeek-R1とDoubao-proは無制限で利用できる！

全26記事

Tags: マルチモーダルリアルタイムインタラクティブ製品

Stepsailor：既存のSaaS製品にAIコマンドバーを統合

Stepsailorは、AIコマンドバーを核とした開発者向けのツールである。開発者はこれを使うことで、例えばユーザーが「新しいタスクを追加する」と言うと、ソフトウェアが自動的にそのタスクを実行するなど、ユーザーの発言をソフトウェア製品に理解させることができる。シンプルなSDKを通じてSaaS製品に統合され、...

2025-04-10AIツールプロフェッショナルな生産性ツールマルチモーダルなリアルタイム・インタラクティブ製品

OpenAvatarChat：モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムのビデオ、音声認識、デジタルヒューマン技術を組み合わせています...

2025-04-05AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

Trae中国語版ダウンロードへの最初の招待：登録後、DeepSeek-R1を無制限に使用できます！

ビルダーインテリジェントプログラミングモード、DeepSeek-R1とDeepSeek-V3の無制限の使用、海外版よりも滑らかな経験を有効にします。ただ、中国語のコマンドを入力し、プログラミングの知識はまた、独自のアプリケーションを書くためにゼロしきい値をすることはできません。

2025-04-10

VideoMind：タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは、タスクをプランニング、...

2025-04-02AIツール AIオープンソースプロジェクト AIテキストおよび音声/ビデオ要約ツール AIオーディオ・ビデオ編集マルチモーダルなリアルタイム・インタラクティブ製品

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースに、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(400Mパラメータ)を追加しています。

2025-03-28AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

Qwen2.5-Omni：マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストまたは自然な音声応答を生成することができます。このモデルは2025年3月26日にリリースされ、コードとモデルファイルのtor...

2025-03-27AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

xiaozhi-esp32-server：小智AI聊天机器人开源后端服务-首席AI分享圈

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

概要 xiaozhi-esp32-serverはXiaozhi AIチャットボット（xiaozhi-esp32）のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいているため、ESP32デバイスを制御するサーバーを素早く構築することができる。このプロジェクトは、ESP32デバイスを購入した人に適しています。

2025-03-18AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-Audioは、Baichuan Intelligence（baichuan-inc）によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、音声入力を個別の音声トークンに変換することができる完全な音声処理フレームワークを提供します。

2025-02-28AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

PowerAgents：時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム

PowerAgents は、ウェブ自動化タスクに特化した AI インテリジェンス・プラットフォームであり、データのクリック、入力、抽出が可能な AI インテリジェンスを作成、導入することができる。このプラットフォームは、1時間、1日、1週間単位で自動的に実行されるタスクの設定をサポートし、ユーザーはリアルタイムでインテリジェンスの作業を見ることもできます...

2025-02-28AIツールマルチモーダルなリアルタイム・インタラクティブ製品

Step-Audio：多模态语音交互框架，识别语音并使用克隆语音交流等功能-首席AI分享圈

Step-Audio：マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークです。このフレームワークは、多言語会話（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語）をサポートし、...

2025-02-19AIツール AIオープンソースプロジェクト AIボイス・クローンマルチモーダルなリアルタイム・インタラクティブ製品

Gemini Cursor：基于Gemini构建的AI桌面智能助手，能看、能听、能说-首席AI分享圈

Gemini Cursor：見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash（実験的）モデルをベースにしたデスクトップ知的アシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成されました。

2025-02-12AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

DeepSeek-VL2：高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE（Mixture-of-Experts）視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。

2025-02-12AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

AI Web Operator：浏览器自动化操作，OpenAI Operator的开源实现-首席AI分享圈

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するように設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、...のような様々な大規模言語モデル（LLM）をサポートしています。

2025-01-31AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

SpeechGPT 2.0-preview：实时交互的端到端拟人语音对话大模型-首席AI分享圈

SpeechGPT 2.0-プレビュー：リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT 2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previewはOpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データで学習され...

2025-01-30AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

OpenAI Realtime Agents：多智能体语音交互应用（OpenAI示例）-首席AI分享圈

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した）ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます...

2025-01-19AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

百聆 (Bailing)：低延时的开源语音对话助手，轻松实现自然对话交流-首席AI分享圈

Bailing：自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

総合紹介ベーリング（Bailing）は、音声を通じてユーザーと自然な会話をするために設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)、音声合成(TTS)技術を組み合わせて、GPT-4oのような音声...

2025-01-19AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットである。このプロジェクトは、Amanvir Parhar氏によって開発されました。

2025-01-17AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

OmAgent：マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。このプロジェクトにより、開発者は最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、様々なスマートデバイス上で効率的でリアルタイムのインタラクティブ体験を作成することができます...

2025-01-17AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品インテリジェントボディ開発フレームワーク

「常時稼働のDeepseek AIアシスタント：Deepseek-V3に基づくインテリジェントな音声対話システムの構築

包括的な紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを作成する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な...

2025-01-14AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

BrownChat：オープンソースのリアルタイム音声チャットAIアシスタント

BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforever氏によって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。BrownChatはオープンソースのプラットフォームを提供し、ユーザー...

2025-01-11AIツール AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

1
2
次ページ
全2ページ

Tags: マルチモーダルリアルタイムインタラクティブ製品

Stepsailor：既存のSaaS製品にAIコマンドバーを統合

OpenAvatarChat：モジュール設計されたデジタル人間対話ツール

Trae中国語版ダウンロードへの最初の招待：登録後、DeepSeek-R1を無制限に使用できます！

VideoMind：タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

Qwen2.5-Omni：マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

PowerAgents：時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム

Step-Audio：マルチモーダル音声インタラクションフレームワーク。

Gemini Cursor：見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

DeepSeek-VL2：高度なマルチモーダル理解のためのエキスパート視覚言語モデル

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

SpeechGPT 2.0-プレビュー：リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

Bailing：自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

OmAgent：マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

「常時稼働のDeepseek AIアシスタント：Deepseek-V3に基づくインテリジェントな音声対話システムの構築

BrownChat：オープンソースのリアルタイム音声チャットAIアシスタント

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

最近のAIホットスポット

AIツールのススメ

AIツールの分類

Tags: マルチモーダル リアルタイム インタラクティブ製品

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

最近のAIホットスポット

AIツールのススメ

AIツールの分類

Tags: マルチモーダルリアルタイムインタラクティブ製品