マルチモーダルなリアルタイム・インタラクティブ製品

全27記事
Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースとしたデスクトップ知的アシスタントである。Gemini Cursorは、マルチモーダルAPIを通じて、視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延な利用を提供します。
6ヶ月前
04.4K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AIチャットボット:AIチャットコンパニオンを構築、簡単な音声対話とインテリジェントな対話

包括的な紹介 Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人がAIハードウェア開発を始め、大規模な言語モデルを実...
5ヶ月前
03.9K
xiaozhi-esp32-server:小智AI聊天机器人开源后端服务

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

一般的な紹介 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルをベースにしています。
5ヶ月前
03.8K
Weebo:实时语音聊天机器人,提供自然语言对话体验

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットです。このプロジェクトはAman...によって開発されました。
7ヶ月前
03.8K

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

総合紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合することで、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。
7ヶ月前
03.8K
百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

包括的な紹介 ベイリング(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)および音声合成(TTS)技術を組み合わせて...
7ヶ月前
03.7K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)高レベルのインテリジェントボディモデルを提供し、...
7ヶ月前
03.6K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: リアルタイム視覚・音声インタラクションのためのオープンソース・マルチモーダル大規模言語モデル

概論 VITAは、オープンソースの対話型マルチモーダル大規模言語モデリング・プロジェクトのリーダーであり、真の完全なマルチモーダル対話を実現する能力を開拓している。プロジェクトは2024年8月にVITA-1.0を立ち上げ、初のオープンソース対話型フルモーダル大規模言語モデルを開拓した。
7ヶ月前
03.5K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、テキスト...
6ヶ月前
03.5K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

フィッシュ・エージェント:エンド・ツー・エンドのAIボイス・クローン・アシスタント、リアルタイム音声対話アシスタント、フィッシュ・スピーチ・スピンオフ・プロジェクト

包括的な紹介 フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAIスピーチ・クローン・システムです。完全なエンド・ツー・エンドの音声クローン処理システムとして、その最大の特徴は、革新的なスピーチレス...
7ヶ月前
03.4K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter:Geminiマルチモーダルモデルに基づく中英翻訳用リアルタイム音声変換ツール

TransRouterは、GoogleのGeminiモデルをベースにしたリアルタイム音声翻訳ツールで、特に英語と中国語のリアルタイム音声翻訳用に設計されている。このツールは、Zoomのようなビデオ会議ソフトウェアにシームレスに統合され、クロスランゲージのための強力なツールを提供します...
7ヶ月前
03.2K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブな「聞き取り」機能で拡張することを目的としています。このプロジェクトでは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。
7ヶ月前
03.2K
Baichuan-Audio:支持实时语音交互的端到端音频模型

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...
5ヶ月前
03.1K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
5ヶ月前
03.1K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語、中国語、英語、日本語)をサポートしています。
6ヶ月前
03K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...
6ヶ月前
03K
OmAgent:构建多模态智能设备的智能体框架

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。
7ヶ月前
03K
AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザ・オペレーター・ツールです。このツールは、BrowserbaseとVercel...をベースにしています。
6ヶ月前
02.9K
OpenAI Realtime API Next.js:构建实时语音对话AI应用的Next.js模板

OpenAI Realtime API Next.js: リアルタイムの音声対話AIアプリケーションを構築するためのNext.jsテンプレート

概要 OpenAI Realtime API Next.jsは、Next.jsフレームワークをベースとしたオープンソースプロジェクトで、開発者がリアルタイム音声AIアプリケーションを素早く構築できるように設計されています。このプロジェクトは、OpenAIのリアルタイムAPIとWebRTC技術を統合しています。
7ヶ月前
02.8K
Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

Megrez-3B-Omni:テキスト、画像、音声のマルチモーダル理解と解析をサポートするエンドサイド・マルチモーダル理解モデル

総合紹介 Infini-Megrezは、ハードウェアとソフトウェアの共同設計により、効率的なマルチモーダル理解と解析の実現を目指し、不問の中核ドーム(Infinigence AI)が開発したエッジ・インテリジェンス・ソリューションである。プロジェクトの中核となるのは、グラフをサポートするMegrez-3Bモデルである。
7ヶ月前
02.8K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。
2ヶ月前
02.7K
OpenAvatarChat:模块化设计的数字人对话工具

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタル人間対話ツールで、1台のPCで動作させることができます...
4ヶ月前
02.6K
BrownChat:开源实时语音聊天的AI助手

BrownChat:オープンソースのリアルタイム音声チャットAIアシスタント

概要 BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforeverによって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。
7ヶ月前
02.5K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: AIとの低遅延自然音声対話

はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。
3ヶ月前
02.4K
PowerAgents:定时执行网页任务的AI智能体平台

PowerAgents:時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム

PowerAgents は、ウェブ自動化タスクに特化した AI インテリジェンス・プラットフォームであり、データのクリック、入力、抽出が可能な AI インテリジェンスを作成、導入することができます。このプラットフォームは、1時間、1日、1週間単位で自動的に実行されるタスクの設定をサポートし、ユーザーはリアルタイムで...
5ヶ月前
02.4K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
5ヶ月前
02.3K
Stepsailor:在现有SaaS产品中集成AI命令栏

Stepsailor:既存のSaaS製品にAIコマンドバーを統合

Stepsailorは、AIコマンドバーを核とした開発者向けツールである。開発者はこれを使用することで、「新しいタスクを追加する」といったユーザーの発言をソフトウェア製品に理解させることができ、ソフトウェアはそれを自動的に実行する。シンプルなSDKを経由して...
4ヶ月前
02K