AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー
全26記事

Tags: マルチモーダル リアルタイム インタラクティブ製品

Stepsailor:在现有SaaS产品中集成AI命令栏-首席AI分享圈

Stepsailor:既存のSaaS製品にAIコマンドバーを統合

Stepsailorは、AIコマンドバーを核とした開発者向けのツールである。開発者はこれを使うことで、例えばユーザーが「新しいタスクを追加する」と言うと、ソフトウェアが自動的にそのタスクを実行するなど、ユーザーの発言をソフトウェア製品に理解させることができる。シンプルなSDKを通じてSaaS製品に統合され、...

OpenAvatarChat:模块化设计的数字人对话工具-首席AI分享圈

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムのビデオ、音声認識、デジタルヒューマン技術を組み合わせています...

VideoMind:视频按时间戳定位内容与问答的开源项目-首席AI分享圈

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは、タスクをプランニング、...

MoshiVis:实时语音对话和图像理解的开源模型-首席AI分享圈

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースに、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(400Mパラメータ)を追加しています。

Qwen2.5-Omni:多模态输入和实时语音交互的端测模型-首席AI分享圈

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストまたは自然な音声応答を生成することができます。このモデルは2025年3月26日にリリースされ、コードとモデルファイルのtor...

xiaozhi-esp32-server:小智AI聊天机器人开源后端服务-首席AI分享圈

xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス

概要 xiaozhi-esp32-serverはXiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいているため、ESP32デバイスを制御するサーバーを素早く構築することができる。このプロジェクトは、ESP32デバイスを購入した人に適しています。

Baichuan-Audio:支持实时语音交互的端到端音频模型-首席AI分享圈

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-Audioは、Baichuan Intelligence(baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、音声入力を個別の音声トークンに変換することができる完全な音声処理フレームワークを提供します。

PowerAgents:定时执行网页任务的AI智能体平台-首席AI分享圈

PowerAgents:時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム

PowerAgents は、ウェブ自動化タスクに特化した AI インテリジェンス・プラットフォームであり、データのクリック、入力、抽出が可能な AI インテリジェンスを作成、導入することができる。このプラットフォームは、1時間、1日、1週間単位で自動的に実行されるタスクの設定をサポートし、ユーザーはリアルタイムでインテリジェンスの作業を見ることもできます...

Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能-首席AI分享圈

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークです。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)をサポートし、...

Gemini Cursor:基于Gemini构建的AI桌面智能助手,能看、能听、能说-首席AI分享圈

Gemini Cursor:見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント

概論 Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースにしたデスクトップ知的アシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成されました。

DeepSeek-VL2:高级多模态理解的专家级视觉语言模型-首席AI分享圈

DeepSeek-VL2:高度なマルチモーダル理解のためのエキスパート視覚言語モデル

包括的な紹介 DeepSeek-VL2は、その前身であるDeepSeek-VLの性能を大幅に向上させた、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズです。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。

AI Web Operator:浏览器自动化操作,OpenAI Operator的开源实现-首席AI分享圈

AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装

概要 AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するように設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、...のような様々な大規模言語モデル(LLM)をサポートしています。

SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型-首席AI分享圈

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT 2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previewはOpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データで学習され...

OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)-首席AI分享圈

OpenAI Realtime Agents: マルチインテリジェントなボディスピーチインタラクションアプリケーション(OpenAIの例)

概論 OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます...

百聆 (Bailing):低延时的开源语音对话助手,轻松实现自然对话交流-首席AI分享圈

Bailing:自然な会話とコミュニケーションのための低遅延オープンソース音声対話アシスタント

総合紹介 ベーリング(Bailing)は、音声を通じてユーザーと自然な会話をするために設計されたオープンソースの音声対話アシスタントです。このプロジェクトは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデリング(LLM)、音声合成(TTS)技術を組み合わせて、GPT-4oのような音声...

Weebo: 自然言語での対話体験を提供するリアルタイム音声チャットボット

はじめに Weeboは、音声認識にWhisper Small、自然言語生成にLlama 3.2、音声合成にKokoro-82Mを利用したオープンソースのリアルタイム音声チャットボットである。このプロジェクトは、Amanvir Parhar氏によって開発されました。

OmAgent:构建多模态智能设备的智能体框架-首席AI分享圈

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。このプロジェクトにより、開発者は最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、様々なスマートデバイス上で効率的でリアルタイムのインタラクティブ体験を作成することができます...

「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築

包括的な紹介 Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを作成する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な...

BrownChat:开源实时语音聊天的AI助手-首席AI分享圈

BrownChat:オープンソースのリアルタイム音声チャットAIアシスタント

BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforever氏によって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。BrownChatはオープンソースのプラットフォームを提供し、ユーザー...

ja日本語