VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング
VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント
Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。
GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム
GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。
Devstral 2 - ミストラルAIの次世代プログラミング・モデル・ファミリー
Devstral 2は、Mistral AIが提供するソフトウェア・エンジニアリング・タスクのために設計された新世代プログラミング・モデル・ファミリーで、Devstral 2(123Bパラメータ)とDevstral Small 2(24Bパラメータ)から構成されている。
GLM-ASR - Wisdom Spectrum AIオープンソース高性能音声認識モデルシリーズ
GLM-ASRは、Smart Spectrum AIがオープンソース化した高性能音声認識モデル群で、クラウドベースのモデルGLM-ASR-2512とオープンソースのエンドサイドモデルGLM-ASR-Nano-2512があります。GLM-ASR-2512は、世界をリードするクラウドベースの音声認識モデルで、複数の...
OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル
OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。
SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント
SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。
GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ
GLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。 このシリーズには2つのバージョンがあります:GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...
InkSight - GoogleのオープンソースAI手書き文字認識ツール
InkSightはGoogleのオープンソースAI手書き認識ツールで、紙の手書きメモを編集可能なデジタルインクファイル(SVG形式など)に変換します。従来のOCRとは異なり、テキストコンテンツを認識し、手書きスタイル、段落構造、フォーカスマークを復元することができます。
NewBie-image-Exp0.1 - NewBieAI-Lab オープンソース実験的アニメリテラートグラフィカルモデル
NewBie-image-Exp0.1は、NewBieAI-Labチームによってオープンソース化された最初の実験的なアニメテキスト生まれのグラフィックモデルです。このモデルは、デュアルテキストエンコーダー(GEMMA3-4B...








