MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル
MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能:クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...
MiniMax M2.1 - MiniMaxオープンソースコーディングとエージェントモデル
MiniMax M2.1は、MiniMaxのオープンソースのコーディングとエージェントモデルで、100億のアクティブ化と、Rust、Java、Golang、C++、Kotlin、Objective-C、TypeS...などの多くの主要なプログラミング言語をサポートしています。
InstanceAssemble - リトルレッドブックと復旦大学のオープンソースレイアウト制御生成技術
InstanceAssembleは、Xiaohongshuと復旦大学が共同でオープンソース化したレイアウト制御生成技術で、「Instance Assemble Attention」のメカニズムにより、単純なレイアウトから複雑なレイアウトまで、また疎なレイアウトから密なレイアウトまで、正確な画像生成を実現します。2段階のカスケードアーキテクチャを採用し、最初に画像の背景に入り、次に1つずつ...
Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ
Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。
QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデル
QwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト(例えば1M-4Mトークン)の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...
インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワーク
インフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。
opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーション
opcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。
TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク
TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100~200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...
MedASR - Googleのオープンソース医療音声認識モデル
MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。
Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル
Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...









