最新のAIリソース

共 2922 篇文章
GLM-4.6V - 智谱AI开源的多模态大语言模型系列

GLM-4.6V - Wisdom Spectrum AI オープンソース多言語ラージ言語モデルシリーズ

GLM-4.6Vは、Smart Spectrum AIによってオープンソース化されたマルチモーダル大規模言語モデルのシリーズです。 このシリーズには2つのバージョンがあります:GLM-4.6V (106B-A12B)は、クラウドおよび高性能クラスタシナリオ用の基本バージョンで、Mixed Expert (MoE)アーキテクチャ、合計約1060億参照、および活性化...
1ヶ月前
014.9K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - Dark Side of Moonの最新モデル!

Kimi K2-0905は、Dark Side of the Moon Technologies Ltd.の先進的なAIモデルであり、プログラミング支援に優れ、効率的にコードを生成し、フロントエンド開発において整然とした標準化されたコードの生成をサポートします。モデルのコンテキスト長は256Kまで拡張され、複雑なタスクにも対応します。
4ヶ月前
061.2K
Nano Banana - 谷歌推出的AI图像编辑模型

ナノ・バナナ - GoogleのAI画像編集モデル

ナノ・バナナは、ジェミニ2.5フラッシュイメージのコードネームです。ジェミニは、Googleが提供するAI画像生成・編集モデルで、シンプルなテキストプロンプトに基づいて詳細で写実的な画像を生成し、既存の画像に高品質な修正を加えます。
5ヶ月前
058.5K
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - オープンソースの効率的なマルチモーダルモデリング by KunlunWanwei

Skywork UniPic 2.0は、Quintessenceによってオープンソース化された効率的なマルチモーダルモデルであり、画像生成、編集、理解に焦点を当てている。このモデルは、2BパラメータのSD3.5-Mediumアーキテクチャに基づいており、事前学習、漸進的なデュアルタスク強化戦略、共同学習によって実現される。
5ヶ月前
035.4K
MiniMax Speech 2.5 - MiniMax推出的语音生成模型

MiniMax Speech 2.5 - MiniMaxの音声生成モデル

MiniMax Speech 2.5は、MiniMaxチームによって開発された高度な音声生成モデルです。音声合成の分野において、特に多言語の表現力、音色の再現精度、言語カバー率の点で大きな進歩を遂げています。このモデルは40の言語をサポートしています。
5ヶ月前
038.1K
Qwen-Image - 通义千问推出开源的文生图基础模型

Qwen-Image - Tongyi Qianqian、Qwen-Imageのオープンソース基本モデルを発表

Qwen-Imageは、Alibaba Tongyi Qianqianチームによってリリースされたオープンソースの画像生成ベースモデルです。200億のパラメータを持ち、マルチモーダル理解、高解像度コーディング、拡散モデリングの3つのモジュールを組み込んだマルチモーダル拡散変換アーキテクチャ(MMDiT)を採用しています。
5ヶ月前
035.3K
RedOne - 小红书最新推出的社交大模型

RedOne - リトルレッドブックの最新ソーシャルメガモデル

RedOneは、Little Red Bookによって導入されたソーシャルネットワーク用に調整された大規模言語モデルである。RedOneは、社会的・文化的知識を取り入れ、マルチタスク能力を強化し、人間の嗜好を調整する3段階の学習戦略によって学習される。RedOneは、社会的タスクのパフォーマンス、有害コンテンツの検出とブラウジングにおいて、基本モデルを大幅に上回る。
5ヶ月前
035.2K
TRAE SOLO - 字节跳动TRAE推出的AI自动开发助手

TRAE SOLO - Wordhop TRAEのAI自動開発アシスタント

TRAE SOLOは、ByteDance社が立ち上げたAIプログラミングアシスタントTRAEが、AI技術でソフトウェア開発プロセスを簡素化するために導入したAI自動開発アシスタントです。TRAE SOLOは、ユーザーのニーズを理解し、要件を入力するためのテキスト記述、音声コマンド、ファイルアップロードをサポートし、自動的に計画を立てます。
6ヶ月前
055.9K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: オープンソースのリアルタイム・インタラクティブ・デジタル・ヒューマン・ライブ・システム。

包括的な紹介 LiveTalkingは、オープンソースのリアルタイムインタラクティブデジタルヒューマンシステムであり、高品質のデジタルヒューマンライブソリューションの構築に取り組んでいます。このプロジェクトは、Apache 2.0オープンソースプロトコルを使用し、ER-NeRFレンダリング、リアルタイムオーディオおよびビデオストリーミング処理を含む多くの最先端技術と統合されています。
1年前
094.8K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソース テキスト生成3Dモーションモデル

Hybrid Motion1.0(HY-Motion1.0)は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。
2週間前
017.8K
Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型

Yume1.5 - 上海AIラボと復旦大学がオープンソース化したインタラクティブ世界生成モデル

Yume 1.5は、復旦大学上海人工知能研究所と上海創新研究院が共同開発したオープンソースのインタラクティブ世界生成モデルで、リアルタイムのインタラクティブレンダリング(シングルカードで12FPS)が可能です。時空間結合チャネルモデリング(TSCM)技術を採用しており、コンテキストの長さが長くなっても...
2週間前
012.3K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...
2週間前
013.8K
PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架

ペルソナライブ - マカオ大学をはじめとするオープンソースのリアルタイムAI似顔絵アニメーション生成ライブフレームワーク

PersonaLiveは、マカオ大学、dzine.ai、グレーターベイエリア大学GVCラボが共同開発したオープンソースのリアルタイムAI顔交換ライブストリーミングフレームワークである。一般的なコンシューマーグレードのグラフィックカード(12GBのビデオメモリ)で、低レイテンシー、高フレームレートのデジタルパーソンドライブを実現し、カメラを通してリアルタイムをサポートする。
2週間前
012.8K
Computer Use Preview - Google开源的AI浏览器自动化工具

コンピュータ利用プレビュー - GoogleのオープンソースAIブラウザ自動化ツール

コンピュータの使用プレビューは、Webページの対話を達成するために自然言語コマンドを介して、ジェミニモデルに基づいて、GoogleのオープンソースのAIブラウザ自動化ツールです。視覚認識プロセスの「スクリーンショット→分析→実行」を使用し、Playwrighをサポートします。
2週間前
014.5K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポート

ClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。
2週間前
016K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能:クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...
2週間前
019.5K
InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术

InstanceAssemble - リトルレッドブックと復旦大学のオープンソースレイアウト制御生成技術

InstanceAssembleは、Xiaohongshuと復旦大学が共同でオープンソース化したレイアウト制御生成技術で、「Instance Assemble Attention」のメカニズムにより、単純なレイアウトから複雑なレイアウトまで、また疎なレイアウトから密なレイアウトまで、正確な画像生成を実現します。2段階のカスケードアーキテクチャを採用し、最初に画像の背景に入り、次に1つずつ...
2週間前
07.9K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。
2週間前
013.5K
QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型

QwenLong-L1.5 - Ali Tongyi Lab オープンソース長文推論モデル

QwenLong-L1.5は、Alibaba Tongyi Labによるオープンソースのロングテキスト推論モデルであり、超ロングコンテキスト(例えば1M-4Mトークン)の複雑な推論問題の解決に焦点を当てている。核となるブレークスルーは、学習後の段階における3つの大きな革新にある。知識グラフ、SQL構文解析、マルチインテリジェンスによる...
3週間前
012.7K
Infographic - 阿里AntV团队开源的信息图生成框架

インフォグラフィック - Ali AntV team オープンソース・インフォグラフィック生成フレームワーク

インフォグラフィックは、Ali AntVチームの新世代のオープンソースフレームワークで、G2とAnt Designの開発に基づいており、高品質のインフォグラフィックの迅速な生成に焦点を当て、30以上のレイアウトテンプレート、120以上のプリセットテーマとAIインテリジェント生成機能を提供します。
3週間前
012.6K
opcode - 专为Claude Code设计的开源图形化桌面应用

opcode - クロードコード用に設計されたオープンソースのグラフィカルデスクトップアプリケーション

opcodeはクロードコードオープンソースのグラフィカルなデスクトップアプリケーションのために設計されています , Tauri 2 + React 18 + Rustの開発に基づいて開発者winfunc .クロードコードのプロジェクトを管理するための視覚的なインターフェイスを提供します。
3週間前
013.2K
TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架

TurboDiffusion - Raw Digital Technology、Tsinghua、その他のオープンソースのビデオ生成アクセラレーションフレームワーク

TurboDiffusionは、清華大学、BioDigital Technology、UC Berkeleyが共同でオープンソース化したビデオ生成アクセラレーション・フレームワークで、ほぼロスレスな画質を維持しながら、ビデオ生成速度を100~200倍向上させることができる。スパース線形注意、サンプルステップ蒸留、8ビット...
3週間前
015.7K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。
3週間前
012K
Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型

Fun-Audio-Chat-8B - Ali Tongyiによるオープンソースのエンドツーエンド音声対話マクロモデル

Fun-Audio-Chat-8Bは、Ali Tongyiチームによるオープンソースの80億パラメータエンドツーエンドスピーチビッグモデルで、ASR+LLM+TTSスプライシングを必要としない直接音声インスピーチアウト、流暢な中国語と英語のバイリンガル、低遅延で自然な音色です。25Hzのデュアル解像度共有LLMを使用...
3週間前
012.2K
GLM-4.7 - 智谱AI开源的最新一代旗舰大模型

GLM-4.7 - ウィズダムスペクトラムAIオープンソースの最新世代フラッグシップ大型モデル

GLM-4.7は、Smart Spectrum AIによってリリースされ、オープンソース化されたフラッグシップ・グランドモデルの最新世代で、AIプログラミング、複雑な推論、知的身体タスクのために深く最適化されています。このモデルは、200kのコンテキスト長と128kの最大出力をサポートし、多言語コーディング、長距離タスク計画、ツールコラボレーション機能を備えています。
3週間前
021K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ(ジョイスティック操作のアノテーションを含む)を分析することで実現されています...
3週間前
017.5K
Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型

Qwen-Image-Layered - AI画像編集モデルをAliチームがオープンソース化

Qwen-Image-Layeredは、AliチームによるオープンソースのAI画像編集モデルで、通常の画像を独立した透明なレイヤーにインテリジェントに分解し、Photoshopのような精密な編集を実現する。このモデルはApache 2.0プロトコルを使用してオープンソース化されており、レイヤーの柔軟な制御をサポートしています。
3週間前
019.6K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP(Visual Tokenizer Pre-training)とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー(トークナイザー)の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...
3週間前
014.6K
T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型

T5Gemma 2 - グーグルのオープンソース次世代エンコーダー・デコーダーモデル

T5Gemma 2は、Googleがオープンソース化した新世代のエンコーダー・デコーダーモデルで、Gemma 3アーキテクチャをベースに、マルチモーダルおよびロングコンテキストの処理機能をアップグレードしたものである。テキストや画像を含む幅広いデータタイプをサポートし、非常に長いコンテキスト(最大128K)を処理することができる。
3週間前
015.1K
FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型

FunctionGemma - 関数呼び出しに最適化されたGoogleオープンソースの軽量AIモデル

FunctionGemmaは、Googleからの関数呼び出しに最適化された軽量AIモデルであり、2億7000万パラメータを持つGemma 3の基本モデルをベースに開発され、携帯電話やブラウザ、その他のデバイス上で自然言語をリアルタイムに実行可能なAPI命令に変換する。核となる機能は、ローカルのオフ...
3週間前
013.5K
TRELLIS.2 - 微软开源的大型3D生成模型

TRELLIS.2 - マイクロソフトのオープンソース大規模3D生成モデル

TRELLIS.2は、40億のパラメータを持つマイクロソフトのオープンソース大規模3Dジェネレーティブモデルです。革新的な "O-Voxel "スパースボクセル構造を使用して、複雑なトポロジーとシャープな特徴を効率的に処理し、完全なPBRマテリアルで高品質な3D情報を生成することができます。
3週間前
017.3K
A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议

A2UI - エージェント駆動型ユーザー・インタラクション・インターフェースのためのGoogleのオープンソース宣言型プロトコル

A2UI(Agent-to-User Interface)は、Googleがオープンソースで提供するエージェント駆動型インターフェース・プロトコルであり、AIエージェント向けに複雑な対話型インターフェースを生成する際の課題に対処する。AIエージェントがユーザーインターフェースの構造を記述できるようにする宣言的なJSONフォーマットを通じて、クライアントアプリケーションは、AIエージェントがユーザーインターフェースの構造を記述できるようにします。
4週間前
022.7K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
4週間前
013.7K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
4週間前
013K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。
4週間前
017.1K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。
4週間前
013.4K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。
4週間前
012.1K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学のオープンソース学術論文をスライドに変換するAIツール

Paper2Slidesは、香港大学のData Intelligence LaboratoryによるオープンソースのAIツールで、学術論文をワンクリックでプロフェッショナルなスライドやポスターに変換する。RAG (Retrieval Augmented Generation)技術を使用し、ネットワーク情報に依存するのではなく、ドキュメントの内容を直接解析することで、生成されるPPTが元のPPTと高い整合性を持つようにします。
4週間前
012.6K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AIのオープンソース・リアルタイム・ストリーミング映像生成システム

RealVideoは、Smart Spectrum AIが提供するオープンソースのリアルタイム・ストリーミング・ビデオ生成システムで、2~3秒で自然で滑らかなビデオ応答を素早く生成することができる。ユーザーは写真をアップロードしてテキストを入力するだけで、対応する音声と動画を生成し、AIキャラクターとのリアルタイム対話を可能にする。
4週間前
011.1K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。
4週間前
012.4K
Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆

Claude-Mem - クロスセッション永続メモリをサポートするオープンソースクロードコードメモリプラグイン

Claude-MemはClaude Codeのオープンソースプラグインであり、セッション間のAIによる記憶喪失の問題に対処する。ツールによるオブザベーションの使用を自動的にキャプチャし、セマンティックサマリーを生成し、後続のセッションで関連するコンテキストを注入することで、Claudeを支援します...
1ヶ月前
019.7K
KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台

KoalaQA - Q&Aプラットフォームの迅速な構築を支援するオープンソースのAIアフターサービスシステム

KoalaQAはChaitinチームによって開発されたオープンソースのインテリジェントなアフターサービスシステムです。AIモデルに基づいて、AIカスタマーサービス、AI検索、ナレッジベース管理機能を提供し、企業がインテリジェントQ&Aプラットフォームを迅速に構築できるよう支援します。このシステムは、24時間365日のリアルタイム応答をサポートしています。
1ヶ月前
012.8K
VoxCPM 1.5 - 面壁智能开源的端到端文本到语音模型

VoxCPM 1.5 - Faceted Intelligenceオープンソースエンドツーエンド音声合成モデリング

VoxCPM 1.5は、Facade Intelligence社がリリースしたオープンソースの音声生成モデルで、スプリッターを必要としないテキスト音声合成(TTS)技術をベースに、いくつかの革新的な改良が加えられています。エンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声波形を生成することで、従来のセグメンテーション手法の制限を回避...
1ヶ月前
017.1K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント

Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。
1ヶ月前
011.8K
GLM-TTS - 智谱AI推出的开源工业级语音合成系统

GLM-TTS - Smart Spectrum AIによるオープンソース産業グレード音声合成システム

GLM-TTSは、強力な音声合成機能を持つオープンソースの産業用音声合成システムです。GLM-TTSは2段階の生成アーキテクチャを採用しており、第1段階ではテキストを音声トークン列に変換し、第2段階ではトークン列を高品質な音声に変換します。このシステムは、3秒間の音声サンプルのみをサポートし、音声を完成させます。
1ヶ月前
014.6K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル

OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。
1ヶ月前
019.6K
SurfSense - 开源的AI研究与知识管理工具,NotebookLM最强平替

SurfSense - オープンソースのAI研究・知識管理ツール、NotebookLMの最強ピント

SurfSenseはオープンソースのAIリサーチ・ナレッジマネジメントツールです。高度なカスタマイズが可能で、検索エンジン、Slack、Jira、Notion、YouTube、GitHub、その他多くの外部データソースに接続し、情報の統合を促進することができる。ユーザーは様々なデータをアップロードできる。
1ヶ月前
014.8K
LongCat-Image - 美团LongCat团队开源的图像生成与编辑模型

LongCat-Image - LongCat チーム、アメリカングループのオープンソース画像生成・編集モデル

LongCat-Imageは、MeituanのLongCatチームによってリリースされたオープンソースの画像生成・編集モデルです。ハイブリッドバックボーンアーキテクチャ(MM-DiT+Single-DiT)と視覚言語モデル(VLM)条件付きエンコーダを組み合わせることで、テキスト生成画像と複数ラウンドの画像編集を実現している。
1ヶ月前
012K
VibeVoice-Realtime - 微软开源的轻量级实时文本转语音模型

VibeVoice-Realtime - マイクロソフトのオープンソース軽量リアルタイム音声合成モデル

VibeVoice-Realtimeは、低遅延とリアルタイムインタラクションのために設計されたマイクロソフトのオープンソースの軽量リアルタイム音声合成(TTS)モデルです。ストリーミングテキスト入力をサポートし、最初のテキストトークンから音声入力することができます。
1ヶ月前
014.7K
Flowra - 魔搭联合呜哩WULI团队开源的AI工作流开发工具

Flowra - Magic HitchとWooli WULIチームがオープンソース化したAIワークフロー開発ツール

Flowraは、ModelScope共同ウーマイルWULIチームのオープンソースグラフ実行エンジンとノードパッケージ開発ツールであり、FlowBenchのコアコンポーネントです。有向非循環グラフ(DAG)組織ワークフローを通じ、インテリジェントなキャッシュ、並列スケジューリング、分散サポート...
1ヶ月前
015.1K
RoboCOIN - 智源联合多所高校开源的双臂机器人真机数据集

RoboCOIN - Wisdom Sourceが複数の大学と共同でオープンソース化した双腕ロボットの実ロボットデータセット

RoboCOINは、北京紫源人工知能研究院が多くの企業や大学と共同でオープンソース化した世界初の大規模双腕ロボット実機データセットで、15種類のロボットプラットフォーム、18万件の実動作軌跡、421種類のタスクシナリオが含まれている。最大の特徴は、階層的アノテーションシステムを採用し、タスクを分解...
1ヶ月前
012.3K
TalkCody - 免费开源的AI编程桌面助手,支持复杂任务

TalkCody - 複雑なタスクをサポートするフリーでオープンソースのAIプログラミングデスクトップアシスタント

TalkCodyはフリーでオープンソースのAIプログラミングアシスタントデスクトップアプリケーションで、Rust + Tauri 2で構築され、Windows、macOS、Linuxの3つのプラットフォームをサポートし、ネイティブパフォーマンス、高速起動、低リソース使用の利点を備えています。50以上のメインストリームA...
1ヶ月前
019K
MemMachine - MemVerge推出的开源AI记忆系统

MemMachine - MemVergeによるオープンソースAIメモリシステム

MemMachineは、MemVerge社によって開発されたオープンソースのAIメモリシステムで、AIモデルや知能のために設計され、人間の脳のように相互作用データを保存して呼び出すことができ、AIの「無状態記憶喪失」の問題を解決する。レイヤー構造(短期記憶、長期記憶、ユーザー画像...)を採用している。
1ヶ月前
019.1K
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes オープンソース単体3D生成モデル

PartCrafterは、北京大学、ByteDance、カーネギーメロン大学が共同で提案した先進的な3D生成モデルです。単一のRGB画像から、複数の意味的に明示的で幾何学的に多様な3Dメッシュパーツを一度に生成することができる。このモデルは、組み合わせ可能なポテンシャル空間を通してモデル化され...
1ヶ月前
014.7K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - GigaVision オープンソース世界モデリングフレームワーク

GigaWorld-0は、国内のEmbodied IntelligenceスタートアップGigaAIのオープンソース世界モデルフレームワークであり、主にEmbodied Intelligence (Embodied AI)分野のデータボトルネック問題を解決するために使用される。高品質で多様かつ物理的にリアルな学習データを効率的に生成し、プッシュ...
1ヶ月前
014.4K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - ByteHopのオープンソース・マルチモーダルビデオ理解と大規模モデルの生成

Vidi2は、ByteDanceによってオープンソース化された第2世代のマルチモーダルビデオ理解・生成ビッグモデルであり、ビデオコンテンツの理解、分析、作成に焦点を当てている。テキスト、ビデオ、オーディオモダリティの共同入力をサポートし、画像コンテンツ、音声情報、自然言語コマンドを同時に理解することで、クロスモーダルなインタラクションを実現し、...
1ヶ月前
015.2K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Ali AIDC-AIチームによるオープンソース・ベンチャーグラフモデル

Ovis-Imageは、Alibaba International Digital Commerce GroupのAIDC-AIチームによってオープンソース化された70億パラメータのテキスト生成グラフモデルで、高品質のテキストレンダリングに焦点を当てています。Ovis-U1アーキテクチャに基づき、高度なビジュアルデコーダーと双方向トークン精製機能を継承しています。
1ヶ月前
014.7K