最新のAIリソース

共 3100 篇文章
问小白o4 - 问小白推出的并行思考模型,同时开启8条思考路径

Ask o4 - Ask o4が導入した、8つの思考経路を同時に開くパラレル思考モデル

Ask White o4は、8つの思考経路を同時に開き、問題を多角的に分析し、最適解を自動的にフィルタリングする革新的な並列思考モデルです。このモデルには、高度なLong-CoT強化学習とプロセス報酬学習技術が組み込まれており、強力な深層推論機能を持ち、複雑なタスクで優れたパフォーマンスを発揮します。
8ヶ月前
041.3K
NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型

NitroGen - NVIDIAがスタンフォード大学、カリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデル

NitroGenは、NVIDIAがスタンフォード大学やカリフォルニア工科大学などと共同で開発したオープンソースのゲームAIモデルで、1,000種類以上のゲームをプレイすることができる。このモデルはGROOT N1.5アーキテクチャをベースとしており、4万時間に及ぶゲーム映像データ(ジョイスティック操作のアノテーションを含む)を分析することで実現されています...
4ヶ月前
041K
混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。
8ヶ月前
040.6K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

深さ何でも3 - ByteHopシードオープンソース用3Dビジュアル再構築モデル

Depth Anything 3(DA3)は、Byte Jump Seedチームによって開発され、オープンソース化された3D視覚再構成モデルです。単一のトランスフォーマーアーキテクチャを通して、どのような視点でも空間的なジオメトリの再構築を実現し、深度マップとレイマップを予測するだけで3Dシーンを復元することができます。
5ヶ月前
040.4K
EverMemOS - 盛大团队推出的开源长期记忆操作系统

EverMemOS - チームシャンダによるオープンソース長期メモリオペレーティングシステム

EverMemOSは、陳天樵が率いるシャンダチームが立ち上げたオープンソースの長期記憶オペレーティングシステムであり、AI知能のために設計され、大規模言語モデルの固定コンテキストウィンドウに起因するメモリ破壊の問題を解決する。このシステムは人間の脳の記憶メカニズムに基づいており、4層アーキテクチャ(エージェント層、メモリ層、インデックス層...)を採用している。
5ヶ月前
040.4K
MiMo-V2-Flash - 小米发布的开源MoE架构大模型

MiMo-V2-Flash - シャオミが公開したオープンソースMoEアーキテクチャの大型モデル

MiMo-V2-FlashはXiaomiが発表したオープンソースのMoEアーキテクチャの大型モデルで、総パラメータは3,090億、アクティブパラメータは150億であり、効率的な推論とインテリジェントボディの応用に焦点を当てている。ハイブリッドアテンションアーキテクチャと多言語メタ予測技術を採用し、推論速度は150トークン/秒である。
4ヶ月前
040.3K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート(MoE)モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。
8ヶ月前
040.2K
SongBloom - 腾讯联合港中文、南大开源的歌曲生成模型

SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル

SongBloomは、テンセントAIラボが香港中文大学(深圳)、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...
7ヶ月前
040.2K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 同義万象のアクション生成モデル オープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。
7ヶ月前
040.1K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...
8ヶ月前
039.8K
Ming-UniAudio - 蚂蚁开源的统一音频多模态生成模型

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。
7ヶ月前
039.6K
CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM(Code World Model)は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。
7ヶ月前
039.5K
混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型

Mixed Motion 1.0 - Tencent Mixed Motion Team オープンソース テキスト生成3Dモーションモデル

Hybrid Motion1.0(HY-Motion1.0)は、テンセントハイブリッドチームオープンソースのテキスト生成3Dアクションモデルであり、10億パラメータ拡散トランスフォーマーアーキテクチャを使用して、高品質の3Dキャラクターアニメーションの自然言語記述を通じて直接生成することができます。
4ヶ月前
039.5K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー(DiT)をベースモデルとしており、IDアダプターとRef-adapte...
7ヶ月前
039.4K
Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具

Paper2Slides - 香港大学のオープンソース学術論文をスライドに変換するAIツール

Paper2Slidesは、香港大学のData Intelligence LaboratoryによるオープンソースのAIツールで、学術論文をワンクリックでプロフェッショナルなスライドやポスターに変換する。RAG (Retrieval Augmented Generation)技術を使用し、ネットワーク情報に依存するのではなく、ドキュメントの内容を直接解析することで、生成されるPPTが元のPPTと高い整合性を持つようにします。
5ヶ月前
039.4K
MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型

MAI-UI - Ali Tongyi Labs オープンソースユニバーサルGUIインテリジェントボディベースモデル

MAI-UIはAlibaba Tongyi LabsによるオープンソースのユニバーサルGUIインテリジェントボディベースモデルであり、4つの主要機能:クロスアプリケーション操作、ファジー意味理解、アクティブユーザインタラクション、マルチステッププロセス調整。エンドクラウドコラボレーションアーキテクチャを採用し、軽量モデルはデバイスに常駐して日常的なタスクを処理し、複雑なタスクはクラウドのビッグ...
4ヶ月前
038.9K
LazyCraft - 开源AI Agent应用开发与管理平台,基于LazyLLM构建

LazyCraft - LazyLLM上に構築されたオープンソースのAIエージェントアプリケーション開発・管理プラットフォーム

LazyCraftは、オープンソースフレームワークLazyLLMに基づいてShangtangによって構築されたオープンソースのAIエージェントアプリケーション開発および管理プラットフォームであり、企業と開発者にワンストップのAIアプリケーション開発ソリューションを提供します。開発者が敷居が低く、低コストで大規模なモデルアプリケーションを迅速に構築し、リリースすることを支援します。
6ヶ月前
038.8K
DreamOmni2 - 港科大开源的多模态AI图像编辑与生成模型

DreamOmni2 - HKUSTオープンソース・マルチモーダルAI画像編集・生成モデル

DreamOmni2は、HKUSTのJiajiaチームによるオープンソースのマルチモーダルAI画像編集・生成モデルである。テキストと画像のコマンドを同時に処理することができ、複数の参照画像をサポートし、クリエイターにより柔軟な創作方法を提供する。このモデルは、3段階のデータ合成プロセスを使用して学習され、共同学習生成/編集...
6ヶ月前
038.8K
UniPixel - 香港理工、腾讯、中科院等开源的像素级多模态模型

UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化

UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案した、ピクセルレベルの視覚言語理解を実現するための新しいマルチモーダルモデルである。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、ピ...
7ヶ月前
038.7K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - StepsチームによるオープンソースのエンドサイドマルチモーダルGUIエージェントモデル

GELab-Zeroは、Step Leapチームによるオープンソースのエンドサイド・マルチモーダルGUIエージェントモデルで、Qwen3-VL-4B-Instructをベースに4Bパラメータで構築されています。UI要素を認識し、クリックやスライドなどの操作を実行することができ、アプリケーション間のタスク処理をサポートしています。
5ヶ月前
038.6K
Paper2Video - 新加坡国立开源的学术论文自动生成演示视频项目

Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

Paper2Videoは、シンガポール国立大学のShow Labで行われている、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換されます。
7ヶ月前
038.6K
混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架

Mixed World Model 1.5 - Tencent Mixedオープンソースリアルタイム世界モデル生成フレームワーク

ハイブリッド世界モデル1.5(Tencent HY WorldPlay)は、Tencentがリリースした業界初のオープンソースリアルタイム世界モデルフレームワークであり、データ、トレーニング、ストリーミング推論の展開のフルチェーンをカバーする。コアとなるのはWorldPlay自己回帰拡散モデルで、Next-F...
4ヶ月前
038.6K
混元世界模型1.1 - 腾讯混元发布的开源3D重建大模型

混成世界モデル1.1 - テンセント混成世界オープンソース3D復元大型モデルリリース

WorldMirror 1.1(WorldMirror)は、TencentのWorldMirrorチームによってリリースされたオープンソースの大規模モデルの3D再構築であり、WorldMirrorシリーズのアップグレード版である。マルチビュー画像、動画、カメラ位置、内部参照、深度マップなどのマルチモーダル先験的入力をサポートしています。
6ヶ月前
038.4K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - テンセント混合元オープンソース光学式文字認識エキスパートモデル

HunyuanOCRは、Tencentハイブリッドチームによってオープンソース化された高性能な光学式文字認識モデルであり、わずか10億件の参照しかない。ハイブリッドマルチモーダルアーキテクチャに基づいて開発され、エンドツーエンドの設計を採用し、テキスト検出、認識、文書解析タスクを効率的に処理することができます。このモデルは複雑な文書のテストで94.1点を獲得し、...
5ヶ月前
038.3K
AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统

AutoMV - M-A-P オープンソース・フリー・ミュージックビデオ生成システム。

AutoMVは、M-A-Pチームが複数の大学と共同で開発したオープンソースのミュージックビデオ生成システムで、トレーニングなしで完成した楽曲をもとに首尾一貫したミュージックビデオを自動生成することができる。音楽分析、脚本作成、演出、品質管理モジュールを含むマルチインテリジェンス協調モデルを採用しており、歌詞、ビート、...
4ヶ月前
037.9K
Youtu-Embedding - 腾讯优图开源的通用文本表示模型

Youtu-Embedding - Tencent Youtuオープンソースの汎用テキスト表現モデル

Youtu-Embeddingは、TencentのYoutu Labsによるオープンソースのユニバーサルテキスト表現モデルで、エンタープライズレベルのアプリケーション向けに設計されている。テキストはディープニューラルネットワークによって高次元のベクトル空間にマッピングされ、その空間では意味的に類似した文章がより近くに配置され、正確な意味検索が実現される。
7ヶ月前
037.8K
RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所 オープンソース ゼロサンプル クロスオントロジー 一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。
7ヶ月前
037.7K
nanochat - Karpathy免费开源的低成本模型训练项目

nanochat - カルパシーによるフリーでオープンソースの低コストモデル・トレーニング・プロジェクト

nanochatは、AIのレジェンドであり元テスラAIディレクターのアンドレイ・カルパシーが公開したオープンソースプロジェクトで、個人が非常に低コストかつシンプルに、小規模なChatGPTのような言語モデルを素早く学習することを可能にする。プロジェクト全体で使用されているのは、わずか約800...
7ヶ月前
037.5K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像(グリッド、点群など)を動的な動画に変換することをサポートする。
8ヶ月前
037.3K
DeepSearchQA - 谷歌开源的AI研究Agent测试基准

DeepSearchQA - GoogleのオープンソースAI研究エージェントのテストベンチマーク

DeepSearchQAはGoogleのオープンソースAI研究エージェントテストベンチマークであり、複雑なマルチステップクエリタスクにおける知能のパフォーマンスを評価するために設計されている。17のドメインをカバーする900の手作業で設計された「因果連鎖」タスクで構成され、AIは人間の研究者のように行動し、多段階のクエリを実行する必要があります。
5ヶ月前
037.1K
Wan-Move - 阿里通义联合清华等开源的AI视频生成框架

Wan-Move - アリ・トンイのオープンソースAI動画生成フレームワーク、清華大学らと共同開発

Wan-Moveは、Ali Tongyi Labsと清華大学などが共同開発したオープンソースのAI動画生成フレームワークで、精密なモーションコントロール技術による高品質な動画合成に焦点を当てている。核心技術は「潜在的軌道誘導」で、既存の画像-動画モデルに点レベルのモーション制御をシームレスに追加することができる。
5ヶ月前
037K
Zen Browser - 基于Firefox内核的开源AI网页浏览器

Zen Browser - Firefox カーネルベースのオープンソース AI ウェブブラウザ

Zen BrowserはFirefoxカーネルをベースとしたオープンソースブラウザで、垂直タブバーやワークスペースの分離などのコア機能を備え、シンプルで効率的なブラウジング体験に焦点を当てています。サイドバーのデザインにより、50以上のタブの完全なタイトルを明確に表示でき、マルチウィンドウの画面分割ブラウジングをサポートします。
4ヶ月前
036.9K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。
7ヶ月前
036.8K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。
7ヶ月前
036.5K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied - シャオミのオープンソース・クロスドメイン具現化知能台座モデル

MiMo-Embodiedは、シャオミグループがオープンソース化した世界初のクロスエンボディベースモデルであり、エンボディドAIと自律走行の統合に成功している。エンボディドAIと自律走行間の知識移行問題を解決し、2つの領域におけるタスクの統一的なモデリングを実現する。
5ヶ月前
036.4K
SAM Audio - Meta推出的开源多模态音频分割模型

SAM Audio - オープンソースのマルチモーダル音声セグメンテーションモデル(Metaより

SAMオーディオは、複雑なオーディオミックスから任意のターゲット音を正確に分離する、Meta社のオープンソースのマルチモーダルオーディオセグメンテーションモデルです。テキスト、ビジュアル、時間次元のキューを組み合わせることで、オーディオ編集、ノイズ除去、音抽出、...といったタスクのための柔軟で効率的なオーディオ処理を可能にします。
4ヶ月前
036.2K
ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书

ClipSketch AI - オープンソースのAI動画から手描き分割画面ツール、Bステーション、小さな赤い本をサポート

ClipSketch AIは、ショートビデオクリエイターのために設計されたオープンソースの動画から手描き風分割画面への変換ツールです。B station、Xiaohongshu、その他のプラットフォームからの動画をワンクリックで手描き風のストーリーボードに変換でき、キーフレームのマーキング、サブシーンとソーシャルコピーの自動生成をサポートし、ユーザー定義のロールを統合できます。
4ヶ月前
036.1K
VTP - MiniMax海螺视频团队开源的视觉生成模型技术

VTP - MiniMaxコンク・ビデオ・チームのオープンソース視覚的生成モデリング技術

VTP(Visual Tokenizer Pre-training)とは、MiniMax Conch Videoチームが提唱するビジュアル生成モデルのキーテクノロジーで、ビジュアル・トークナイザー(トークナイザー)の事前学習方法を改善することで、生成システムのパフォーマンスを向上させるものです。従来の方法...
4ヶ月前
035.9K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - マイクロソフトのオープンソース・コンピュータ操作アシスタント・モデル

Fara-7Bは、Qwen 2.5-VL-7Bアーキテクチャに基づいた70億パラメータ規模のコンピュータ操作エージェント(CUA)モデルのマイクロソフトオープンソースリリースです。ウェブページのスクリーンショットを視覚的に解析し、画面上でクリックや入力などを実行することで、追加のアクセシビリティツリーや複数の大規模モデルに依存する必要がありません...
5ヶ月前
035.9K
OpenAutoGLM - 智谱AI开源的手机AI Agent模型

OpenAutoGLM - Smart Spectrum AIのオープンソース携帯電話AIエージェントモデル

OpenAutoGLMは、マルチモーダル知覚によって携帯電話画面の内容を理解し、ユーザーが指定したタスクを完了するための操作フローを自動的に生成することができる、「携帯電話使用」の機能を備えたオープンソースの知的身体モデルです。ユーザは、「美団を開いて近くの鍋を検索する」といった自然言語でニーズを記述するだけでよい。
5ヶ月前
035.8K
Frappe Builder - 开源的AI低代码网站构建工具,拖拽组件快速搭建

Frappe Builder - オープンソースのAIローコードウェブサイトビルダー。

Frappe Builderは、Frappeによって開発されたオープンソースのローコードウェブサイトビルダーです。中心的な機能は、ウェブサイトを素早く構築するためのドラッグ&ドロップコンポーネントをサポートするFigmaライクなビジュアルエディタを提供することです。Frappeのエコロジー(Frappeverse)の一部です。
6ヶ月前
035.7K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング(SFT...
8ヶ月前
035.7K
Glow - 开源的命令行工具,支持在终端渲染Markdown文件

Glow - ターミナルでMarkdownファイルのレンダリングをサポートするオープンソースのコマンドラインツール

GlowはターミナルでMarkdownファイルをエレガントにレンダリングするオープンソースのコマンドラインツールです。このツールはコードブロック、数式、その他の複雑な要素のハイライトをサポートし、カスタムスタイル、ページング表示、マウスサポートなどの豊富な機能を提供します。
6ヶ月前
035.5K
Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型

Kaleido - 清華大学等と共同でSmart Spectrum AIがオープンソース化した多被写体リファレンスビデオ生成モデル

Kaleidoは、合肥工業大学、清華大学、Smart Spectrum AIが共同開発したオープンソースの多被写体参照映像生成モデルである。複数の参照画像を通して被写体一貫性のある動画を生成し、多被写体一貫性と背景デカップリングにおける既存モデルの欠陥を解決します。
5ヶ月前
035.5K
RealVideo - 智谱 AI 开源的实时流式视频生成系统

RealVideo - Wisdom Spectrum AIのオープンソース・リアルタイム・ストリーミング映像生成システム

RealVideoは、Smart Spectrum AIが提供するオープンソースのリアルタイム・ストリーミング・ビデオ生成システムで、2~3秒で自然で滑らかなビデオ応答を素早く生成することができる。ユーザーは写真をアップロードしてテキストを入力するだけで、対応する音声と動画を生成し、AIキャラクターとのリアルタイム対話を可能にする。
5ヶ月前
035.4K
MedASR - 谷歌开源的医疗语音识别模型

MedASR - Googleのオープンソース医療音声認識モデル

MedASRは、Googleによってオープンソース化された1億500万パラメータの医療用音声認識モデルであり、5,000時間の減感作された臨床コーパスで微調整され、薬物、用量、解剖学用語に最適化され、6グラムの医療用言語モデルを内蔵し、民間の放射線学データセットRAD-DICTでの単語エラー率はわずか4.6である。
4ヶ月前
035.3K
VitaBench - 美团LongCat开源的交互式Agent评测基准

VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク

VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大規模なモデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行という高頻度の3つの生活シナリオをキャリアとして、パッケージを構築する...
6ヶ月前
035.3K
Mistral Vibe - Mistral AI推出的开源命令行编码助手

Mistral Vibe - Mistral AIによるオープンソースコマンドラインコーディングアシスタント

Mistral Vibeは、Devstralモデルに基づいて開発されたMistral AIによるオープンソースのコマンドラインコーディングアシスタントで、コード検索、ファイル操作、バージョン管理などのタスクを完了するための自然言語対話をサポートします。プロジェクトの構造やGitのステータスを@記号で自動的にスキャンすることができます。
5ヶ月前
035.2K
LLaVA-OneVision-1.5 - 免费开源的多模态模型,高性能多模态理解

LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデル

LLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス(言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整)を通じて...
7ヶ月前
035.1K
SmartResume - 阿里巴巴开源的AI简历解析与优化工具

SmartResume - アリババのオープンソースAI履歴書解析・最適化ツール

SmartResumeは、PDF、画像、Office文書から基本情報、学歴、職歴などの構造化された情報を効率的に抽出する、アリババのオープンソースのインテリジェントな履歴書解析・最適化ツールです。OCRテクノロジーとPDFメタデータを統合することで、履歴書や職務経歴書の基本情報や学歴、職歴などの構造化された情報を効率的に抽出します。
6ヶ月前
035.1K