DeepSeek-OCR - DeepSeekオープンソース光学式文字認識モデル
DeepSeek-OCRは、DeepSeekチームによってオープンソース化された高度な光学式文字認識(OCR)モデルであり、「文脈光学圧縮」技術によってテキストを画像に変換し、圧縮と復号に視覚的トークンを使用することで、効率的な長文テキスト処理を実現する。
VitaBench - MMT LongCatオープンソースインタラクティブエージェントレビューベンチマーク
VitaBenchは、MeituanのLongCatチームによってリリースされた、複雑な生活シナリオのための初の対話型エージェント評価ベンチマークであり、実際の生活シナリオにおける大規模なモデル知能の総合的な能力を評価する。テイクアウト注文、レストランでの食事、旅行という高頻度の3つの生活シナリオをキャリアとして、パッケージを構築する...
MinerU2.5 - 上海AI研究所と北京大学のオープンソース文書解析モデル
MinerU2.5は、上海人工知能研究所と北京大学のチームによって共同開発された、高解像度の文書画像解析を効率的に処理することを主眼とした非連成視覚言語モデルである。核となる革新的な点は、「大局的なレイアウト検出と局所的な内容認識」という2段階の設計にある。
LongCat-Audio-Codec - Meituan LongCatオープンソーススピーチコーデックソリューション
LongCat-Audio-Codecは、MeituanのLongCatチームによるオープンソースの音声コーデックソリューションです。このソリューションは、Speech Large Language Model (Speech LLM)のために設計されており、意味的・音響的な二重トークン並列抽出メカニズムによって、音声の意味的・音響的特徴を考慮に入れています。
PaddleOCR-VL - 百度オープンソース超軽量視覚言語モデル
PaddleOCR-VLはBaiduのオープンソースの超軽量視覚言語モデルで、文書解析シナリオに最適化されています。動的高解像度視覚コーダーと軽量ERNIE言語モデルの融合により、高精度を維持しながら、計算オーバーヘッドを大幅に削減し、0.9Bのパラメータしか含んでいません。
UniPixel - ピクセルレベルのマルチモーダルモデル、香港理工大学、Tencent、CASなどがオープンソース化
UniPixelは、香港理工大学、テンセント、中国科学院、Vivoが共同で提案した、ピクセルレベルの視覚言語理解を実現するための新しいマルチモーダルモデルである。オブジェクト参照とセグメンテーション機能を統合することで、画像セグメンテーション、ビデオセグメンテーション、領域理解、ピ...
DiaMoE-TTS - 清華とジャイアントネットワークのオープンソース多言語音声合成フレームワーク
DiaMoE-TTSは、清華大学とGiant Networkが共同でオープンソース化した多方言音声合成フレームワークで、国際音声記号(IPA)に基づき、方言データの不足、正書法の不統一、複雑な音韻変化の問題を解決します。統一されたIPAフロントエンドの標準化された音素表現により、方言間の差異を排除し、方言の音韻の変化...
カンディンスキー5.0 - ロシアのAIチームがオープンソースの映像生成モデルシリーズを公開
Kandinsky 5.0は、ロシアのAIチームによって開発された最新のビデオジェネレーションモデルシリーズで、軽量設計と高性能に重点を置いている。シリーズ最初のモデルであるKandinsky 5.0 Video Liteは、パラメータはわずか20億だが、類似の14Bモデルを凌駕しており、特に...
SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル
SongBloomは、テンセントAIラボが香港中文大学(深圳)、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...
Pyscn - フリーのAIコード品質分析ツール、Python開発者向けオープンソース
PyscnはPython開発者向けに設計されたインテリジェントなコード品質分析ツールで、コードの潜在的な問題を検出して保守性を向上させます。制御フロー図を通してデッドコードを分析し、APTED+LSHアルゴリズムを使って重複コードを特定し、モジュールの結合やサークルの複雑さなどのメトリクスを計算します。








