AIシェアリングサークル

AIは世界を変えようとしている!
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング(SFT...
4週間前
09.3K
ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - Baiduオープンソース推論思考モデル

ERNIE-4.5-21B-A3B-Thinkingは、推論タスクに特化したBaiduのオープンソース大規模言語モデルです。Mixed Expert (MoE) アーキテクチャを採用し、総参照数は210億、各トークンは30億のパラメータを起動し、128K長のコンテキストウィンドウをサポートします。
4週間前
09.3K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...
4週間前
09.9K
ZipVoice - 小米开源的语音合成系列模型

ZipVoice - シャオミのオープンソース音声合成モデル群

ZipVoiceはXiaomiがリリースしたFlow Matchingアーキテクチャに基づく一連の音声合成(TTS)モデルで、ZipVoice(ゼロサンプル単一話者音声合成モデル)とZipVoice-Dialog(ゼロサンプル対話音声合成モデル)がある。
4週間前
011.1K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 百度の次世代テキスト認識用オープンソースAIモデル

PP-OCRv5は、百度がリリースした最新世代のテキスト認識AIモデルである。軽量設計とわずか0.07Bの参照数で、CPUやエッジデバイスでの効率的な動作に適しており、1秒間に370文字以上を処理できる。このモデルは、簡体字中国語、繁体字中国語、英語、日本語、ピンインをサポートしている。
4週間前
014.1K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
4週間前
010K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
4週間前
09K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - B局オープンソースのフリーTTSモデル。

IndexTTS2は、Bステーション音声チームによってオープンソース化された新しいフリー音声合成(TTS)モデルで、感情表現と継続時間制御の大きなブレークスルーを達成し、正確な継続時間制御をサポートする初の自己回帰型TTSモデルです。ゼロサンプルの音声クローニングをサポートし、1つの音声ファイルだけで正確に音声をコピーできます。
4週間前
023.9K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清華大学United Bytesオープンソース・マルチモーダルビデオ生成フレームワーク

HuMoは、清華大学とByteDance Intelligent Creation Labが共同でオープンソース化したマルチモーダル映像生成フレームワークで、人間中心の映像生成に焦点を当てている。HuMoは、テキスト、画像、音声などのマルチモーダル入力から、高品質かつきめ細かく制御可能な人物映像を生成することができる。
4週間前
016.5K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
1ヶ月前
012.9K