AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

RoboBrain-X0 - 智源研究院开源的零样本跨本体泛化具身模型

RoboBrain-X0 - ウィズダムソース研究所 オープンソース ゼロサンプル クロスオントロジー 一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。
9ヶ月前
042.6K
扩散模型(Diffusion Model)是什么,一文看懂

拡散モデル(拡散モデル)とは何か、読んで理解するための記事

拡散モデルは、画像、音声、テキストなどの新しいデータサンプルを作成するために特別に設計された生成モデルです。このモデルの中核は、物理学における拡散のプロセスにインスパイアされており、高濃度の領域から低濃度の領域への粒子の自然な拡散をシミュレートする。マシンでは...
9ヶ月前
052.2K
模型微调(Fine-tuning)是什么,一文看懂

ファインチューニングとは何か?

モデルの微調整(Fine-tuning)は、機械学習における転移学習の具体的な実装である。中核となるプロセスは事前学習モデルに基づいており、大規模なデータセットを用いて一般的なパターンを学習し、広範な特徴抽出能力を開発する。ファインチューニングの段階では、次にタスクに特化したデータセットを導入し、...
9ヶ月前
043.3K
Lynx - 字节跳动开源的高保真视频生成模型

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー(DiT)をベースモデルとしており、IDアダプターとRef-adapte...
9ヶ月前
045.1K
HunyuanImage 3.0 - 腾讯开源的免费多模态图像生成模型

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0(渾元画像3.0)は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...
9ヶ月前
056.1K
Hunyuan3D-Part - 腾讯开源的免费3D组件生成模型

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part(ハイブリッド3D-Part)は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...
9ヶ月前
059.3K
AudioFly - 科大讯飞开源的文本生成音效AI模型

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。
9ヶ月前
054.1K
FLM-Audio - 智源联合南洋理工开源的全双工音频对话模型

FLM-Audio - 全二重音声対話モデル(FLM-Audio)は、南洋理工学院(NTI)と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...
9ヶ月前
048.4K
Transformer 架构(Transformer Architecture)是什么,一文看懂

トランスフォーマー・アーキテクチャーとは?

Transformerアーキテクチャは、機械翻訳やテキスト要約のようなシーケンス間のタスクを処理するために設計された深層学習モデルである。コアとなる革新的な点は、従来のループや畳み込み構造を排除し、自己注意メカニズムのみに依存する点にある。モデルがシーケンスの全ての要素を並列に処理できるようにすることで、大規模な...
9ヶ月前
047.9K
大语言模型(Large Language Model)是什么,一文看懂

LLM(ラージ・ランゲージ・モデル)とは?

大規模言語モデル(Large Language Model:LLM)は、Transformerアーキテクチャを中核とし、膨大なテキストデータに対して学習されたディープラーニングシステムである。このアーキテクチャの自己アテンションメカニズムは、言語の長距離依存関係を効果的に捉えることができる。このモデルの「ラージ...
9ヶ月前
045.6K
长短期记忆网络(Long Short-Term Memory)是什么,一文看懂

長短期記憶(LSTM)ネットワークとは何か?

ロング・ショート・ターム・メモリー(LSTM)は、シーケンスデータを処理するために特別に設計されたリカレント・ニューラル・ネットワークの変種である。人工知能の分野では、シーケンスデータは時系列予測、自然言語処理、音声認識などのタスクで広く使用されている。
9ヶ月前
040.2K
CWM - Meta FAIR开源的代码世界语言模型

CWM - メタFAIRオープンソースコード世界言語モデル

CWM(Code World Model)は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。
9ヶ月前
044.5K
Neovate Code - 蚂蚁开源的智能编程助手

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...
9ヶ月前
047.1K
Audio2Face - NVIDIA开源的AI 3D面部动画生成模型

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。
9ヶ月前
048.9K
Qwen3-VL - 阿里云通义千问开源的多模态视觉语言大模型

Qwen3-VL - AliCloud Tongyi Qianqian オープンソース・マルチモーダル視覚言語マクロモデル

Qwen3-VLは、AliCloud Tongyi Qianqianチームによるオープンソースのマルチモーダル視覚言語ラージモデルで、2,350億の参照と約471GBのモデルファイルを持っています。命令バージョンと思考バージョンを含み、強化されたMRopeインターリーブレイアウト、DeepStackなどの技術を採用し、視覚変換を効果的に使用することができます...
9ヶ月前
064.2K
联邦学习(Federated Learning)是什么,一文看懂

フェデレーテッド・ラーニングとは何か?

Federated Learning(FL)は、2016年にグーグルの研究者チームによって初めて提案された革新的な機械学習アプローチで、データプライバシーと分散コンピューティングの課題に対処することを目的としている。
9ヶ月前
045.9K
Kronos - 清华和微软联合开源的金融K线图基础模型

クロノス - 清華とマイクロソフトが共同でオープンソースの財務Kチャートベースモデルを開発

クロノスは、清華大学とマイクロソフト・リサーチ・アジアが共同でオープンソース化した、金融市場初の基本的なK線チャートモデルです。株式、暗号通貨、その他の資産の始値、高値、安値、終値、出来高などのK線データを分析することで、将来の値動きを予測することができる。
9ヶ月前
070.5K
Wan2.2-Animate - 通义万相开源的动作生成模型

Wan2.2-Animate - 同義万象のアクション生成モデル オープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。
9ヶ月前
045.4K
Xiaomi-MiMo-Audio - 小米开源的首个原生端到端语音大模型

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。
9ヶ月前
050.4K
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。
9ヶ月前
052.7K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - 上海AIラボ オープンソース エンドツーエンド デュアルシステムナビゲーション 大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。
9ヶ月前
051.2K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。
9ヶ月前
044.1K
通义DeepResearch - 阿里通义开源的深度研究智能体

Tongyi DeepResearch - アリ・トンイ オープンソース・ディープリサーチ インテリジェンス機関

Tongyi DeepResearch(同義ディープリサーチ)は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...
9ヶ月前
051.5K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。
9ヶ月前
041.1K
浙江大学免费PDF资料《大模型基础》 - 附下载链接

浙江大学から大型モデルの基礎の無料PDF - ダウンロードリンク付き

ファンダメンタルズ・オブ・ラージ・モデルは、ラージ・ランゲージ・モデル(LLM)のコア技術と実用的な道筋を詳細に分析する。言語モデリングの基礎理論から始まり、統計的、リカレントニューラルネットワーク(RNN)、トランスフォーマーアーキテクチャに基づくモデル設計の原理を、3つの主要な大規模言語モデルに焦点を当てて体系的に解説しています。
9ヶ月前
053.7K
LLaSO - 逻辑智能推出的业界首个全面开源的语音模型

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。
9ヶ月前
038.3K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology オープンソースワールドモデルアクションアーキテクチャ

UnifoLM-WMA-0は、Yu Shu Technologyによる複数のクラスのロボットオントロジーにまたがるオープンソースのワールドモデル-アクションアーキテクチャであり、一般的なロボット学習のために設計されている。ワールドモデルとアクションアーキテクチャから構成され、ワールドモデルはロボットと環境の相互作用の物理法則を理解し、アクションアーキテクチャは特定の...
9ヶ月前
058.6K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Mission Vision AI用オープンソース音声駆動ビデオ生成ツール

InfiniteTalkは、MeiGen-AIチームによって開発された音声駆動型の動画生成ツールで、入力された音声に基づいて長さ無制限のトーキング動画を生成する。主な特長は、正確なリップシンク技術で、音声とキャラクターの口の形を完全に一致させ、自然で滑らかな動画を生成します。
9ヶ月前
069.6K
GPT-5-Codex - OpenAI推出的最强编程模型

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。
9ヶ月前
040.8K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所(SAL)が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...
9ヶ月前
049.8K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。
9ヶ月前
049.5K
MobileLLM-R1 - Meta开源的专项高效推理模型系列

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング(SFT...
9ヶ月前
041.1K
MobiAgent - 上海交大开源的移动端智能体全栈构建框架

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...
9ヶ月前
046.5K
PP-OCRv5 - 百度开源的新一代文字识别AI模型

PP-OCRv5 - 百度の次世代テキスト認識用オープンソースAIモデル

PP-OCRv5は、百度がリリースした最新世代のテキスト認識AIモデルである。軽量設計とわずか0.07Bの参照数で、CPUやエッジデバイスでの効率的な動作に適しており、1秒間に370文字以上を処理できる。このモデルは、簡体字中国語、繁体字中国語、英語、日本語、ピンインをサポートしている。
9ヶ月前
071.4K
Youtu-GraphRAG - 腾讯优图实验室开源的图检索增强生成框架

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...
9ヶ月前
048.5K
Stand-In - 腾讯微信视觉开源的轻量级视频生成框架

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。
9ヶ月前
047.4K
IndexTTS2 - B站开源的免费TTS模型,首个支持精确时长控制

IndexTTS2 - B局オープンソースのフリーTTSモデル。

IndexTTS2は、Bステーション音声チームによってオープンソース化された新しいフリー音声合成(TTS)モデルで、感情表現と継続時間制御の大きなブレークスルーを達成し、正確な継続時間制御をサポートする初の自己回帰型TTSモデルです。ゼロサンプルの音声クローニングをサポートし、1つの音声ファイルだけで正確に音声をコピーできます。
9ヶ月前
0110.8K
MiniMax Music 1.5 - MiniMax最新推出的AI音乐生成模型

MiniMax Music 1.5 - MiniMaxの最新AI音楽生成モデル!

MiniMax Music 1.5は、ユーザーの自然言語による記述に基づいて最大4分の音楽を生成する、高度なAI音楽生成ツールです。このモデルは、幅広い音楽スタイルとムードのカスタマイズをサポートし、自然で完全なボーカルトーン、スムーズなトランジション、豊かなレイヤーアレンジを生成します...
10ヶ月前
048.6K
人工智能安全(AI Safety)是什么,一文看懂

人工知能の安全性(AI Safety)とは何か?

人工知能の安全性(AI Safety)とは、AIシステム、特にますます強力になり自律的に動作するAIシステムが、そのライフサイクルを通じて、有害な結果を招くことなく、人間の意図に従って確実かつ予測可能に動作することを保証する最先端の学際的分野である。
10ヶ月前
045.7K
自监督学习(Self-Supervised Learning)是什么,一文看懂

自己教師あり学習(SSL)とは何か?

自己教師あり学習(SSL)は、機械学習分野における新たな学習パラダイムであり、その中核となる考え方は、ラベル付けされていないデータから教師あり信号を自動的に生成し、モデルを訓練してデータの有用な表現を学習することである。
10ヶ月前
046K
HuMo - 清华大学联合字节开源的多模态视频生成框架

HuMo - 清華大学United Bytesオープンソース・マルチモーダルビデオ生成フレームワーク

HuMoは、清華大学とByteDance Intelligent Creation Labが共同でオープンソース化したマルチモーダル映像生成フレームワークで、人間中心の映像生成に焦点を当てている。HuMoは、テキスト、画像、音声などのマルチモーダル入力から、高品質かつきめ細かく制御可能な人物映像を生成することができる。
10ヶ月前
0129.9K
AnyI2V - 复旦联合阿里达摩院等开源的智能图像动画生成框架

AnyI2V - FudanとAli Dharma Instituteとその他のオープンソースインテリジェント画像アニメーション生成フレームワーク

AnyI2Vは復旦大学、Alibaba Darmo Academyなどが共同で立ち上げた画像アニメーション生成フレームワークで、複雑な学習プロセスや大量のデータを必要とせずに、静的な条件画像(グリッド、点群など)を動的な動画に変換することをサポートする。
10ヶ月前
043K
文心大模型X1.1 - 百度推出的深度思考模型,理解能力更强

文信ビッグモデルX1.1 - 百度のより良い理解のための深層思考モデル

Wenxin Big Model X1.1は、バイドゥが発表したディープシンキングモデルで、ハイブリッド強化学習フレームワークに基づいており、言語理解と生成の向上に重点を置いている。このモデルは、複雑な質問の処理、指示に従うこと、知性の行動のシミュレーションに優れており、知識豊富な回答や高品質のテキストコンテンツを正確に提供することができる。
10ヶ月前
049.4K
混元图像2.1 - 腾讯推出的开源文生图模型

ハイブリッドイメージ2.1 - テンセントのオープンソース・ベンダーグラフ・モデル

HunyuanImage 2.1は、高品質の画像生成のために設計されたテンセントのオープンソースグラフィックモデルです。このモデルはネイティブ2K解像度をサポートし、複雑なシーンやディテールを正確にレンダリングすることができ、キャラクターの表情や動きを生き生きと再現することができます。
10ヶ月前
044.6K
AntSK FileChunk - 免费的AI语义文档切片工具,动态切片调整

AntSK FileChunk - フリーのAIセマンティック文書スライスツール、動的スライス調整

AntSK FileChunk は、RAG (Retrieval Augmented Generation) アプリケーションのために設計された、無料のインテリジェントドキュメントスライスツールです。セマンティックを中核として、文書はインテリジェントに、意味的に完全で首尾一貫したセグメントにスライスされ、多言語をサポートし、文脈の一貫性を保証するためにスライスのサイズを動的に調整します。
10ヶ月前
051.5K
MiniCPM 4.1 - 面壁智能推出的超高效端侧大模型

MiniCPM 4.1 - Facing Face Intelligenceによる超高効率エンドサイドマクロモデリング

MiniCPM4.1は、Facade Intelligenceが導入した超高効率エンドサイド大規模言語モデルです。InfLLM v2スパース・アテンション・アーキテクチャにより、各辞素は5%個以下の語彙との相関を計算するだけでよく、長文の処理オーバーヘッドを大幅に削減します。128K長文のシナリオでは...
10ヶ月前
045K
WeKnora - 腾讯微信开源的文档理解与语义检索框架

WeKnora - Tencent WeChatオープンソースドキュメント理解と意味検索フレームワーク

WeKnoraはTencent WeChatチームのオープンソースで、Large Language Model (LLM)文書理解と意味検索フレームワークに基づいており、複雑な異種文書コンテンツシナリオの構造のために設計され、モジュラーアーキテクチャを使用するように設計されており、マルチモーダル前処理、セマンティックベクターインデキシング、インテリジェントリコールと大規模なモデルの生成推論の統合...
10ヶ月前
090.2K
XTuner V1 - 上海AI Lab开源的大模型训练引擎

XTuner V1 - Shanghai AI Lab オープンソース大規模モデルトレーニングエンジン

XTuner V1は、上海人工知能研究所によってオープンソース化された新世代の大規模モデル学習エンジンであり、超大規模スパース混合エキスパート(MoE)モデル学習用に設計されている。PyTorch FSDPをベースに開発され、メモリ、通信、負荷の多次元最適化により高性能を実現しています。
10ヶ月前
046.3K
人工智能治理(AI Governance)是什么,一文看懂

人工知能ガバナンス(AIガバナンス)とは何か?

AIガバナンスとは、技術、倫理、法律、社会を網羅する包括的な枠組みであり、AIシステムの設計から開発、導入、最終利用までのライフサイクル全体を効果的に指導、管理、監督するものである。中心的な目標は、技術革新を妨げることではなく、AI技術の開発と応用が確実に始まるようにすることである。
10ヶ月前
053.5K
半监督学习(Semi-Supervised Learning)是什么,一文看懂

半教師付き学習(SSL)とは何か?

半教師付き学習は機械学習の分野で重要な分野であり、学習効果と汎化能力を向上させるために、少量のラベル付きデータと大量のラベルなしデータを用いてモデルを共学習させる。
10ヶ月前
052.8K
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Tongyi Qianqianのフラッグシップ・ビッグ言語モデル

Qwen3-Max-Previewは、Tongyi Qianwenがリリースした最新のフラッグシップ大規模言語モデルです。Qwen3ファミリーの中で最大のパラメータ数を持つモデルであり、パラメータサイズは1兆を超える。推論、命令追従、多言語サポート、ロングテール知識カバレッジが大幅に改善されています。
10ヶ月前
049.6K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Meituanと上海交通大学のオープンソース・マルチモーダルモデル

OneCATは、Meituanが上海交通大学と共同で発表した新しい統一マルチモーダルモデルで、マルチモーダル理解、テキスト画像生成、画像編集機能をシームレスに統合した純粋なデコーダーアーキテクチャを採用している。このモデルは、外部の視覚コーダーや曖昧性解消器に依存する従来のマルチモーダルモデルの設計を放棄し、モダリティに特化した...
10ヶ月前
048.1K
InfinityHuman - 字节联合浙大推出的长视频数字人生成模型

InfinityHuman(インフィニティ・ヒューマン):バイトがZJUと共同で立ち上げた長編ビデオ・デジタル・ヒューマン・ジェネレーション・モデル

InfinityHumanは、ByteDanceと浙江大学が共同で発表した商用レベルの長時間音声駆動型キャラクター動画生成モデルである。このモデルは音声駆動型であり、高解像度、長時間、視覚的に一貫性のあるキャラクター動画を生成することができる。
10ヶ月前
048.4K
Kimi K2-0905 - 月之暗面推出的最新模型版本

Kimi K2-0905 - Dark Side of Moonの最新モデル!

Kimi K2-0905は、Dark Side of the Moon Technologies Ltd.の先進的なAIモデルであり、プログラミング支援に優れ、効率的にコードを生成し、フロントエンド開発において整然とした標準化されたコードの生成をサポートします。モデルのコンテキスト長は256Kまで拡張され、複雑なタスクにも対応します。
10ヶ月前
085.6K
强化学习 (Reinforcement Learning)是什么,一文看懂

強化学習とは何か?

強化学習は機械学習の重要な一分野であり、インテリジェンスが環境との継続的な相互作用を通じて、長期的な累積報酬を最大化するために最適な決定を下す方法を自律的に学習できるようにすることに主眼が置かれている。
10ヶ月前
044.1K
监督学习(Supervised Learning)是什么,一文看懂

教師あり学習(SL)とは何か?

教師あり学習は、機械学習の最も一般的で基本的な手法のひとつであり、その核となる考え方は、「正解」のある既存のデータセットを使って、予測や判断を行う方法をコンピューターモデルに教えることである。
10ヶ月前
047.3K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager-テンセントオープンソースの超長距離ローミングワールドモデル

HunyuanWorld-Voyager(略してHunyuan Voyager)は、テンセントがリリースした業界初のネイティブ3D再構成をサポートする超長距離ローミングワールドモデルである。1枚の画像からユーザーが定義したカメラパスの3D点群シーケンスを生成する新しいビデオ拡散フレームワークであり、...
10ヶ月前
050.2K