注目のAIツール一覧｜4ページ目

カンディンスキー5.0 - ロシアのAIチームがオープンソースの映像生成モデルシリーズを公開

Kandinsky 5.0は、ロシアのAIチームによって開発された最新のビデオジェネレーションモデルシリーズで、軽量設計と高性能に重点を置いている。シリーズ最初のモデルであるKandinsky 5.0 Video Liteは、パラメータはわずか20億だが、類似の14Bモデルを凌駕しており、特に...

最新のAIリソース

6ヶ月前

045.1K

SongBloom-テンセントがHKCSとNTUと共同開発したオープンソースの楽曲生成モデル

SongBloomは、テンセントAIラボが香港中文大学（深圳）、南京大学と共同で開発したオープンソースの楽曲生成モデルで、AIによる楽曲生成における「可塑性」の問題を解決し、高品質で構造的に完全な楽曲生成を実現している。10秒間の参考音声と対応する歌詞を入力するだけで、...

最新のAIリソース

6ヶ月前

036K

Pyscn - フリーのAIコード品質分析ツール、Python開発者向けオープンソース

PyscnはPython開発者向けに設計されたインテリジェントなコード品質分析ツールで、コードの潜在的な問題を検出して保守性を向上させます。制御フロー図を通してデッドコードを分析し、APTED+LSHアルゴリズムを使って重複コードを特定し、モジュールの結合やサークルの複雑さなどのメトリクスを計算します。

最新のAIリソース

6ヶ月前

028.7K

Youtu-Embedding - Tencent Youtuオープンソースの汎用テキスト表現モデル

Youtu-Embeddingは、TencentのYoutu Labsによるオープンソースのユニバーサルテキスト表現モデルで、エンタープライズレベルのアプリケーション向けに設計されている。テキストはディープニューラルネットワークによって高次元のベクトル空間にマッピングされ、その空間では意味的に類似した文章がより近くに配置され、正確な意味検索が実現される。

最新のAIリソース

6ヶ月前

034K

SAIL-VL2 - ByteHopのオープンソース・マルチモーダル視覚言語モデル

SAIL-VL2は、Byte Jumpチームによるオープンソースのマルチモーダル視覚言語モデルで、画像やテキストなどのマルチモーダル入力の共同モデリングに焦点を当てています。スパース混合エキスパート（MoE）アーキテクチャと漸進的な学習ストラテジーを用いて、2Bから8Bのパラメータスケールで、特に図形理解、数学的...

最新のAIリソース

6ヶ月前

027.1K

ハイパーパラメーター（ハイパーパラメーター）とは何か、見て理解するための記事

機械学習において、ハイパーパラメータとは、データから学習するのではなく、モデルの学習を開始する前に手動でプリセットされる設定オプションのことである。中心的な役割は、アルゴリズムの動作ルールを設定するように、学習プロセス自体を制御することである。例えば、学習...

AIアンサー

6ヶ月前

031.4K

デシジョンツリー（決定木）とは何か？

決定木（DT）は、人間の意思決定プロセスをシミュレートするツリー型の予測モデルであり、一連のルールによってデータを分類または予測する。各内部ノードは特徴テストを表し、枝はテスト結果に対応し、葉ノードは最終決定を格納する。このアルゴリズムは分割統治戦略を用いる...

AIアンサー

6ヶ月前

029.7K

勾配降下（グラディエント・ディセント）とは何か、読んで理解するための記事

勾配降下は、関数の最小値を解くための中心的な最適化アルゴリズムです。このアルゴリズムは、関数の勾配（それぞれの偏導関数からなるベクトル）を計算し、θ = θ - η - ∇J(θ)の規則に従ってパラメータを繰り返し更新することにより、降下の方向を決定します。

AIアンサー

6ヶ月前

030.4K

MineContext - バイト・オープンソース・アクティブ・コンテキスト・アウェアAIパートナー

MineContextは、ByteDance Vikingチームによってオープンソース化されたアクティブなコンテキスト認識AIパートナーで、ユーザーが大量の情報を効率的に管理し、知識作業の効率を向上させることを支援します。スクリーンショットとコンテンツ理解技術により、ユーザーの日常操作（ウェブ閲覧、文書編集など）を自動的に記録し、...

最新のAIリソース

6ヶ月前

048K

nanochat - カルパシーによるフリーでオープンソースの低コストモデル・トレーニング・プロジェクト

nanochatは、AIのレジェンドであり元テスラAIディレクターのアンドレイ・カルパシーが公開したオープンソースプロジェクトで、個人が非常に低コストかつシンプルに、小規模なChatGPTのような言語モデルを素早く学習することを可能にする。プロジェクト全体で使用されているのは、わずか約800...

最新のAIリソース

6ヶ月前

033.6K

LLaVA-OneVision-1.5 - 免费开源的多模态模型，高性能多模态理解

LLaVA-OneVision-1.5 - 高性能マルチモーダル理解のためのフリーでオープンソースのマルチモーダルモデル

LLaVA-OneVision-1.5は、EvolvingLMMS-Labチームによるオープンソースのマルチモーダルモデルで、8Bパラメータスケールを使用し、128 A800上でコンパクトな3段階のトレーニングプロセス（言語-イメージのアライメント、概念の平衡化と知識の注入、命令の微調整）を通じて...

最新のAIリソース

6ヶ月前

032K

ロジスティック回帰（ロジスティック回帰）とは何か、読んで理解するための記事

ロジスティック回帰は、バイナリ分類問題を解くのに使われる統計的学習手法である。中心的な目的は、入力特徴に基づいてサンプルが特定のカテゴリに属する確率を予測することである。このモデルは、S字関数を用いて固有値を線形結合することにより、線形出力を0と1の間にマッピングする...

AIアンサー

6ヶ月前

028.1K

Paper2Video - 論文のデモビデオを自動生成するNUSのオープンソースプロジェクト

Paper2Videoは、シンガポール国立大学のShow Labで行われている、学術論文のプレゼンテーションビデオを自動生成するオープンソースプロジェクトです。PaperTalkerマルチインテリジェンスフレームワークを使用し、論文はスライド、字幕、ナレーション、スピーカーアバターを含む完全なプレゼンテーションビデオに変換されます。

最新のAIリソース

6ヶ月前

034.3K

NeuTTS Air - オフラインCPU実行をサポートしたフリーで軽量な音声合成モデル

NeuTTS Airは、Neuphonicチームによって開発されたオープンソースの軽量音声合成モデルで、クラウドに依存することなく、ローカルデバイス（携帯電話、ラップトップ、Raspberry Piなど）上でリアルタイムに実行できる。0.5BパラメータのQwenアーキテクチャと自社開発のNeuCodecコーデックを使用しています。

最新のAIリソース

6ヶ月前

040.1K

KAT-Dev-72B-Exp - レーサー・オープンソース・フリーのプログラミング専用モデル

KAT-Dev-72B-Expは、強化学習技術に基づいて最適化された、Racerチームによって発表されたオープンソースのプログラミング専用大規模言語モデルであり、SWE-Bench Verifiedベンチマークテストで74.6%の精度を達成した。このモデルは革新的な...

最新のAIリソース

6ヶ月前

031.4K

Jamba Reasoning 3B - 以色列AI21 Labs开源的轻量级推理模型

Jamba Reasoning 3B - イスラエルAI21ラボのオープンソース軽量推論モデル

Jamba Reasoning 3Bは、イスラエルのAIスタートアップAI21 Labsによってオープンソース化された軽量推論モデルで、強力なパフォーマンスと幅広いアプリケーションへの応用が期待されている。SSMとTransformerのハイブリッド・アーキテクチャを採用し、Trans...

最新のAIリソース

6ヶ月前

028.8K

エルンスト・ウーによるAgentic AIから最新のインテリジェンスを学ぶ無料コース

Agentic AIは、アーネスト・ングが開始した知的身体に関する最新のコースです。このコースでは、知的身体の設計と構築に焦点を当て、4つの主要な設計モードである反射、ツールの使用、計画、および複数の知的身体のコラボレーションをカバーします。学習者は、理論的な説明と実践的なコードを通して、インテリジェント・ボディが出力をチェックし、自律的に調整する方法を習得します。

最新のAIリソースコース情報

6ヶ月前

053.8K

OpenAgents - AIエージェントネットワーク構築のためのオープンソース・フリー・オープンコラボレーションプロジェクト

OpenAgentsは、AIエージェントのネットワークを構築し、エージェント間のオープンなコラボレーションを促進するオープンソースプロジェクトです。AIエージェントがシームレスに接続し、コラボレーションできるように、基本的なネットワークインフラが提供されています。ユーザーは、独自のエージェントネットワークを迅速に開始し、モジュラーアーキテクチャによって機能を拡張し、...

最新のAIリソース

6ヶ月前

030.7K

Androidify - Google、Android上でAIアプリを構築する方法に関するリソースを無償でオープンソース化

AndroidifyはGoogleのオープンソースプロジェクトであり、開発者がAndroid上でAI主導のアプリケーションを構築する方法を学ぶことを支援する。このプロジェクトでは、Jetpack Compose、Gemini API（via Fire...

最新のAIリソース

6ヶ月前

032K

正則化（レギュラー化）とは何か、見て理解するための記事

正則化は、モデルのオーバーフィッティングを防ぐための、機械学習や統計学における中核的な手法である。正則化は、モデルの複雑さに関連するペナルティ項を目的関数に追加することで、フィッティングの度合いを制御する。一般的な正則化にはL1正則化とL2正則化があり、L1正則化はスパース解を生成し、...

AIアンサー

6ヶ月前

031.8K

生成对抗网络（Generative Adversarial Network）是什么，一文看懂

Generative Adversarial Network（GAN）とは？

Generative Adversarial Network（GAN）は、2014年にIan Goodfellowらによって提案されたディープラーニングモデルである。このフレームワークは、2つのニューラルネットワークを互いに学習させることで生成モデルを実装する...

AIアンサー

6ヶ月前

031.2K

Ling-1T - アント・グループのオープンソース万能言語モデル。

Ling-1Tは、アント・グループによってオープンソース化された1兆パラメータユニバーサル言語モデルで、Bering社の大型モデルLing2.0シリーズのフラッグシップ製品に属します。このモデルは、非常に効率的なMoEアーキテクチャを採用し、128Kのコンテキストウィンドウをサポートし、コード生成、数学的推論、論理テストを含む7つのベンチマークでGPTを上回っています。

最新のAIリソース

6ヶ月前

056.6K

エコーケア - 香港科学院オープンソース超音波ベース大型モデル

EchoCareは、中国科学院香港創新研究院（CAS）の人工知能・ロボットイノベーションセンター（CAIR）によって開発された超音波ベースの大規模モデルであり、多施設、多地域、多民族、50人以上の個人をカバーする世界最大の超音波画像データセット（450万枚以上）で学習される。

最新のAIリソース

6ヶ月前

033.1K

自己注意（Self-Attention）とは何か、読んで理解するための記事

自己アテンションは、ディープラーニングにおける重要なメカニズムであり、元々はTransformerアーキテクチャで提案され、広く使われている。コアとなるアイデアは、モデルが入力シーケンス内のすべての位置に同時にアテンションし、各位置を...

AIアンサー

6ヶ月前

041.2K

マルチタスク学習（MTL）とは何か？

マルチタスク学習（MTL）は孤立したアルゴリズムではなく、インテリジェントな機械学習パラダイムである。

AIアンサー

6ヶ月前

032.9K

Code2Video - Show Lab オープンソースAI教育ビデオ生成フレームワーク

Code2Videoは、コードスニペットを自動的に高品質のビデオコンテンツ（MP4形式）に変換する革新的なオープンソースプロジェクトです。このプロジェクトは、ユニークなコード中心のパラダイムを通して、carbon-now-cliツールを使ってコードを美しい画像に生成します。

最新のAIリソース

6ヶ月前

037.9K

SceneGen - 上海交通大学オープンソース3Dシーン生成フレームワーク

SceneGenは、上海交通大学の1枚の画像から3Dシーンを生成するオープンソースの手法であり、1枚のシーン画像とターゲットリソースマスクから、リソースの幾何学的構造、テクスチャ、相対的な空間位置を含む、複数の3Dリソースを含む完全なシーンを効率的に生成する。

最新のAIリソース

6ヶ月前

029.2K

Ming-UniAudio - Antオープンソースユニファイドオーディオマルチモーダル生成モデル

Ming-UniAudioは、テキスト、オーディオ、イメージ、ビデオの混合入出力をサポートする、Ant Groupのオープンソース統一オーディオマルチモーダル生成モデルです。マルチスケールトランスフォーマーと混合エキスパート(MoE)アーキテクチャを使用し、モダリティを意識したルーティングメカニズムにより、クロスモーダルな入出力を効率的に処理します。

最新のAIリソース

6ヶ月前

035.7K

AIMangaStudio - フリーのAIマンガ作成ツール！

AIMangaStudioは、プロット生成、サブシーンデザイン、キャラクター設定などの機能を含む完全なマンガ制作パイプラインをクリエイターに提供し、脚本からマンガページまでの制作プロセスを簡素化できる無料のAIマンガ制作ツールです。プロット、セリフ、キャラクター設定など、マンガ原稿の自然言語生成をサポート。

最新のAIリソース

6ヶ月前

042.4K

FireRedChat - Little Red Bookのオープンソース全二重音声対話システム

FireRedChatは、リアルタイムの双方向対話機能と制御された中断をサポートするXiaohongshuのためのオープンソースの全二重音声対話システムです。トランスクリプションコントロールモジュール、インタラクションモジュール、ダイアログマネージャーなどのモジュール設計により、カスケードやセミカスケードアーキテクチャをサポートし、柔軟な展開を実現します。

最新のAIリソース

6ヶ月前

042.6K

Logics-Parsing - Ali オープンソース文書解析モデル

Logics-Parsingは、Qwen2.5-VL-7Bをベースとした、オープンソースのAliのエンドツーエンドの文書解析モデルです。強化学習を通じて、文書のレイアウト解析と読み順推論を最適化し、PDF画像を構造化されたHTML出力に変換することができます。

最新のAIリソース

6ヶ月前

041.1K

Ring-1T-preview - Antグループのオープンソースの兆パラメータ大規模モデル

Ring-1T-previewは、Ant Groupによるオープンソースの1兆パラメータマクロモデルであり、Ling2.0 MoEアーキテクチャに基づき、20Tコーパスで事前学習され、ASystem（自社開発の強化学習システム）によって推論能力が学習される。自然言語推論では...

最新のAIリソース

6ヶ月前

048.8K

RoboBrain-X0 - ウィズダムソース研究所オープンソースゼロサンプルクロスオントロジー一般化体現モデル

RoboBrain-X0は、ウィズダムソース研究所がオープンソース化した世界初のサンプル数ゼロのクロスオントロジー汎化をサポートする具現化モデルであり、産業上大きな意義がある。異なる構成の複数の実ロボットを駆動し、微調整なしで基本的な操作タスクを完了させることができ、少量のサンプル微調整を行った後、ロボットの動作を再現する能力を発揮します。

最新のAIリソース

6ヶ月前

034.1K

拡散モデル（拡散モデル）とは何か、読んで理解するための記事

拡散モデルは、画像、音声、テキストなどの新しいデータサンプルを作成するために特別に設計された生成モデルです。このモデルの中核は、物理学における拡散のプロセスにインスパイアされており、高濃度の領域から低濃度の領域への粒子の自然な拡散をシミュレートする。マシンでは...

AIアンサー

6ヶ月前

042.4K

ファインチューニングとは何か？

モデルの微調整（Fine-tuning）は、機械学習における転移学習の具体的な実装である。中核となるプロセスは事前学習モデルに基づいており、大規模なデータセットを用いて一般的なパターンを学習し、広範な特徴抽出能力を開発する。ファインチューニングの段階では、次にタスクに特化したデータセットを導入し、...

AIアンサー

6ヶ月前

034.4K

Lynx - ByteHopのオープンソース高忠実度ビデオ生成モデル

Lynxは、ByteDanceによってオープンソース化された高忠実度のパーソナライズド・ビデオ生成モデルであり、1枚のポートレート写真だけで、アイデンティティに一貫性のあるビデオを生成することができます。ディフュージョントランスフォーマー（DiT）をベースモデルとしており、IDアダプターとRef-adapte...

最新のAIリソース

6ヶ月前

036.4K

Claude Sonnet 4.5 - Anthropic推出的最强AI编程模型

クロード・ソネット4.5 - Anthropicの最強AIプログラミングモデル

クロード・ソネット4.5は、プログラミング、コンピュータ操作、複雑なタスクの自動化のために設計されたAnthropic社の人工知能モデルです。コード生成、長時間のタスク処理、推論、数学的計算を得意とし、初期計画から...

最新のAIリソース

6ヶ月前

041.2K

DeepSeek-V3.2-Exp - DeepSeek最新开源的实验性AI模型

DeepSeek-V3.2-Exp - ディープシークの最新のオープンソース実験的AIモデル

DeepSeek-V3.2-Expは、DeepSeekがオープンソース化した実験的なAIモデルで、DeepSeek Sparse Attention（DSA）メカニズムを導入することで、長文処理の効率を大幅に向上させています。このモデルはDeepSeek...

最新のAIリソース

6ヶ月前

037.8K

HunyuanImage 3.0 - Tencentオープンソースフリーマルチモーダル画像生成モデル

HunyuanImage 3.0（渾元画像3.0）は、テンセントがリリースし、オープンソース化したネイティブのマルチモーダル画像生成モデルである。モデルのパラメータサイズは80B、現在最高の評価結果、オープンソースの画像生成モデルの最大のパラメータ数です。Hybrid Image 3.0はリアルタイムの画像生成をサポートし、ユーザーはサイド...

最新のAIリソース

6ヶ月前

047.4K

Hunyuan3D-Part - Tencentオープンソースフリー3Dコンポーネント生成モデル

Hunyuan3D-Part（ハイブリッド3D-Part）は、テンセントが公開し、オープンソース化した3D生成モデルである。P3 - SAMとX - Partで構成され、高精度で制御可能なコンポーネントベースの3D生成を初めて実現し、自動生成された50以上のコンポーネントをサポートしています。ユーザーは、まず...

最新のAIリソース

6ヶ月前

047.5K

AudioFly - KU Xunfeiオープンソーステキスト生成サウンドAIモデル

AudioFlyは、KDDIが開発したテキストから効果音を生成するオープンソースのAIモデルです。AudioSet、AudioCaps、TUTなどの公開データセットと内部データセットを含む、大規模で多様な音声テキストデータセットで学習させた、10億個のパラメータを持つ潜在拡散モデルアーキテクチャに基づいています。

最新のAIリソース

6ヶ月前

041.6K

Hunyuan3D-Omni - テンセント混合ソースオープンソース3Dモデル生成フレームワーク

Hunyuan3D-Omni（ハイブリッド3D-オムニ）は、Tencentのハイブリッド3Dチームによるオープンソースの3Dアセット生成フレームワークで、複数の制御信号を通じて正確な3Dモデル生成を可能にする。Hunyuan3D 2.1アーキテクチャに基づき、点...

最新のAIリソース

6ヶ月前

045.3K

FLM-Audio - 全二重音声対話モデル（FLM-Audio）は、南洋理工学院（NTI）と共同でWisdomSourceによってオープンソース化されました。

FLM-Audioは、Beijing Zhiyuan Artificial Intelligence Research InstituteとSpin Matrix、Nanyang Technological University of Singaporeが共同開発したネイティブ全二重音声対話マクロモデルで、中国語と英語の両方に対応している。ネイティブの全二重アーキテクチャを採用し、各時間ステップでリスニング、スピーキング、モノローグをマージすることができます...

最新のAIリソース

6ヶ月前

038.7K

アテンション・メカニズム（注意のメカニズム）とは何か？

注意メカニズム（Attention Mechanism）は、人間の認知プロセスを模倣する計算技術で、当初は機械翻訳の分野で応用され、後にディープラーニングの重要な一部となった。

AIアンサー

6ヶ月前

040.5K

Transformer 架构（Transformer Architecture）是什么，一文看懂

トランスフォーマー・アーキテクチャーとは？

Transformerアーキテクチャは、機械翻訳やテキスト要約のようなシーケンス間のタスクを処理するために設計された深層学習モデルである。コアとなる革新的な点は、従来のループや畳み込み構造を排除し、自己注意メカニズムのみに依存する点にある。モデルがシーケンスの全ての要素を並列に処理できるようにすることで、大規模な...

AIアンサー

6ヶ月前

038.8K

事前学習済みモデル（Pre-trained Model）とは何か、読んで理解するための記事

事前学習済みモデル（PTM）は、人工知能における基本的かつ強力な手法であり、大規模なデータセットで事前学習された機械学習モデルを表す。モデルは大量の情報を処理し、データから一般的なパターンや特徴を学習することで、幅広い知識ベースを形成する。

AIアンサー

6ヶ月前

038.2K

LLM（ラージ・ランゲージ・モデル）とは？

大規模言語モデル（Large Language Model：LLM）は、Transformerアーキテクチャを中核とし、膨大なテキストデータに対して学習されたディープラーニングシステムである。このアーキテクチャの自己アテンションメカニズムは、言語の長距離依存関係を効果的に捉えることができる。このモデルの「ラージ...

AIアンサー

6ヶ月前

037.8K

長短期記憶（LSTM）ネットワークとは何か？

ロング・ショート・ターム・メモリー（LSTM）は、シーケンスデータを処理するために特別に設計されたリカレント・ニューラル・ネットワークの変種である。人工知能の分野では、シーケンスデータは時系列予測、自然言語処理、音声認識などのタスクで広く使用されている。

AIアンサー

6ヶ月前

032.6K

CWM - メタFAIRオープンソースコード世界言語モデル

CWM（Code World Model）は、Meta FAIRチームによって公開された320億パラメータのオープンソースの世界言語モデルで、コード生成と推論のために設計された。コードの実行過程をシミュレートし、変数の状態変化を予測し、推論を進めることができる「ワールドモデル」の概念を導入している。

最新のAIリソース

6ヶ月前

034.9K

Neovate Code - Antオープンソースのインテリジェントプログラミングアシスタント

Neovate Codeは、アントグループのアリペイ・エクスペリエンス・テクノロジー部が開発したオープンソースのインテリジェント・プログラミング・アシスタントで、人工知能技術によって開発効率を向上させる。会話型の開発機能により、開発者は自然言語で要件を記述することができ、Neovate Codeはそれを理解し、対応する世代を生成することができます...

最新のAIリソース

6ヶ月前

038.7K

Audio2Face - NVIDIAのオープンソースAI 3Dフェイシャル・アニメーション生成モデル

Audio2Faceは、音声入力をリアルな3Dフェイシャル・アニメーションに変換できるNVIDIAのオープンソースAIツールです。音声に含まれる音素やイントネーションなどの音声特徴を分析することで、正確な唇の同期と微妙な感情表現を生成し、バーチャル・キャラクターに生き生きとした人間の表情を与えます。

最新のAIリソース

6ヶ月前

040.3K

Qwen3-VL - AliCloud Tongyi Qianqian オープンソース・マルチモーダル視覚言語マクロモデル

Qwen3-VLは、AliCloud Tongyi Qianqianチームによるオープンソースのマルチモーダル視覚言語ラージモデルで、2,350億の参照と約471GBのモデルファイルを持っています。命令バージョンと思考バージョンを含み、強化されたMRopeインターリーブレイアウト、DeepStackなどの技術を採用し、視覚変換を効果的に使用することができます...

最新のAIリソース

6ヶ月前

052.7K

Qwen3Guard - Ali Qwenオープンソースセキュリティモデル

Qwen3Guardは、Qwen3の基本モデルに基づき、セキュリティ検出のために設計された、きめ細かいセキュリティ保護モデルです。Qwen3Guardは、2つのプロ...

最新のAIリソース

6ヶ月前

043.3K

Qwen3-TTS-Flash - Ali Tongyiによる音声合成モデル

Qwen3-TTS-FlashはAli Tongyiによって導入された先進的な音声合成モデルで、北京語、英語、方言などをカバーする17の声調と10の言語をサポートする。

最新のAIリソース

7ヶ月前

053K

Qwen3-Omni - Ali Tongyiが紹介するオムニモーダルAIモデル

Qwen3-Omniは、Ali Tongyiチームによって導入された完全なモーダルAIモデルであり、テキスト、画像、オーディオ、ビデオなどの複数のデータタイプを扱うことができ、低レイテンシと高い制御性で119言語のテキストインタラクションをサポートしています。

最新のAIリソース

7ヶ月前

038.2K

DeepSeek-V3.1-Terminus - DeepSeek推出的最新版AI模型

DeepSeek-V3.1-Terminus - DeepSeekが導入したAIモデルの最新バージョン

DeepSeek-V3.1-Terminusは、DeepSeekチームの人工知能言語モデルであるDeepSeek-V3.1のアップグレード版です。このモデルは、言語の一貫性、コード生成、検索機能の面で最適化され、より正確に...

最新のAIリソース

7ヶ月前

036.1K

フェデレーテッド・ラーニングとは何か？

Federated Learning（FL）は、2016年にグーグルの研究者チームによって初めて提案された革新的な機械学習アプローチで、データプライバシーと分散コンピューティングの課題に対処することを目的としている。

AIアンサー

7ヶ月前

037.7K

Granite-Docling-258M - IBM オープンソース視覚言語モデル

Granite-Docling-258Mは、効率的な文書変換のために設計された、IBMによる超コンパクトなオープンソースの視覚言語モデルです。このモデルは、レイアウト、表、数式、その他の要素をそのままに、文書を機械可読形式に変換します。

最新のAIリソース

7ヶ月前

034.7K

Lucy Edit - オープンソースのAIビデオ編集ツール、自然言語記述編集

Lucy Editは、Decart AIが開発したオープンソースのAI動画編集ツールです。複雑な微調整やマスクの使用を必要とせず、「キャラクターをシロクマに変える」「シーンを2Dアニメ風にする」といった簡単な自然言語による記述で動画を編集できる。

最新のAIリソース

7ヶ月前

043.9K

LongCat-フラッシュ思考 - Meituanオープンソースのための効率的な推論モデル

LongCat-Flash-Thinkingは、LongCat-Flash-Chatのスピードはそのままに、よりパワフルでプロフェッショナルになった、Mission LongCatのLongCatチームによってリリースされた効率的な推論モデルです。このモデルは、論理、数学、コード、知性に基づいています。

最新のAIリソース

7ヶ月前

034.1K

Ling-V2 - Ant-BellingオープンソースのMoEアーキテクチャ言語モデルシリーズ

Ling-V2は、Ant-Bellingチームによって導入されたMoEアーキテクチャに基づく大規模言語モデルファミリーである。最初のバージョンであるLing-mini-2.0は、総パラメータが160億であり、入力トークンあたり14億のパラメータしか起動しない。

最新のAIリソース

6ヶ月前

035.7K

クロノス - 清華とマイクロソフトが共同でオープンソースの財務Kチャートベースモデルを開発

クロノスは、清華大学とマイクロソフト・リサーチ・アジアが共同でオープンソース化した、金融市場初の基本的なK線チャートモデルです。株式、暗号通貨、その他の資産の始値、高値、安値、終値、出来高などのK線データを分析することで、将来の値動きを予測することができる。

最新のAIリソース

7ヶ月前

058.8K

Wan2.2-Animate - 同義万象のアクション生成モデルオープンソース

Wan2.2-Animateは、Tongyi Wanxiangのオープンソースのアクション生成モデルで、アクションの模倣とロールプレイングの2つのモードをサポートしています。ユーザーはキャラクター画像と参照ビデオを入力するだけで、モデルはビデオキャラクターの動きと表情を画像キャラクターに移行し、画像キャラクターにダイナミックな表情を与えることができます。

最新のAIリソース

7ヶ月前

037K

Xiaomi-MiMo-Audio-シャオミ・オープンソース初のネイティブ・エンド・トゥ・エンド・スピーチ・ビッグモデル

Xiaomi-MiMo-Audioは、多言語対話、音声継続、サンプル数の少ない汎化、音声理解などの強力な機能を備えた、Xiaomiのオープンソースの70億パラメータのエンドツーエンド音声マクロモデルであり、音声インテリジェンスと音声理解のベンチマークでSOTAレベルに達することができ、Google Gemi...を上回っています。

最新のAIリソース

7ヶ月前

040.6K

InternVLA-A1 - 上海AIラボ、具現化された大型モデルの運用能力をオープンソースで統合

InternVLA-A1は、上海人工知能研究所によってオープンソース化された体現操作の大型モデルである。統合を理解し、想像し、実行する能力を持ち、タスクを正確に完了することができる。このモデルは、実際の操作データとシミュレーションされた操作データを融合し、大規模なバーチャルとリアルのハイブリッドシーン資産を通じて、大規模なマルチモーダルの構築を自動化する。

最新のAIリソース

7ヶ月前

041.2K

VoxCPM - Facing Intelligenceと清華オープンソースのエンドツーエンドTTSモデル

VoxCPMはエンド・ツー・エンドの拡散自己回帰アーキテクチャを採用し、テキストから直接連続音声表現を生成することで、従来の離散的な曖昧性解消の限界を打ち破っている。階層的言語モデリングと有限状態量子化を通して...

最新のAIリソース

7ヶ月前

045.1K

InternVLA-N1 - 上海AIラボオープンソースエンドツーエンドデュアルシステムナビゲーション大型モデル

InternVLA-N1は、上海人工知能研究所によってオープンソース化されたエンドツーエンドのデュアルシステム・ナビゲーション・マクロモデルである。デュアルシステムアーキテクチャを用い、システム2が言語コマンドの理解と長距離経路の計画を担当し、システム1が高周波応答と機敏な障害物回避に重点を置いている。このモデルの学習は、大規模なデジタルデータ処理による合成データに基づいて行われる。

最新のAIリソース

7ヶ月前

040.7K

WebWeaver - アリ・トンイ、新しいデュアル・インテリジェンス・ボディ・フレームワークをオープンソースで公開

WebWeaverはアリババ同業チームが導入した新しい二重知能体フレームワークで、主にオープンディープリサーチで使用され、人間の研究プロセスをシミュレートすることができる。

最新のAIリソース

7ヶ月前

039.2K

MCP Registry - GitHubが提供する公式MCPサーバー管理プラットフォーム。

MCPレジストリは、開発者がMCPサーバーをより簡単に発見し、インストールできるようにするGitHubの集中型プラットフォームです。MCPレジストリを使えば、開発者は必要なAIツールを一箇所ですぐに見つけることができ、大幅に簡素化されます。

最新のAIリソース

7ヶ月前

037.9K

VLAC - 上海AIラボのオープンソース大型報酬体現モデル

VLACは、上海人工知能研究所のオープンソースの具現化報酬マクロモデルです。InternVLマルチモーダル・マクロモデルに基づき、インターネットのビデオデータとロボットの操作データを統合し、実世界におけるロボットの強化学習にプロセス報酬とタスク完了の推定を提供します。

最新のAIリソース

7ヶ月前

033.5K

Tongyi DeepResearch - アリ・トンイオープンソース・ディープリサーチインテリジェンス機関

Tongyi DeepResearch（同義ディープリサーチ）は、アリババが立ち上げたオープンソースのインテリジェントボディで、深い情報検索と複雑なタスクの推論のために設計され、300億のパラメータを持ち、ReActモードと深度モードを含む複数の推論モードをサポートする...

最新のAIリソース

7ヶ月前

042K

InternVLA-M1 - 上海AIラボのオープンソース・エンベディッド・デュアルシステム・オペレーション "ブレイン"

InternVLA-M1は、上海人工知能研究所のオープンソースの具現化されたオペレーティング「脳」であり、命令追従を指向する2システムオペレーションの大型モデルである。思考-行動-学習」をカバーする完全な閉ループを構築し、高レベルの空間推論とタスク計画を担当する。このモデルは2段階の訓練方針を採用している。

最新のAIリソース

7ヶ月前

033.2K

OpenAIの「AI時代を先取りするためのPDFガイド」 - ダウンロードリンク付き

AIの時代に先んじる」は、ビジネスリーダーがAIの時代において競争力を維持するためのOpenAIのAIリーダーシップガイドである。このガイドでは、AIの急速な成長を指摘し、より速いモデルリリース、より低いコスト、より速い企業導入...

最新のAIリソースコース情報

7ヶ月前

042.5K

浙江大学から大型モデルの基礎の無料PDF - ダウンロードリンク付き

ファンダメンタルズ・オブ・ラージ・モデルは、ラージ・ランゲージ・モデル（LLM）のコア技術と実用的な道筋を詳細に分析する。言語モデリングの基礎理論から始まり、統計的、リカレントニューラルネットワーク（RNN）、トランスフォーマーアーキテクチャに基づくモデル設計の原理を、3つの主要な大規模言語モデルに焦点を当てて体系的に解説しています。

最新のAIリソースコース情報

7ヶ月前

044K

循环神经网络（Recurrent Neural Network）是什么，一文看懂

リカレント・ニューラル・ネットワーク（RNN）とは何か？

リカレントニューラルネットワーク（RNN）は、逐次データを処理するために設計されたニューラルネットワークアーキテクチャである。逐次データとは、言語テキスト、音声信号、時系列など、時間的順序や依存関係を持つデータの集まりを指す。

AIアンサー

7ヶ月前

040.7K

ニューラル・ネットワークとは何か？

ニューラルネットワーク（NN）は、生物学的な脳におけるニューロンの働き方にヒントを得た計算モデルである。

AIアンサー

7ヶ月前

032.5K

PromptEnhancer - TencentハイブリッドオープンソースAIプロンプト単語拡張ツール

PromptEnhancerは、TencentのMixed Metaチームによるオープンソースのプロンプト語強化ツールで、テキストから画像への変換（Text-to-Image、T2I）モデルの生成を改善します。推論の連鎖(Chain-of-Thought, CoT)アプローチにより、...

最新のAIリソース

7ヶ月前

038.6K

LLaSO - ロジックインテリジェンスによる業界初の完全オープンソース音声モデル

LLaSOは、北京深層論理知能科技有限公司によって発表されたオープンソースの音声モデルで、音声データとテキストデータを統合し、アライメントデータセット、コマンド微調整データセット、評価ベンチマークを提供することで、大規模音声言語モデリングの分野におけるデータの分散と不十分なタスクカバレッジの問題を解決します。

最新のAIリソース

7ヶ月前

029.6K

Hybrid 3D 3.0 - UHDモデリングに対応したTencentの3D生成モデル

ハイブリッド3D 3.0は、3D-DiT階層造形技術に基づくテンセントの先進的な3D生成モデルで、最大1536³の幾何学的解像度を持ち、超高精細でディテールに富んだ3Dモデルを生成でき、五感や体型を正確に造形できるなど、キャラクターモデリングに優れている。

最新のAIリソース

7ヶ月前

047.6K

UnifoLM-WMA-0 - Yushu Technology オープンソースワールドモデルアクションアーキテクチャ

UnifoLM-WMA-0は、Yu Shu Technologyによる複数のクラスのロボットオントロジーにまたがるオープンソースのワールドモデル-アクションアーキテクチャであり、一般的なロボット学習のために設計されている。ワールドモデルとアクションアーキテクチャから構成され、ワールドモデルはロボットと環境の相互作用の物理法則を理解し、アクションアーキテクチャは特定の...

最新のAIリソース

7ヶ月前

047.3K

InfiniteTalk - Mission Vision AI用オープンソース音声駆動ビデオ生成ツール

InfiniteTalkは、MeiGen-AIチームによって開発された音声駆動型の動画生成ツールで、入力された音声に基づいて長さ無制限のトーキング動画を生成する。主な特長は、正確なリップシンク技術で、音声とキャラクターの口の形を完全に一致させ、自然で滑らかな動画を生成します。

最新のAIリソース

7ヶ月前

056.6K

Mini-o3 - バイト、HKU共同オープンソース視覚推論モデル

Mini-o3は、ByteDanceと香港大学が共同で立ち上げたオープンソースモデルで、複雑な視覚探索問題の解決に焦点を当てている。このモデルは、強力な多ラウンド対話型推論機能を持ち、深い探索と試行錯誤を通じてターゲットを見つけることができる。

最新のAIリソース

7ヶ月前

034.4K

GPT-5-Codex-OpenAIが導入した最強のプログラミングモデル

GPT-5-Codexは、OpenAIの強力なプログラミング最適化モデルで、GPT-5によってさらに強化され、ソフトウェアエンジニアのために設計されています。このモデルは、高品質なコードを迅速に生成し、複数のプログラミング言語をサポートし、パフォーマンスを向上させるために既存のコードを最適化します。

最新のAIリソース

7ヶ月前

030.8K

ROMA - 並列処理のための複雑なタスクの自動分解のためのオープンソースメタエージェントフレームワーク

ROMA (Recursive-Open-Meta-Agent) は Sentient AGI によって開発されたオープンソースのメタエージェントフレームワークで、再帰的なタスク分解と並列処理によって複雑な問題を効率的に解決します。Python 3.12+、Docker、...をサポートしています。

最新のAIリソース

7ヶ月前

045K

Lumina-DiMOO - 上海AIラボとHuawei Riseがオープンソース化したマルチモーダル大型モデル

Lumina-DiMOOは、上海人工知能研究所（SAL）が世界人工知能会議2025でファーウェイ・ライズと共同で発表した、マルチモーダル生成・理解のための新世代統一モデルである。Rise AI基本ハードウェア・ソフトウェアプラットフォームとMindSpeed MMマルチモーダル大規模モデルスイートをベースとし、...

最新のAIリソース

7ヶ月前

040.4K

Hyprnote - オープンソースのローカルファーストAI会議メモツール

Hyprnoteは、ユーザーのプライバシーを保護し、会議の効率を向上させるために専門家のために設計された、オープンソースのローカルファーストAI会議メモツールです。ローカルファースト」の原則を採用し、データの保存と処理はすべてユーザーのローカルデバイス上で行われるため、データの安全性が確保され、オフラインでの操作もサポートされます。

最新のAIリソース

7ヶ月前

040.3K

MobileLLM-R1 - メタ・オープンソース特殊効率推論モデルシリーズ

MobileLLM-R1は、数学的推論、プログラミング推論、科学的推論のために設計されたMetaのオープンソースの効率的推論モデルシリーズです。ベースモデルとファイナルモデルがあり、それぞれ1億4千万、3億6千万、9億5千万のパラメータがあります。このモデルは一般的なチャットモデルではなく、教師ありファインチューニング（SFT...

最新のAIリソース

7ヶ月前

032.7K

ERNIE-4.5-21B-A3B-Thinking - 百度开源的推理思考模型

ERNIE-4.5-21B-A3B-Thinking - Baiduオープンソース推論思考モデル

ERNIE-4.5-21B-A3B-Thinkingは、推論タスクに特化したBaiduのオープンソース大規模言語モデルです。Mixed Expert (MoE) アーキテクチャを採用し、総参照数は210億、各トークンは30億のパラメータを起動し、128K長のコンテキストウィンドウをサポートします。

最新のAIリソース

7ヶ月前

030.6K

人工知能フェアネス（AIフェアネス）とは何か？

AIの公平性とは、AIシステムが、その設計、開発、配備、運用のライフサイクルを通じて、すべての個人や集団を公平かつ不偏の態度で扱うことを保証する学際的な分野である。

AIアンサー

7ヶ月前

037.3K

1記事でわかるメタラーニング（メタ学習）とは？

メタ学習（学習方法の学習）は、機械学習分野の重要な一分野であり、新しいタスクに素早く適応できる学習アルゴリズムの開発に焦点を当てている。

AIアンサー

7ヶ月前

041.6K

MobiAgent - 上海交通大学オープンソースモバイルインテリジェントボディフルスタック構築フレームワーク

MobiAgentは、上海交通大学IPADS研究室が開発したオープンソースのモバイルインテリジェントボディツールチェーンで、ユーザーが独自のモバイルインテリジェントアシスタントを構築することを支援する。ユーザーの操作軌跡を記録し、高品質なデータを生成することで、自然言語コマンドを理解できる知的体を育成する。コア機能には、効率的な...

最新のAIリソース

7ヶ月前

038.2K

ZipVoice - シャオミのオープンソース音声合成モデル群

ZipVoiceはXiaomiがリリースしたFlow Matchingアーキテクチャに基づく一連の音声合成（TTS）モデルで、ZipVoice（ゼロサンプル単一話者音声合成モデル）とZipVoice-Dialog（ゼロサンプル対話音声合成モデル）がある。

最新のAIリソース

7ヶ月前

046.4K

PP-OCRv5 - 百度の次世代テキスト認識用オープンソースAIモデル

PP-OCRv5は、百度がリリースした最新世代のテキスト認識AIモデルである。軽量設計とわずか0.07Bの参照数で、CPUやエッジデバイスでの効率的な動作に適しており、1秒間に370文字以上を処理できる。このモデルは、簡体字中国語、繁体字中国語、英語、日本語、ピンインをサポートしている。

最新のAIリソース

7ヶ月前

059.7K

Youtu-GraphRAG - Tencent Youtu Labs オープンソースグラフ検索拡張生成フレームワーク

Youtu-GraphRAGは、Tencent Youtu Labsが提供するオープンソースのグラフ検索拡張生成フレームワークで、大規模な言語モデルが複雑なQ&Aタスクをより正確に処理できるようにする。4層の知識ツリーを構築することで、知識を属性、関係、キーワード、コミュニティの4つのレベルに分解し、行為の自...

最新のAIリソース

7ヶ月前

039.5K

スタンドイン - Tencent WeChat Visualオープンソース軽量動画生成フレームワーク

Stand-Inは、テンセントのWeChat Visionチームが開発した、軽量でプラグアンドプレイのID保持動画生成フレームワークである。動画生成において特定のアイデンティティ特徴を保持することに重点を置き、ベースモデル1%の追加パラメータを学習するだけで、顔の類似性と自然さにおいて優れた結果を得ることができる。

最新のAIリソース

7ヶ月前

037.6K

IndexTTS2 - B局オープンソースのフリーTTSモデル。

IndexTTS2は、Bステーション音声チームによってオープンソース化された新しいフリー音声合成（TTS）モデルで、感情表現と継続時間制御の大きなブレークスルーを達成し、正確な継続時間制御をサポートする初の自己回帰型TTSモデルです。ゼロサンプルの音声クローニングをサポートし、1つの音声ファイルだけで正確に音声をコピーできます。

最新のAIリソース

7ヶ月前

099.2K