AIオープンソースプロジェクト

合計1020記事
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: 1枚の画像から高解像度の3Dモデリングデジタル資産を生成

概論 TripoSGはVAST AI研究チームによって開発されたオープンソースプロジェクトで、1枚の画像から高品質の3Dモデルを生成する。このプロジェクトでは、大規模な整流器フローコンバーター技術を用い、ハイブリッド教師あり学習と高品質なデータセットを組み合わせることで、生成された3Dモデルに...
5ヶ月前
02.5K
无服务器快速部署Grok3国内镜像站

サーバーレス高速デプロイ Grok3国内ミラーサイト

概要 Grok Playgroundは、"Technical Crawling Shrimp "のチームによって開発されたオープンソースプロジェクトである。このツールの主な機能は、ユーザーがGrok3の国内ミラーサイトを10秒でデプロイできるようにすることです。 Grok3はxAIによって導入された人工知能モデルで、...
5ヶ月前
02.5K
Sidekick CLI:一个开源的 Claude Code 替代工具

Sidekick CLI: オープンソースのクロードコード置き換えツール

概要 Sidekick CLIは、AIの支援により開発者のプロジェクト開発とデプロイプロセスを簡素化するために設計されたオープンソースのコマンドラインツールです。Claude Code、Copilot、Cursorにインスパイアされ、同様の機能を提供しています。
4ヶ月前
02.5K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

受信トレイゼロ:AIがメールを分類、フィルタリング、処理します。

一般的な説明 Inbox Zeroは、AIアシスタントを使用して、ユーザーが迅速に受信トレイゼロの電子メールを達成するために設計されたオープンソースの電子メール管理アプリです。自動返信、アーカイブ、ラベル付け、メールの転送、ニュースレターの管理と配信停止、冷やかしメールのブロック、フォロー...など様々な機能を提供しています。
8ヶ月前
02.4K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: タスク計画と実行を自動化する知識グラフの構築

包括的な紹介 グラフエージェントは、グラフ生成、タスク計画、タスク実行を統合した自動インテリジェント・ボディ・システムである。構造化および非構造化データを処理し、複雑な意味依存グラフを構築し、自己計画およびツールマッチングによってユーザタスクを効率的に実行することができる。
7ヶ月前
02.4K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: AIとの低遅延自然音声対話

はじめに RealtimeVoiceChat は、音声による人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトです。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)が音声を生成します。
3ヶ月前
02.4K
Dia:生成超现实多人对话的文本转语音模型

Dia:超リアルな多人数対話生成のための音声合成モデル

一般的な紹介 Diaは、Nari Labsによって開発されたオープンソースのテキスト音声合成(TTS)モデルで、超リアルなダイアログ音声を生成することに重点を置いています。テキストスクリプトを一度の処理でリアルな複数文字のダイアログに変換し、感情やイントネーションの制御をサポートし、さらに非言語表現も生成します。
4ヶ月前
02.4K
茴香豆:基于LLM(大型语言模型) 的群聊助手

Fennel Bean: LLM (大規模言語モデル) ベースのグループチャットアシスタント

包括的な紹介 HuixiangDouは大規模言語モデル(LLM)ベースのグループチャットアシスタントであり、3段階の前処理、拒否、応答プロセスを通じてグループチャットのシナリオに対処するように設計されています。情報洪水を引き起こすことなく、ユーザーの質問に答えることができる。このプロジェクトでは、完全なWeb...
6ヶ月前
02.4K
TheoremExplainAgent:利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Manimで5分以上の数学解説アニメーションを作成

概論 TheoremExplainAgentは、TIGER AI Labによって開発された革新的なプロジェクトであり、人工知能技術を用いて複雑な数学や科学の定理を分かりやすいビデオアニメーションに変換する。このツールはラージ・ランゲージ・モデル(LLM...
6ヶ月前
02.4K
Humanify:借助AI快速解密和美化JavaScript代码的工具

Humanify:AIの助けを借りてJavaScriptコードを素早く解読し、美化するツール

一般的な紹介 HumanifyはGitHubでホストされているオープンソースツールで、開発者のJesse Luotoによって、プログラマーが人工知能技術を使用して難読化されたJavaScriptコードを素早く解読し、美しくするために作成されました。このツールはCh...
5ヶ月前
02.4K
SongGen:自动生成歌曲的单阶段自回归Transformer

SongGen: 曲の自動生成のための単段自己回帰変換器

包括的な紹介 SongGenは、テキストから曲への生成タスクのために設計された、オープンソースの単一ステージ自己回帰変換モデルである。このモデルは、テキスト入力からボーカルとバッキングトラックを含む楽曲を生成することができます。SongGenは、幅広い音楽属性をきめ細かく制御することができます...
6ヶ月前
02.4K
Deep Research:基于AI的深度研究助手,提供高效的研究工具和报告生成功能

ディープリサーチ:効率的なリサーチツールとレポート作成機能を提供するAIベースのディープリサーチアシスタント

一般的な紹介 Deep Research は、検索エンジン、ウェブクローリング、大規模な言語モデルを組み合わせることで、反復的なディープリサーチを実行するように設計された AI ベースのリサーチアシスタントです。このプロジェクトは、使いやすいディープリサーチジェネレータを提供することを目的として、dzhng によって GitHub で公開されました。
4ヶ月前
02.4K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: テンセントのオープンソース高解像度3Dモデル生成ツール

概論 Hunyuan3D-2はTencentによって開発されたオープンソースプロジェクトで、テキストや画像から高解像度の3Dモデルを生成する。形状生成モデル(Hunyuan3D-DiT)とテクスチャ生成モデル(Hunyuan3D...)の2つのコアコンポーネントで構成されています。
5ヶ月前
02.4K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab:人間とコンピュータのコラボレーションに関する反復的思考を探求するための実験的対話ツール

CoT-Labは、人間とコンピュータのコラボレーションにおける新しいパラダイムを探求するための実験的インターフェースです。CoT-LabはCognitive Load Theory(認知的負荷理論)とActive Learning Principles(能動的学習原理)に基づき、「シンキングパートナー」関係の構築を通じて、人間と人工知能(AI)の間の深い認知的連携を促進します。プロジェクトの目的は...
6ヶ月前
02.4K
DeepResearcher:基于强化学习驱动AI研究复杂问题

DeepResearcher:複雑な問題を研究する強化学習ベースのドライビングAI

包括的な紹介 DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。強化学習(RL)によって実際のウェブ環境でエンドツーエンドで学習された大規模言語モデル(LLM)に基づくインテリジェントな研究ツールです。プロジェクト...
4ヶ月前
02.4K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT:画像・映像の領域レベル理解のためのマルチモーダルグランドモデルによるビジュアルコンテンツ分析の強化

包括的な紹介 Omni-RGPTは、画像や動画の領域レベルでの理解を可能にするために設計されたマルチモーダルな大規模言語モデルである。トークンマークテクニックを導入することで、Omni-RGPTは、視覚特徴空間内のターゲット領域を領域キュー(例えば、ボックスや...
7ヶ月前
02.4K
Trackers:用于视频对象跟踪的开源工具库

Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ

一般的な紹介 Trackersは、映像内の複数オブジェクトのトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは異なるオブジェクト検出モデル(YOLO...
3ヶ月前
02.4K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: コード構造とコンテンツから自動的にMarkdownドキュメントを生成します。

一般的な紹介 CodeWeaverは、コード・ライブラリを単一の見やすいMarkdownドキュメントに編むために設計されたコマンドライン・ツールです。ディレクトリを再帰的にスキャンし、各ファイルの内容をコードブロックに埋め込むことで、プロジェクトのファイル階層を構造化した表現を生成します。このツールは...
6ヶ月前
02.4K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror:収益性の高いGrokミラーサイトのワンクリック展開

包括的な紹介 Grok-Mirrorは、操作可能なGrokミラーステーションの構築に基づいた、サーバーレスで迅速なデプロイが可能なGrok3国内ミラーステーションです。Docker経由でワンクリックでローカルのGrokキオスクをデプロイすることができます。GrokはxAIの人工知能です。
5ヶ月前
02.4K
自动解析PDF内容并提取文字与表格的开源服务

PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。

総合紹介 PDF文書のレイアウトを自動的に分析し、ページ内のテキスト、タイトル、画像、表、数式、その他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します。
4ヶ月前
02.4K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール

概要 SegAnyMoは、カリフォルニア大学バークレー校と北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の動く物体、例えば人、動物、...を自動的に識別し、セグメント化することができる。
4ヶ月前
02.4K
Local Deep Research:本地运行的生成深度研究报告工具

ローカル・ディープ・リサーチ:詳細な調査レポートを作成するためのローカルで実行可能なツール

一般的な紹介 Local Deep Research は、ユーザが深い研究を行い、複雑な問題に対する詳細なレポートを作成するために設計されたオープンソースの AI 研究アシスタントです。ローカルでの実行をサポートしており、ユーザーはクラウドサービスに依存することなく研究タスクを完了することができます。このツールは ...
3ヶ月前
02.4K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: グラフィカルハイブリッドマルチモーダル推論モデル オープンソース by Kunlun Wanwen

一般的な紹介 Skywork-R1Vは、SkyworkAI(Kunlun Wanwei)チームによって開発され、GitHubで公開されているオープンソースのマルチモーダル推論モデルです。画像とテキストを同時に処理することができ、多段階の論理的推論を実行し、特に複雑な画像問題の分析に優れています。この...
5ヶ月前
02.4K
AI Logo:AI快速生成定制化品牌Logo

AIロゴ:AIがカスタマイズされたブランドロゴを素早く生成

概論 AI LogoはオープンソースのAIアプリケーション・プロジェクトであり、人工知能によってパーソナライズされたブランドロゴを素早く生成することを目的としている。Stable DiffusionやDeepAIといった強力なAI技術を組み合わせ、ユーザーが簡単なブランドロゴを入力できるようにしています。
5ヶ月前
02.4K
Zev:用自然语言快速查询终端命令的CLI工具

Zev: 端末コマンドを自然言語で素早く検索するCLIツール

一般的な紹介 Zevは使いやすいコマンドラインインターフェイス(CLI)ツールであり、ユーザが自然言語で素早く端末コマンドを照会・生成できるようにします。複雑なコマンド構文を覚える代わりに、Zevは日常的な言葉であなたのニーズを記述することでターミナルコマンドを生成します。Ope...
4ヶ月前
02.4K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。

一般的な紹介 OmniParserは、ユーザーインターフェースのスクリーンショットを構造化された理解しやすい要素に解析するためにMicrosoftによって開発されたツールです。このツールは、GPT-4Vが対応するインターフェイス領域に正確なアクションを生成する能力を大幅に向上させます。
6ヶ月前
02.4K
Arrakis:为AI智能体提供安全沙盒环境的开源工具

Arrakis:AIインテリジェンスに安全なサンドボックス環境を提供するオープンソースツール

一般的な紹介 Arrakisは、安全でカスタマイズ可能な環境を提供するためにAI知能のために設計されたサンドボックス環境です。Abhishek Bhardwajによって開発され、GitHubでホストされており、AGPL v3ライセンスを使用しています。
4ヶ月前
02.4K
CogView4:生成中英双语高清图片的开源文生图模型

CogView4:中国語と英語の高精細対訳画像を生成するオープンソースのグラフィカルモデル

一般的な紹介 CogView4は清華大学のKEG研究室(THUDM)によって開発されたオープンソースのテキストからグラフへのモデルであり、テキスト記述を高品質な画像に変換することに重点を置いている。二ヶ国語のキューワード入力をサポートしており、特に中国語のキューを理解し、中国語の文字、非...
5ヶ月前
02.4K
HN中文播客:自动抓取热门科技文章,AI生成中文总结并转换为播客

HN中国語ポッドキャスト:人気の技術記事を自動的に取得し、AIが中国語の要約を生成し、ポッドキャストに変換します。

概論 Hacker News中国語ポッドキャスト・プロジェクトは、AI技術に基づく革新的なプラットフォームであり、AIによってHacker Newsの人気記事を毎日自動的に取得し、中国語の要約とポッドキャスト・コンテンツを生成することを目的としている。このプロジェクトはccbikai ... によって資金提供されています。
6ヶ月前
02.4K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit:自然言語指示による画像編集のためのオープンソースツール

一般的な紹介 Step1X-Editは、Stepfun AIチームによって開発され、GitHubでホストされているオープンソースの画像編集フレームワークです。マルチモーダル大規模言語モデル(Qwen-VL)と拡散変換器(DiT)を組み合わせることで、ユーザーはシンプルで自然な操作で画像を作成することができます。
3ヶ月前
02.4K
MegaPairs:BGE新推出的多模态向量嵌入模型

メガペア:BGEによる新しいマルチモーダルベクトル埋め込みモデル

包括的な紹介 MegaPairsはVectorSpaceLabチームによるGitHub上のオープンソースプロジェクトであり、大規模なデータ合成技術によって画像-テキスト-画像検索タスクのためのマルチモーダル埋め込みモデルを生成する。このプロジェクトは、2,600万以上の異種...
5ヶ月前
02.4K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

GPTリサーチャー:ローカルおよびウェブベースのデータを使用して、包括的で詳細な調査レポートを作成します。

包括的な紹介 GPT Researcher は、Large Language Model (LLM)をベースとした自律型エージェントツールで、ローカルリサーチやウェブリサーチを行い、詳細なリサーチレポートを作成するために設計されています。このツールは、エージェント作業を並列化することにより、安定したパフォーマンスと高速化を実現し、情報の正確性を保証します。
4ヶ月前
02.4K
AiryLark:支持多格式文档智能翻译的开源工具

AiryLark:多フォーマット文書のインテリジェント翻訳のためのオープンソースツール

一般的な紹介 AiryLarkはGitHubでホストされているオープンソースの文書処理・翻訳ツールで、開発者のwizdによってNext.jsフレームワークに基づいて構築されています。様々なファイル形式(PDF、Word、TXT、Markdo...など)をサポートしています。
4ヶ月前
02.4K
Airweave:让应用程序快速集成知识库,实现智能搜索

Airweave:インテリジェントな検索のためのナレッジベースをアプリケーションに迅速に統合することを可能にする

概論 Airweaveは、ユーザーのアプリケーション・データ、API、データベース、ウェブサイトをグラフやベクトル・データベースに同期させることで、あらゆるアプリケーションを検索可能にするために設計されたオープンソース・ツールである。Airweaveは、構造化データであろうとなかろうと、データを検索可能にするプロセスを単純化する。
6ヶ月前
02.4K
AI-ClothingTryOn:基于 Gemini 的虚拟服装试穿工具

AI-ClothingTryOn:ジェミニベースのバーチャル試着ツール

概論 AI-ClothingTryOnは、開発者のspeedTDによって作成され、GitHubでホストされているPythonベースのオープンソースデスクトップアプリケーションです。このアプリケーションは、Google Geminiの人工知能技術を使用しています。
5ヶ月前
02.4K
Plandex:支持超长上下文的开源AI编码助手

Plandex:超ロングコンテクストをサポートするオープンソースのAIコーディングアシスタント

概要 Plandexは、大規模で複雑なソフトウェアプロジェクトのために設計されたオープンソースのエンドツーエンドのAIコーディングアシスタントです。複数ステップのタスクを計画・実行し、最大200万トークンのコンテキストを処理し、30以上のプログラミング言語をサポートします。
4ヶ月前
02.3K
Story-Flicks:输入主题自动生成儿童短故事视频

Story-Flicks:トピックを入力することで、子供向けのショートストーリービデオが自動生成される。

包括的な紹介 Story-Flicksは、ユーザーがHDストーリービデオを素早く生成することに焦点を当てたオープンソースのAIツールです。ユーザーはストーリーのトピックを入力するだけで、システムは大規模な言語モデルを通してストーリーの内容を生成し、AIが生成した画像、音声、字幕を組み合わせて完全なビデオを出力します。
5ヶ月前
02.3K
Paper to Podcast:把学术论文转换为多人对话播客

論文からポッドキャストへ:学術論文を多人数会話のポッドキャストに変換する

一般的な紹介 Paper to Podcastは、学術研究論文を生き生きとした楽しいポッドキャストに変換することに特化したオープンソースのツールです。人工知能技術を使ってPDF形式の論文を3人の登場人物(ホスト、学習者、専門家)の対話に変え、複雑な...
4ヶ月前
02.3K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: AIインテリジェンスの柔軟な接続と管理のためのオープンソースツール

概要 AgentIQは、開発者がAIインテリジェンスを効率的に接続・管理できるように設計されたNVIDIAのオープンソースツールです。異なるフレームワークのインテリジェンスがシームレスに連携し、企業データとツールを接続し、関数を呼び出すようなワークフローを構築することを可能にします。このツールの最大の特徴は...
5ヶ月前
02.3K
OpenAI.fm:展示OpenAI语音API的交互式演示工具

OpenAI.fm:OpenAIの音声APIを紹介するインタラクティブなデモツール

概論 openai-fmはGitHubでホストされているオープンソースプロジェクトで、OpenAIのText-to-Speech (TTS) APIの機能をデモンストレーションすることを目的としています。このプロジェクトは、インタラクティブなウェブアプリケーションを通して動作します...
4ヶ月前
02.3K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO:単一主題および複数主題のカスタマイズされた画像生成ツールのサポート(eコマース・グラフィックに最適)

UNOはByteDance Intelligent Creation Teamによって開発されたオープンソースの画像生成フレームワークです。FLUX.1モデルに基づいており、"less-to-more "汎化アプローチによる単一被写体および複数被写体のカスタム画像生成に重点を置いている。
4ヶ月前
02.3K
PrimisAI Nexus:构建可扩展AI多智能体系统与任务自动化的轻量框架

PrimisAI Nexus:スケーラブルなAIマルチインテリジェンスシステムとタスク自動化のための軽量フレームワーク

概要 PrimisAI Nexusは、GitHubでホストされている軽量なオープンソースのPythonフレームワークで、PrimisAIチームによって開発されています。大規模言語モデリング(LLM)を通じて、スケーラブルなAIマルチインテリジェント体システムの構築と管理を支援することを目的としており、...
5ヶ月前
02.3K
SkyPilot:在任何云端高效运行AI与批处理任务的开源框架

SkyPilot: あらゆるクラウドでAIとバッチタスクを効率的に実行するオープンソースフレームワーク

概 要 SkyPilotは、カリフォルニア大学バークレー校のSky Computing Labが始めたオープンソースのフレームワークで、あらゆるクラウドインフラ上でAIやバッチ処理タスクを効率的に実行できるように設計されています。14以上のクラウドサービス(...
6ヶ月前
02.3K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
5ヶ月前
02.3K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: マルチインテリジェントなボディ・ワークフローを迅速に構築するための宣言的文法とMCPの統合

概要 Fast-Agentは、evalstateチームによってGitHubでメンテナンスされているオープンソースツールで、開発者がマルチインテリジェンスワークフローを素早く定義、テスト、構築できるように設計されています。シンプルな宣言的構文に基づいており、MCP(Mode...
5ヶ月前
02.3K
Onyx:连接企业知识库的智能AI聊天平台

Onyx:企業の知識ベースをつなぐインテリジェントなAIチャットプラットフォーム

一般的な紹介 Onyx(旧称Danswer)は、onyx-dot-appチームによって開発されたオープンソースのAIチャットプラットフォームで、ドキュメント、アプリケーション、従業員データの統合と管理を支援します。あらゆる大規模言語モデル(LLM: Large Language Model)の接続をサポートし、豊富なチャット機能を提供します。
5ヶ月前
02.3K
文颜:一键美化Markdown文章,适配多个自媒体平台格式(开源本地客户端)

Wenyan:ワンクリックでMarkdown記事を美化し、複数のセルフメディアプラットフォームフォーマットに対応(オープンソースのローカルクライアント)

包括的な紹介 WenYanは、Markdownの記事のタイプセットと美化のために設計されたツールであり、編集されたMarkdownの記事をWeChat、Zhihu、今日の見出しや他のプラットフォームに適した形式に変換することをサポートしています。ユーザーはワンクリックで記事をコピーし、記事を直接...
7ヶ月前
02.3K
Together Open Deep Research:生成带索引的深度研究报告

共に開くディープリサーチ:インデックス付きディープリサーチレポートの作成

一般的な紹介 Open Deep Researchは、Together AIチームによって開発され、オープンソース化されたディープ・リサーチ・ツールで、GitHubでホストされています。マルチエージェントAIワークフローを通じて人間の研究プロセスをシミュレートし、詳細な研究レポートを生成します...
4ヶ月前
02.3K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou:顔の特徴を保持する写真生成・編集ツール

概要 InfiniteYouは、ByteDance Intelligent Creationチームによって開発されたオープンソースプロジェクトです。拡散トランスフォーマー(DiTs)技術に基づき、FLUX.1-devモデルを使用しています。主な機能は、ユーザーが写真をアップロードし、テキストの説明を入力することで、写真を生成することです。
5ヶ月前
02.3K
Coding-Tutor:提供个性化编程指导的智能教学助手

Coding-Tutor: 個別のプログラミング指導を提供するインテリジェントなティーチング・アシスタント

一般的な紹介 Coding-Tutorは、GitHubでホストされているオープンソースプロジェクトで、開発者のiwangjianによって作成され、学習者にパーソナライズされたプログラミング教育の経験を提供します。会話型AI技術を使用し、ユーザーの知識背景と...
6ヶ月前
02.3K
One-Prompt-One-Story:文本提示生成角色身份一致的图像

ワン・プロンプト・ワンストーリー:テキスト・プロンプトがキャラクターのアイデンティティと一貫したイメージを生み出す

Synthesis One-Prompt-One-Story(1Prompt1Story)は、1つのプロンプトから一貫した画像を生成できるように設計された革新的なテキストから画像への生成ツールである。ICLR 2025でTao Liuらによって発表された。
6ヶ月前
02.3K
GAG:利用大模型模拟人类行为生成社交关系图谱

GAG:人間の行動をシミュレートする大規模モデルを用いた社会関係グラフの生成

はじめに GraphAgentは、Ji-Catherによって開発され、GitHubでホストされているオープンソースのフレームワークです。Large Language Model (LLM)を使用して人間の行動をシミュレートし、テキスト属性を持つダイナミックなソーシャルグラフを生成します。このツールは、オンライン・ソーシャル・メディア...
5ヶ月前
02.3K
FreeAI:基于Pollinations封装的的免费AI工具

FreeAI: PollinationsパッケージをベースにしたフリーのAIツール。

概要 FreeAIは、Pollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームで、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供している。このプロジェクトは、開発者のAzad-slによってG...
4ヶ月前
02.3K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づいた音声合成機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴である。開発者のシェルドン・リーがGitHubで作成したもので、...
4ヶ月前
02.3K
Deep Searcher:企业私有文档高效检索与智能问答

ディープサーチャー:企業の私文書の効率的な検索とインテリジェントなQ&A

概要 Deep Searcherは、強力なビッグ言語モデル(DeepSeekやOpenAIなど)と、プライベートデータに基づいて検索、評価、推論を行うように設計されたベクトルデータベース(Milvusなど)を組み合わせたツールで、精度の高い回答を提供する...
6ヶ月前
02.3K
VOP:提取复杂图表与数学公式的OCR工具

VOP: 複雑な図や数式を抽出するOCRツール

包括的な紹介 Versatile OCR Programは、複雑な学術文書や教育文書を扱うために設計されたオープンソースの光学式文字認識(OCR)ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、OCRファイルを生成することができます。
4ヶ月前
02.3K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni:人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル

一般的な紹介 HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。HumanOmniは人間の動画を分析することに特化しており、画像と音声の両方を処理することで、感情や行動、対話の内容を理解するのに役立ちます。このプロジェクトでは2...
5ヶ月前
02.3K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: 知的推論をサポートするオープンソース検索ツール

概要 OpenDeepSearchは、sentient-agiチームによって開発されたオープンソースの検索ツールです。大規模言語モデリング(LLM)と知的推論エージェントを組み合わせ、ユーザがウェブページから情報を検索し、簡単な方法で正確な答えを得ることを可能にします。この ...
5ヶ月前
02.3K
TestDriver:使用AI自动测试软件的智能工具

TestDriver:AIを使った自動ソフトウェアテストツール

一般的な紹介 TestDriver は、人工知能技術を使用して開発者のソフトウェア・テストを支援するウェブサイトです。マウスをクリックしたり、テキストを入力したりといった人間の動作をシミュレートすることで、ソフトウェアのテスト作業を自動化する。サイトの中心には、本物の人間のように動作する「AIエージェントを使用したコンピュータ」がある...
4ヶ月前
02.3K
Moffee:将Markdown转为PPT幻灯片

Moffee:マークダウンをPPTスライドショーに変換する

一般的な紹介 Moffeeは、Markdownファイルを素早く、簡単かつ効率的にプロフェッショナルなスライドショーに変換するオープンソースツールです。ユーザはMarkdownコンテンツを書くだけで、Moffeeはレイアウト、ページ分割、スタイルを自動的に処理し、手作業でタイプセットする必要がなくなります。
4ヶ月前
02.3K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

一般的な紹介 GenXDは、シンガポール国立大学(NUS)とMicrosoftチームによって開発されたオープンソースプロジェクトです。GenXDは、任意の3Dおよび4Dシーンを生成することに重点を置き、データ不足やモデル設計の複雑さによる現実世界の3Dおよび4D生成の問題を解決する。このプロジェクトは、...
4ヶ月前
02.3K
Abogen:将多种文本格式转换为有声读物的工具

Abogen:複数のテキスト形式をオーディオブックに変換するツール

一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...
3ヶ月前
02.3K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: 知的エージェントによる科学研究の全プロセスを完了するオープンソースツール

一般的な紹介 AgentLaboratoryはGitHubでホストされているオープンソースツールで、Samuel Schmidgallによって開発されました。大規模言語モデル(LLM)によって駆動されるインテリジェントエージェントを使用し、研究者の科学的...
5ヶ月前
02.3K
InternLM-XComposer:输出超长文本与图像视频理解的多模态大模型

InternLM-XComposer:非常に長いテキストと画像・動画理解を出力するためのマルチモーダル・マクロモデル

包括的な紹介 InternLM-XComposerは、InternLMチームによって開発され、GitHubでホストされているオープンソースのグラフィカルなマルチモーダルビッグモデルプロジェクトです。InternLM言語モデルをベースにしており、マルチモーダルテキスト、画像、ビデオ、その他の...
6ヶ月前
02.3K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus:Difyのオンプレミス管理バックエンド

包括的な紹介 Dify-Plusは、Difyオープンソースプロジェクトの二次開発をベースにしたAIアプリケーション開発プラットフォームです。Dify-Plusは、Difyをベースに新しい管理センターを追加し、エンタープライズシナリオ向けに機能を最適化しています。このプロジェクトは、当初は企業の内部利用を目的としていましたが、後にコミュニティにも同様のニーズがあることがわかり、Dify-Plusを開発しました。
5ヶ月前
02.2K
OneLine:生成热点事件时间轴的AI工具

OneLine:注目イベントのタイムラインを生成するAIツール

一般的な紹介 OneLineはGitHubでホストされているオープンソースのホットイベントタイムライン生成ツールで、ユーザーchengtx809によって開発されました。ユーザーによって入力されたキーワードによってイベントのタイムラインを素早く生成し、イベントの時間、タイトル、説明、関連人物を表示します...
4ヶ月前
02.2K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: 知識グラフを使って言語モデルを微調整し、合成データを生成する

包括的な紹介 GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークであり、GitHubでホストされている。GraphGenは、知識グラフを通して合成データ生成を導くことによって、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。LLMは...
3ヶ月前
02.2K
MiniMind-V:1小时训练26M参数视觉语言模型

MiniMind-V:26Mパラメトリック視覚言語モデルの1時間トレーニング

概要 MiniMind-Vは、GitHubでホストされているオープンソースプロジェクトで、わずか2600万個のパラメータを持つ軽量な視覚言語モデル(VLM)を1時間以内に学習できるように設計されています。MiniMind 言語モデルをベースに、新しいビジュアル...
4ヶ月前
02.2K
Dolphin:面向亚洲语言识别与语音转文本模型

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。
4ヶ月前
02.2K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

企業リサーチャー:企業リサーチツールで、企業のウェブアドレスを入力すると詳細なリサーチ情報が得られます。

概要 Company Researcher (カンパニーリサーチャー)は、ユーザーが任意の会社の迅速かつ包括的な概要を取得するために設計されたフリーでオープンソースのツールです。会社のURLを入力するだけで、このツールはウェブから包括的な情報を収集し、組織や製品に関する情報を表示します。
4ヶ月前
02.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone:写真から半身のデジタル人物ビデオを生成するツール

はじめに ChatAnyoneはHumanAIGCチームによって開発された革新的なプロジェクトです。人工知能技術を用いて、1枚の写真と音声入力から、上半身の動きを含むデジタル人物ビデオを生成する。このプロジェクトは、頭の動きを生成する階層的な動き拡散モデルに基づいています...
4ヶ月前
02.2K
オーケストラ:より簡単で効率的なマルチインテリジェンス共同開発のためのスマートAIチーム構築

オーケストラ:より簡単で効率的なマルチインテリジェンス共同開発のためのスマートAIチーム構築

Orchestraは革新的な軽量Pythonフレームワークで、大規模言語モデル(LLM)に基づくマルチインテリジェンス協調システムの構築に重点を置いています。複数のAI知能が交響楽団のように調和して動作するように、知能を配置する独自の方法を採用している。モデル化することで ...
7ヶ月前
02.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll:個人の健康データ管理のためのAIアシスタント、カスタマイズされた健康計画のための検査レポートのアップロード

概論 OpenHealthForAllは、ユーザーの個人的な健康データの管理と理解を支援するために設計されたオープンソースプロジェクトである。人工知能技術を活用することで、OpenHealthForAllはローカルで動作する健康アシスタントを提供し、ユーザーがより良く管理できるようにします。
6ヶ月前
02.2K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT:自動化されたAIインテリジェンスを作成・実行するオープンソースプロジェクト

一般的な紹介 AgentGPTは、Reworkdチームによって開発され、GitHubでホストされているオープンソースプロジェクトで、ユーザーがブラウザを通して自律的にAIインテリジェンスを作成、設定、デプロイできるように設計されています。ユーザーは目標を設定するだけで、AgentGPTは...
5ヶ月前
02.2K
Claude生成深度研究报告的MCP服务

詳細な調査レポートを作成するクロードのMCPサービス

一般的な紹介 MCP Server Deep Researchは、人工知能とウェブ検索によって複雑な問題の構造化された調査レポートを自動的に生成するオープンソースツールです。ユーザーがリサーチクエスチョンを入力すると、ツールはそのクエスチョンを分解し、権威ある情報を検索し、ソースの信頼性を評価します。
3ヶ月前
02.2K
LitServe:快速部署企业级通用AI模型推理服务

LitServe:エンタープライズグレードの汎用AIモデル推論サービスの迅速な展開

包括的な紹介 LitServeは、FastAPI上に構築されたLightning AIによるオープンソースのAIモデルサービスエンジンであり、汎用AIモデル向けの推論サービスを迅速に展開することに重点を置いている。大規模言語モデル(LLM)、視覚的モデル(Visual...
5ヶ月前
02.2K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP:ローエンドGPU動作をサポートするハイブリッドビデオ生成モデル

一般的な紹介 HunyuanVideoGPは、DeepBeepMeepによって開発され、ローエンドGPUユーザー向けに設計された大規模ビデオ生成モデルです。このモデルは、オリジナルのHunyuan Videoモデルの改良版であり、メモリとグラフィックメモリの要件を大幅に削減します。
6ヶ月前
02.2K
Thera:任意尺寸图像放大、去锯齿的开源工具

Thera: あらゆるサイズの画像拡大、デエイリアス・オープンソースツール

概論 Theraは、チューリッヒ工科大学とチューリッヒ大学のチームによって開発されたオープンソースの画像超解像ツールである。低解像度の画像を、2倍、3.14倍、あるいは整数倍など、任意の倍率にズームすることができる。
4ヶ月前
02.2K
混元Turbo S:腾讯推出的快思考大模型(开放申请)

ハイブリッド・ターボS:テンセントの「速く考える」ビッグモデル(募集中)

総合紹介 テンセント・ターボSは、2025年2月27日にテンセント・クラウドの公式サイトで発表された、テンセントが自社開発した新世代の高速思考モデルである。従来のスローシンキングモデル(例:Deepseek R1、Hybrid T1)とは異なり、「セカンドリプライ」を実現し、...
5ヶ月前
02.2K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: 効率的な大規模AIモデル学習ソリューションの提供

包括的な紹介 ColossalAIは、HPC-AI Technologies社によって開発されたオープンソースのプラットフォームで、大規模なAIモデルの学習と推論に効率的でコスト効率の高いソリューションを提供します。複数の並列戦略、ヘテロジニアスメモリ管理、混合精度学習をサポートすることで、ColossalAIは...
6ヶ月前
02.2K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch:DSPyフレームワークに基づくLLMプロセスのモニタリングと最適化のための可視化ツール

包括的な紹介 LangWatchは、大規模言語モデル(LLM)運用のために設計された包括的なプラットフォームで、監視、分析、評価、データセット管理、キューの最適化を提供します。このプラットフォームは、スタンフォード大学のDSPyフレームワークをベースにしており、ユーザがより良い管理と最適化を行えるように設計されています。
7ヶ月前
02.2K