AIオープンソースプロジェクト

合計1020記事
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。
1年前
059K
AutoFlow:基于GraphRAG的对话式知识库/网页深度搜索工具,对话框可集成到其他网站

AutoFlow: GraphRAGベースの会話型知識ベース/ディープ・ウェブ検索ツール。

概要 AutoFlowはPingCAP社によって開発されたオープンソースのツールで、TiDBサーバーレス・ベクトル・ストレージを用いてグラフベースの知識ベースを構築する。LlamaIndexとDSPyフレームワークを統合し、複雑なダイアログ検索と知識グラフをサポートする。
1年前
059K
TransRouter:基于Gemini多模态模型,实时中英互译的音频转换工具

TransRouter:Geminiマルチモーダルモデルに基づく中英翻訳用リアルタイム音声変換ツール

TransRouterは、GoogleのGeminiモデルをベースにしたリアルタイム音声翻訳ツールで、特に英語と中国語のリアルタイム音声翻訳用に設計されている。このツールは、Zoomのようなビデオ会議ソフトウェアにシームレスに統合され、クロスランゲージのための強力なツールを提供します...
1年前
058.9K
Gemini Next Chat:一键免费部署您的私人多模态Gemini应用

Gemini Next Chat: ワンクリックで、プライベートなマルチモーダルGeminiアプリを無料でデプロイできます!

概論 Gemini Next Chatは、Geminiプライベートアプリケーションを簡単にデプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Gemini 1.5とGemini 2.0のマルチモーダルモデルをサポートしており、ユーザーはVercel上でワンクリックするだけでデプロイすることができます。
1年前
058.9K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: 任意の3Dおよび4Dシーンのビデオを生成するためのオープンソースフレームワーク

一般的な紹介 GenXDは、シンガポール国立大学(NUS)とMicrosoftチームによって開発されたオープンソースプロジェクトです。GenXDは、任意の3Dおよび4Dシーンを生成することに重点を置き、データ不足やモデル設計の複雑さによる現実世界の3Dおよび4D生成の問題を解決する。このプロジェクトは、...
1年前
058.9K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI:高付加価値AIモデル転送インターフェース管理システム、公式サイトがAPI枠を毎日無料提供

総合紹介 VoAPIは、知名度が高く高性能な新しいAIモデルインターフェース管理・配信システムであり、主に個人または企業の内部管理と配信チャネルに使用されます。NewAPIに基づいて開発されたこのシステムは、豊富な機能モジュールと最適化されたユーザーインターフェースを提供します。
1年前
058.9K
Ovis:视觉与文本对齐模型,精准反推图像提示词

Ovis:画像手がかり語の正確なバックプロパゲーションのための視覚的・テキスト的アライメントモデル

一般的な紹介 Ovis (Open VISion) は、アリババの国際デジタル商取引グループのAIDC-AIチームによって開発され、GitHubでホストされているオープンソースのマルチモーダル大規模言語モデル(MLLM)です。このモデルは、革新的な構造埋め込みアライメント技術を使用して、視覚化...
1年前
058.9K
Artab:在浏览器打开的新标签页中展示世界名画,Chrome插件

Artab:ブラウザで開いた新しいタブで世界の名画を表示、Chromeプラグイン

一般的な説明 Artabは、新しいタブを開くたびに世界の素晴らしい芸術作品を紹介するように設計されたブラウザ拡張機能です。この拡張機能はChrome、Edge、Firefoxブラウザで利用できます。Artabを使用すると、ユーザーはブラウズすることができます...
1年前
058.9K
Atomic Agents:构建轻量级模块化AI智能体框架

アトミック・エージェント:軽量モジュール型AIインテリジェンス構築のためのフレームワーク

概論 Atomic Agentsは、エージェントAIパイプラインとアプリケーションを構築するためのアトミティシティ(atomicity)のコンセプトに基づいて設計された、非常に軽量でモジュール化されたフレームワークです。このフレームワークは、強力なアプリケーションを作成するために組み合わせることができるツールとエージェントのセットを提供します。このフレームワークは、Instruc...
1年前
058.9K
Lux:几乎支持所有视频平台的命令行视频下载器

Lux: ほぼすべてのビデオプラットフォームをサポートするコマンドライン動画ダウンローダー

概要 Luxは、Goで書かれた高速でシンプルなビデオダウンロードライブラリとコマンドラインツールです。YouTube、Bilibili、Youkuなど、複数のウェブサイトからの動画ダウンロードをサポートしています。Luxは、マルチスレッドダウンロードなど、様々なダウンロードオプションと機能を提供します。
1年前
058.8K
Micro Agent:AI编程智能体,自动生成代码并测试、修复代码

マイクロ・エージェント:コードを自動生成し、テストと修正を行うAIプログラミング・インテリジェンス。

一般的な紹介 Micro-Agentは、Builder.ioによって開発されたオープンソースのAIコーディングアシスタントであり、開発者にコードを自動的に生成してテストする機能を提供するように設計されている。自然言語による記述を理解することでテストケースを生成し、すべてのテストがパスするまでコードを繰り返し実行することで、オープンなコードを減らすことができます。
1年前
058.8K
集成多种先进语音合成服务的开源运营项目

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

概要 Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換したり、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトはOpe...
1年前
058.8K
HealthGPT:支持医学图像分析与诊断问答的医疗大模型

HealthGPT:医療画像解析と診断Q&Aを支援する医療ビッグモデル

包括的な紹介 HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、先進的な医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療グラフを大幅に改善する統一的な自己回帰フレームワークに医療視覚理解と生成能力を統合することである。
1年前
058.8K
Social Media Agent:社交媒体智能助手,自动生成和管理社交媒体内容

ソーシャルメディア・エージェント:ソーシャルメディア・コンテンツを自動生成・管理するソーシャルメディア用インテリジェント・アシスタント

概要 ソーシャルメディアエージェント(Social Media Agent)は、ソーシャルメディアコンテンツの生成と管理を自動化するために設計された、新しいエージェントインボックスによってインタラクション情報を管理するオープンソースプロジェクトです。このプロジェクトはLangChainチームによって開発されました。
1年前
058.7K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: 知的推論をサポートするオープンソース検索ツール

概要 OpenDeepSearchは、sentient-agiチームによって開発されたオープンソースの検索ツールです。大規模言語モデリング(LLM)と知的推論エージェントを組み合わせ、ユーザがウェブページから情報を検索し、簡単な方法で正確な答えを得ることを可能にします。この ...
1年前
058.6K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait:静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...
1年前
058.6K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP:ローエンドGPU動作をサポートするハイブリッドビデオ生成モデル

一般的な紹介 HunyuanVideoGPは、DeepBeepMeepによって開発され、ローエンドGPUユーザー向けに設計された大規模ビデオ生成モデルです。このモデルは、オリジナルのHunyuan Videoモデルの改良版であり、メモリとグラフィックメモリの要件を大幅に削減します。
1年前
058.6K
元界AI:开源版AI数字人克隆与短视频生成工具

メタバースAI:AIデジタル人クローンとショートビデオ生成ツールのオープンソース版

総合紹介 Metaverse AI(オープンソース版)はGitHubでホストされているプロジェクトで、libn-netチームによって開発されている。AI技術によってデジタルな人間の画像や声をクローンし、短い動画を生成することができ、吹き替えや字幕にも対応しています。このツールはWindo...
1年前
058.5K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。

一般的な紹介 Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールはデフォルトで .gitignore ルールを使って不要なファイルをスキップし、...
1年前
058.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

知識テーブル:構造化データの効率的な抽出と探索のためのオープンソースツール

包括的な紹介 ナレッジテーブル(Knowledge Table)は、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザは、自然言語クエリインタフェースを通して、表やグラフのような構造化された知識表現を作成することができる。このツールは、抽出のカスタマイズをサポートしています。
1年前
058.5K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 外部リアルタイム知識グラフデータに依存するLLM推論サービス

包括的な紹介 Diffbot LLM Reasoning Server は LLama モデルアーキテクチャに基づいた特別な最適化と改良が施された革新的な大規模言語モデリングシステムです。このプロジェクトの最も重要な特徴は、リアルタイムナレッジグラフと検索を強化した生成の統合です...
1年前
058.5K
Mini LLM Flow:使用100行代码构建“有向图结构”的LLM微型智能体

ミニLLMフロー:100行のコードで「有向グラフ構造」を持つLLMミニインテリジェントを構築する

概論 miniLLMFlowは、「シンプルであること」という設計哲学を実証する、わずか100行のコアコードからなる最小主義の大規模言語モデル(LLM)開発フレームワークです。このフレームワークは、AIアシスタント(ChatGPT、Claudeなど)が...
1年前
058.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs:技術文書を素早くクロールして整理するMCPサービス

概要 DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されたこのツールは、技術文書のURLから始まり、関連するページを自動的にクロールし、簡潔なMa...
1年前
058.4K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

包括的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、首尾一貫した、ダイナミックでスケーラブルな長い動画を生成することに焦点を当てています。この技術は、説明文と動画の時間的整合性を保証する高度な自己回帰的アプローチを使用しています。
1年前
058.4K
VideoMind:视频按时间戳定位内容与问答的开源项目

VideoMind:タイムスタンプによるビデオ位置決めコンテンツとQ&Aオープンソースプロジェクト

概論 VideoMindは、長い動画の推論、Q&A、要約生成に焦点を当てたオープンソースのマルチモーダルAIツールである。香港理工大学のYe Liuとシンガポール国立大学のShow Labのチームによって開発された。このツールは人間の動画理解を模倣している。
10ヶ月前
058.3K
R1-Omni:通过视频和音频分析情感的开源模型

R1-Omni: ビデオと音声による感情分析のためのオープンソースモデル

はじめに R1-Omniは、HumanMLLMチームによってGitHubで立ち上げられたオープンソースプロジェクトです。これは、検証可能な報酬による強化学習(RLVR)技術を、感情認識に焦点を当てたマルチモーダル大規模言語モデルに適用した最初のプロジェクトである。このプロジェクトでは、動画と音声データを...
1年前
058.3K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

信頼できるAI:自動化された大規模言語モデル評価のためのフレームワーク。

包括的な紹介 DeepEvalは、大規模な言語モデリングシステムを評価およびテストするための、使いやすいオープンソースのLLM評価フレームワークです。Pytestに似ていますが、LLM出力のユニットテストに重点を置いています。DeepEvalは、G-Eval、ファントム...
1年前
058.3K
SuperCoder:命令行终端运行的智能代码助手

SuperCoder: コマンドライン・ターミナル実行のためのインテリジェント・コード・アシスタント

一般的な紹介 SuperCoderはターミナルで動作するインテリジェントなツールで、プログラマーのために設計されています。AI技術を使って、ユーザーがコードを検索したり、プロジェクトの構造を見たり、ファイルを編集したり、バグを修正したりするのを手助けします。このプロジェクトはGitHubのhuytdによってオープンソース化されており、...
1年前
058.3K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI:ウェブクローリングのための単一のキューワード、ルールを書く必要のないインテリジェントなウェブコンテンツ抽出ツール

包括的な紹介 ScrapeGraphAIは革新的なPythonのWebスクレイピングライブラリで、Large Language Modelling (LLM)とDirect Graph Logicを巧みに組み合わせ、Webサイトやローカルドキュメントのスクレイピングパイプラインを作成します。このツールのユニークな点は、完璧なレベルのシンプルさとパワーです。
1年前
058.3K
AI Podcast Generator:自动抓取新闻生成音频播客

AIポッドキャスト・ジェネレーター:ニュースを自動クロールして音声ポッドキャストを生成

概論 AI Podcast Generatorは、高度なAI技術を利用してウェブソースから魅力的なオーディオコンテンツを自動的に作成するインテリジェントなポッドキャスト生成ツールです。このシステムは、ニュース・コンテンツをキャプチャし、オーディオ・ポッドキャストに変換することで、自然な流れのナレーションを生成します。このプロジェクトはNext...
1年前
058.3K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

クラウド文書変換:Flying Book文書ダウンロードプラグイン、Flying Bookクラウド文書からローカルMarkdown形式文書への変換

概要 Cloud Document Converterは、Flying Bookのクラウド文書をMarkdown形式に変換するためのChrome拡張機能です。ユーザーはフライングブックのクラウド文書を簡単にダウンロードまたはコピーしてMarkdo...
1年前
058.2K
JoyGen:音频驱动的3D深度感知人像说话视频编辑工具

ジョイジェン:音声駆動型3D奥行き認識型トーキングビデオ編集ツール

包括的な紹介 JoyGenは、音声による表情生成の問題を解決することに焦点を当てた、話す顔のための革新的な2段階映像生成フレームワークである。Jingdong Technologyのチームによって開発されたこのフレームワークは、高度な3D再構成技術と音声特徴抽出法を用いて、話し手のアイデンティティ特性と表情を正確に捉えます。
1年前
058.1K
AIEvo:创建多智能体协作应用的高效框架

AIEvo:マルチインテリジェントな協調アプリケーションを作成するための効率的なフレームワーク

概要 AIEvoは、Ant Groupのオープンソースマルチエージェントフレームワークで、 マルチエージェントアプリケーションを効率的に作成するために設計されています。このフレームワークは、複雑なタスクの実行成功率を向上させるために、 SOPタスクグラフに厳密に従います。また、フィードバックと監視機構により、高い柔軟性とスケーラビリティを保証します。
1年前
058.1K
LAMBDA:本地化AI邮件自动化系统,快速生成邮件(Gmail)回复草稿

LAMBDA:下書きメール(Gmail)の返信を迅速に生成するローカライズされたAIメール自動化システム

概要 LAMBDA(Local Auto MailBox Draft Assistant)は、ユーザーのメールスタイルから学習し、Gmailの受信トレイにある未読メールすべてに下書きを生成するように設計された、ローカライズされたAIメール自動化システムです...
1年前
058.1K
GPT-Crawler:自动爬取网站内容生成知识库文件

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成

一般的な紹介 GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することでページのコンテンツをクロールし、構造化ナレッジファイル(output.jso...
10ヶ月前
058.1K
AI-Infra-Guard:检测AI系统潜在安全风险的开源工具

AI-Infra-Guard:AIシステムの潜在的なセキュリティリスクを検出するオープンソースツール

包括的な紹介 AI-Infra-Guardは、Tencentのハイブリッド・セキュリティ・チームであるZhuqiao Labsによって開発されたオープンソースのAIインフラストラクチャ・セキュリティ評価ツールです。このツールは、30以上のAIフレームワークとコンポーネントをサポートしており、...
1年前
058K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor:GitHubのための知識ベース+LLM駆動インテリジェントコードレビューメンター

包括的な紹介 CR-Mentorは、専門的な知識ベースと大規模言語モデリング(LLM)のパワーを組み合わせたインテリジェントなコードレビューツールです。すべてのプログラミング言語のコードレビューをサポートするだけでなく、ナレッジベースに蓄積されたベストプラクティスに基づき、チーム専用のレビュー基準やフォーカスエリアをカスタマイズします。ナレッジベースを通じて...
1年前
058K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
1年前
058K
Mini-Cover:在线封面制作,专为博客、短视频、社交媒体等生成个性化封面

ミニカバー:ブログ、ショートビデオ、ソーシャルメディアなどにパーソナライズされたカバーを作成するために設計されたオンラインカバーメーカー!

概要 Mini-Coverは、ブログやショートビデオ、ソーシャルメディアなどのプラットフォーム用にパーソナライズされたカバーを生成するために設計されたオープンソースのオンラインカバー生成ツールです。JLinMrによって開発されたこのツールは、シンプルで効率的なソリューションを提供し、ユーザーのニーズに合ったカバーを素早く生成することを目的としています。
1年前
058K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm:軽量なマルチインテリジェント身体システムを学習するための実験的教育プロジェクト(OpenAIの例)

一般的な紹介 SwarmはOpenAIによって開発された実験的な教育用フレームワークで、マルチエージェントシステムの軽量で、制御可能で、テストが容易なインターフェースを探求するためのものです。このフレームワークは、主にエージェント間のハンドオフとルーチンパターンを実証するために使用され、開発者がマルチエージェントシステムの調整と実行を理解し、実装するのに役立ちます...
1年前
058K
Browse AI:无代码提取和监控结构化数据

ブラウズAI:コードなしで構造化データを抽出し監視する

Browseの紹介 Browse AIは、プログラミングなしであらゆるウェブサイトからデータを抽出・監視できるように設計された、コーディング不要のクラウドベースのウェブ自動化ソフトウェアです。マウス1つでデータ抽出、監視、自動化タスクを実行するボットを訓練することができます...
2年前
058K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme:ローカルの忠実度の高い表現アクション一貫性のある画像やビデオを生成、Runway Act oneオープンソースピンポン!

包括的な紹介 HelloMemeはHelloVisionによって開発されたオープンソースプロジェクトであり、空間編み目アテンションを統合することによって、拡散モデルに高レベルで忠実なストリップを埋め込むことを目的としている。
1年前
057.9K
WhoDB:支持自然语言交互的轻量数据库可视化管理软件

WhoDB: 自然言語対話をサポートする軽量データベース可視化管理ソフトウェア

概要 WhoDBは、データベース管理タスクを簡素化するために設計された、軽量(~20MB)で強力かつユーザーフレンドリーなデータベース管理ツールです。Adminerのシンプルさと、ユーザーエクスペリエンスとパフォーマンスの向上を兼ね備えています。
1年前
057.9K
TryOffAnyone:从人物身上提取服装为平铺服装展示图的AI工具

TryOffAnyone: 人物の衣服をタイル状の衣服表示画像として抽出するAIツール

包括的な紹介 TryOffAnyoneは、Eコマース分野における衣服ディスプレイの課題を解決するために特別に設計された画期的なAI画像処理ツールです。TryOffAnyoneは、実際に服を着ている人の写真を、レイフラットディスプレイ効果のある画像にインテリジェントに変換することができ、この技術は最新のLatent Dif...
1年前
057.9K
LLM API Engine:通过自然语言快速生成和部署API

LLM API Engine: 自然言語によるAPIの迅速な生成とデプロイメント

一般的な紹介 LLM API Engineは、開発者がAIを搭載したAPIを迅速に構築し、デプロイできるように設計されたオープンソースプロジェクトです。このプロジェクトは、Large Language Model(LLM)とインテリジェントなウェブクローリング技術を活用し、ユーザーが自然言語記述によってカスタムAPIを作成できるようにします。
1年前
057.8K
MM-EUREKA:探索视觉推理的多模态强化学习工具

MM-EUREKA:視覚的推論を探求するマルチモーダル強化学習ツール

MM-EUREKAは、上海交通大学の上海人工知能研究所とその他の関係者によって開発されたオープンソースプロジェクトです。ルールベースの強化学習技術により、テキスト推論機能をマルチモーダルシナリオに拡張し、モデルによる画像とテキスト情報の処理を支援します。このツールのコア...
1年前
057.8K
PrivateGPT:完全本地化RAG处理流程的文档问答系统

PrivateGPT: RAG処理フローを完全に局所化した文書Q&Aシステム

一般的な紹介 PrivateGPTは、インターネットに接続せずに大規模言語モデル(LLM)を使って文書をクイズすることを可能にする、本番環境で利用可能なAIプロジェクトです。このプロジェクトは、100%のデータプライバシーを保証し、すべてのデータはユーザの実行環境で処分されます...
1年前
057.7K
Bambo:轻量灵活的智能体框架,简单配置角色和工具,处理多种负载任务

Bambo: 軽量で柔軟なインテリジェント・ボディのためのフレームワーク。役割とツールをシンプルに構成し、複数の負荷タスクを処理する。

一般的な紹介 Bamboは新しいタイプのプロキシフレームワークであり、主流のフレームワークよりも軽量で柔軟性が高く、様々な負荷タスクに対応できる。Bamboはツールカタログに全てのツールを定義し、非同期のカスタム関数を使用することで、効率的なプロキシ機能を実現している。ユーザーはllm_c...
1年前
057.7K
GPTme:在命令行终端中运行的智能编程助手,ChatGPT代码解释器的本地化替代方案

GPTme: コマンドライン・ターミナルで動作するインテリジェント・プログラミング・アシスタント、ChatGPTコード・インタープリターのローカライズされた代替品

総合紹介 GPTMeは、開発者の作業効率を向上させるために設計された革新的な端末AIアシスタントツールです。強力なAI機能と端末環境を完璧に組み合わせ、コード実行、ファイル編集、ウェブブラウジング、視覚認識など多様な機能をサポートします。ChatGPTのコード解...
1年前
057.6K
ChatGPT Box:让 ChatGPT 在其他网页工作的浏览器插件

ChatGPT Box: 他のウェブページでChatGPTを動作させるブラウザプラグイン

一般的な紹介 ChatGPT Boxは、ChatGPTをユーザーのブラウザに深く統合するために設計されたオープンソースのブラウザ拡張機能です。josStorerによって開発されたこのツールは、複数の言語をサポートし、任意のページ上でチャットペアを呼び出すなどの様々な機能を提供します...
1年前
057.6K
Thin-Plate-Spline-Motion-Model:静态人像图参考视频人像动作生成视频

薄板-スプライン-モーションモデル:静的ポートレートマップ参考動画 ポートレートモーション生成動画

概論 Thin-Plate-Spline-Motion-Model は、CVPR 2022 で発表された画期的な画像アニメーション生成プロジェクトである。このプロジェクトは、薄板スプライン変換の理論に基づいており、走行映像に基づく静止画から高品質な動きを実現することができる...
1年前
057.6K
InspireMusic:阿里开源的统一音乐、歌曲和音频生成框架

InspireMusic:Aliのオープンソース統合音楽・楽曲・音声生成フレームワーク

一般的な紹介 InspireMusicはPyTorchベースのオープンソースツールキットで、音楽、歌、オーディオの生成に特化しています。高品質なオーディオを生成するための統一されたフレームワークを提供し、テキストキュー、音楽構造、音楽スタイルを制御します。
1年前
057.5K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy:NotebookLMのポッドキャスティング機能に代わるオープンソースの多言語音声会話ツール、マルチソースコンテンツ

一般的な紹介 PodcastfyはオープンソースのPythonパッケージで、生成人工知能(GenAI)技術を使用して、ウェブコンテンツ、PDFファイル、テキスト、画像、YouTube動画、その他多くのソースを魅力的な多言語に変換します。
1年前
057.5K
Agent Laboratory:为研究人员提供自动化代码及研究报告撰写助手

エージェントラボラトリー:研究者のための自動化されたコードとスタディライティングアシスタント

包括的な紹介 エージェントラボラトリーは、研究者の研究アイデアの実現を支援するために設計された、エンドツーエンドの自律的な研究ワークフローです。このシステムは、大規模な言語モデルによって駆動される専用エージェントで構成され、文献調査や計画の立案から実行まで、研究ワークフロー全体をサポートします。
1年前
057.5K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos:オープンソースのスマートAI写真ID作成ツール

包括的な紹介 HivisionIDPhotosは、オープンソースの軽量AI文書写真制作ツールであり、インテリジェントに様々な仕様に沿って標準的な文書の写真を生成するために、ユーザーの写真のシーンとキーイングを識別することができます。このツールは、カスタムの背景色とサイズをサポートし、将来的には、美しさと...
2年前
057.5K
OneLine:生成热点事件时间轴的AI工具

OneLine:注目イベントのタイムラインを生成するAIツール

一般的な紹介 OneLineはGitHubでホストされているオープンソースのホットイベントタイムライン生成ツールで、ユーザーchengtx809によって開発されました。ユーザーによって入力されたキーワードによってイベントのタイムラインを素早く生成し、イベントの時間、タイトル、説明、関連人物を表示します...
12ヶ月前
057.5K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール

包括的な紹介 テキスト抽出API(text-extract-api)は、さまざまな文書形式(PDF、Word、PPTXなど)からコンテンツを抽出し、解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識(OCR)技術とOl...
1年前
057.5K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: 高速でコントロール可能な多言語(7000以上の言語に対応)音声合成ツール

一般的な紹介 IMS Toucanはドイツのシュトゥットガルト大学の自然言語処理研究所(IMS)によって開発された最先端の音声合成(TTS)ツールキットです。このツールキットは7000以上の言語をサポートし、高速で、制御可能で、必要な計算資源が少ない。
1年前
057.5K
Open Operator:通过AI智能体在云浏览器中执行自动化操作

オープン・オペレーター:AIインテリジェンスでクラウド・ブラウザの操作を自動化する

概論 Open Operatorは、AIインテリジェンスによってブラウザの操作を自動化することを目的としたオープンソースプロジェクトである。このプロジェクトはBrowserbaseによって開発され、StagehandとBrowserbaseの技術を組み合わせています...
1年前
057.4K
OmAgent:构建多模态智能设备的智能体框架

OmAgent:マルチモーダル・スマートデバイス構築のための知的身体フレームワーク

包括的な紹介 OmAgentはOm AI Labによって開発されたマルチモーダルインテリジェントボディフレームワークであり、スマートデバイスにAIを搭載した強力な機能を提供することを目的としている。最先端のマルチモーダルベースモデルとインテリジェントボディアルゴリズムを統合することで、開発者は様々なデバイス上で効率的なスマートデバイスを作成することができます。
1年前
057.3K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツール

包括的な紹介 Crawl4LLMは清華大学とカーネギーメロン大学によって共同開発されたオープンソースプロジェクトであり、大規模モデル(LLM)の事前学習のためのウェブクローリングの効率最適化に焦点を当てている。高品質なウェブページデータをインテリジェントに選択することで、非効率なクロールを大幅に削減し、本来1...
1年前
057.3K
TripoSF:快速生成高分辨率3D模型的实用工具

TripoSF:高解像度3Dモデルを迅速に生成する実用的なツール

概論 TripoSFはVAST-AI-Researchチームによって構築されたオープンソースプロジェクトで、特に1枚の画像から高解像度の3Dモデルを素早く生成するように設計されています。SparseFlexと呼ばれる技術を使用しており、処理効率が高く、一般的な...
1年前
057.3K
GaiaNet node:安装和运行自己的本地模型在线代理服务

GaiaNetノード:独自のローカルモデル・オンラインプロキシサービスをインストールし、実行します。

概要 GaiaNet-AI/gaianet-nodeは、Mac、Linux、Windows WSLにデフォルトのノード・ソフトウェア・スタックを1つのコマンドで素早くインストールできるオープンソースプロジェクトです。ユーザはノードの初期化、設定のカスタマイズ、ダウンロード...
2年前
057.3K
3FS:提升数据访问效率的并行文件系统(DeepSeek 开源周第五天)

3FS:データアクセス効率を向上させる並列ファイルシステム(DeepSeek Open Source Week 5日目)

概説 3FS(Fire-Flyer File System)は、DeepSeekチームによって開発されたオープンソースの並列ファイルシステムで、最新のSSDとRDMAネットワーク向けに設計されており、データアクセス効率の飛躍的な向上を目指している。180ノードのクラスタに実装されています。
1年前
057.2K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress:マイクロサービスの管理を簡素化し、セキュリティを強化する効率的なAIゲートウェイ・ソリューションの提供

総合紹介 Higressはアリババが開発したクラウドネイティブなAPIゲートウェイで、IstioとEnvoyをベースに構築され、効率的なトラフィックスケジューリング、サービスガバナンス、セキュリティソリューションを提供するように設計されている。複数のプログラミング言語に対応したWasmプラグイン拡張機能をサポートし、AIビジネス...
1年前
057.2K
RAIN:实时捕捉真人表情生成动漫形象视频流

RAIN:アニメ映像のビデオストリームを生成するためのリアルタイムの人間の表情のキャプチャ

概論 RAIN(Real-time Animation Of Infinite Video Stream)は、無限のビデオストリームのアニメーション効果をリアルタイムで生成するために設計されたオープンソースプロジェクトである。このプロジェクトはPscgylottiによって開発されました。
1年前
057.2K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp:.NETベースのマルチインテリジェンスAI開発・管理プラットフォーム

包括的な紹介 BotSharpは、包括的なAIチャットボットプラットフォーム構築ツールを提供することに特化した、.NET Coreベースのオープンソースプロジェクトです。C#プログラミングを採用し、クロスプラットフォームでの運用をサポートし、機械学習アルゴリズムの適用を簡素化することで、エンタープライズレベルの開発者が効率的に...
1年前
057.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll:個人の健康データ管理のためのAIアシスタント、カスタマイズされた健康計画のための検査レポートのアップロード

概論 OpenHealthForAllは、ユーザーの個人的な健康データの管理と理解を支援するために設計されたオープンソースプロジェクトである。人工知能技術を活用することで、OpenHealthForAllはローカルで動作する健康アシスタントを提供し、ユーザーがより良く管理できるようにします。
1年前
057.1K
Docs:开源的协作笔记和文档管理工具

Docs: オープンソースの共同ノート・文書管理ツール

概要 Docs は、suitenumerique チームによって開発されたオープンソースの共同ノート作成および文書管理プラットフォームです。DjangoとReactの技術を使って構築されており、ユーザーがメモを取ったり、ドキュメントを管理したりするのに役立つ使いやすいツールを提供することを目標としています。
1年前
057.1K
NVIDIA PDF to Podcast:设置引导提示词将PDF转换为播客的AI工具

NVIDIA PDF to Podcast:プロンプトの誘導語を設定してPDFをポッドキャストに変換するAIツール

概論 NVIDIA AI Blueprint: PDF to Podcastは、NVIDIAが開発したオープンソースプロジェクトで、PDFドキュメントを魅力的なオーディオコンテンツに変換します。このプロジェクトは、NVIDIA NIM (NVIDIA AI Blueprint) を活用しています。
1年前
057.1K
DragGAN:交互式图像编辑工具,点选和拖拽控制图像位置

DragGAN: インタラクティブな画像編集ツール、ポイント&クリックとドラッグ&ドロップによる画像位置のコントロール

概要 DragGANは、Generative Adversarial Networks(GAN)をベースとしたインタラクティブな画像編集ツールである。Xingang PanらによってSIGGRAPH 2023で発表され、ポイント・アンド・クリックやドラッグ・アンド・ドロップの簡単な操作で直感的に操作できることを目的としている...
1年前
057.1K
LangManus:支持多智能体协作的开源AI自动化框架

LangManus: マルチインテリジェンス・コラボレーションをサポートするオープンソースのAI自動化フレームワーク

概要 LangManusは、GitHubでホストされているオープンソースのAI自動化フレームワークです。元同僚のグループが余暇を利用して開発したもので、言語モデルとウェブ検索、データクローリング、コード実行のための専門ツールを組み合わせることを目的とした学術的なプロジェクトである。
1年前
057.1K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づいた音声合成機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)が最大の特徴である。開発者のシェルドン・リーがGitHubで作成したもので、...
1年前
057.1K
Vibe Draw:将手绘草图转化为3D模型的创意工具

Vibe Draw: 手描きスケッチを3Dモデルに変換するクリエイティブツール

概要 Vibe Drawは、Martin Sitによって開発されたオープンソースプロジェクトで、手描きのスケッチを美しい3Dモデルに変換することができます。このツールの目的はシンプルで、高度な芸術的スキルやリハーサルがなくても、誰でも簡単に3Dモデリングができるようにすることです。
1年前
057.1K
MoshiVis:实时语音对话和图像理解的开源模型

MoshiVis: リアルタイムの音声対話と画像理解のためのオープンソースモデル

一般的な紹介 MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi speech-to-text model (7Bパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと凍結されたPal...
1年前
057K
NoneBot DeepSeek 插件:基于 NoneBot&DeepSeek 实现客服智能对话

NoneBot DeepSeek Plugin: NoneBotとDeepSeekをベースにしたカスタマーサービス用のインテリジェントな対話。

一般的な紹介 NoneBot DeepSeek プラグインは、DeepSeek モデルを統合し、インテリジェントな対話と Q&A 機能を提供するように設計された NoneBot プラグインです。DeepSeek モデルにアクセスすることで、ユーザは NoneBot ...
1年前
057K
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。
1年前
057K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: オープンソースの無料履歴書ビルダー。

概要 Reactive Resumeは、履歴書の作成、更新、共有のプロセスを簡素化するために設計された、無料でオープンソースの履歴書ビルダーです。このプラットフォームはユーザーのプライバシーを重視しており、ユーザーの追跡や広告は一切ありません。ユーザーは30秒以内にアプリをセルフホストすることができ、自分の履歴書を完全にコントロールすることができます。
1年前
057K
Lecca:无代码构建AI智能体与AI工作流构建平台

Lecca:AIインテリジェンスとAIワークフローを構築する コードなしでプラットフォームを構築する

包括的な紹介 Leccaは、複数のツールやワークフローで大規模言語モデル(LLM)を構成し、デプロイすることができる強力なAIプラットフォームです。ユーザは簡単にAIエージェントを構築、カスタマイズ、自動化することができます。Leccaは幅広いAIプロバイダとモデルを提供しています。
1年前
056.9K
GeminiCoder:基于LlamaCoder项目,使用Gemini API快速生成Web应用程序

GeminiCoder: LlamaCoderプロジェクトに基づき、Gemini APIを使用してWebアプリケーションを素早く生成する。

包括的な紹介 GeminiCoderは、Google Gemini APIに基づいて開発された革新的なWebアプリケーション生成ツールです。このプロジェクトは、LlamaCoderの優れた機能を継承し、最新のGemini 1.5 Prを統合しています。
1年前
056.9K
BrownChat:开源实时语音聊天的AI助手

BrownChat:オープンソースのリアルタイム音声チャットAIアシスタント

概要 BrownChatはLarge Language Modelling (LLM)技術に基づいたリアルタイム音声チャットアプリケーションです。GitHubユーザーのsugarforeverによって開発されたこのプロジェクトは、高度な自然言語処理技術によってユーザーのコミュニケーション体験を向上させることを目的としています。
1年前
056.8K
WikiChat:使用维基百科数据检索知识的聊天工具

WikiChat:ウィキペディアのデータを使って知識を検索するためのチャットツール

概論 ウィキチャットはスタンフォード大学で開発された実験的なチャットボットで、ウィキペディアからデータを取得することで、大規模言語モデルの事実性を向上させることを目的としている。大規模言語モデル(ChatGPTやGPT-4など)は、最新の情報や人気のないトピックを処理する傾向があります。
1年前
056.8K
FantasyTalking:生成真实感说话肖像的开源工具

FantasyTalking: リアルな似顔絵を生成するオープンソースツール

一般的な紹介 FantasyTalkingは、Fantasy-AMAPチームによって開発されたオープンソースプロジェクトで、オーディオドライブを通してリアルなトーキングポートレート動画を生成することに焦点を当てています。このプロジェクトは、高度なビデオ拡散モデルWan2.1とオーディオエンコーダWa...
11ヶ月前
056.7K
OpenSumi Lite:纯前端IDE解决方案,轻松实现代码查看与编辑

OpenSumi Lite: 簡単なコード表示と編集のための純粋なフロントエンドIDEソリューション

概要 OpenSumi Liteは、OpenSumiプロジェクトに基づく純粋なフロントエンドIDEソリューションで、Node.js環境を必要とせずにコードの表示と編集機能を提供するように設計されています。このプロジェクトはAlibaba GroupとAnt Groupによって共同開発され、Node.js環境なしでコード閲覧、編集機能を提供します。
1年前
056.7K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。

一般的な紹介 OmniParserは、ユーザーインターフェースのスクリーンショットを構造化された理解しやすい要素に解析するためにMicrosoftによって開発されたツールです。このツールは、GPT-4Vが対応するインターフェイス領域に正確なアクションを生成する能力を大幅に向上させます。
1年前
056.7K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic:AIを搭載したオープンソース検索エンジン、スマートなQ&A、動画検索、UIコードの生成を提供

一般的な紹介 MorphicはAI技術に基づいた検索エンジンで、インテリジェントなQ&Aと効率的な検索体験を提供するように設計された生成的なユーザーインターフェースを持つ。ユーザーはMorphicでテキスト、動画など様々な検索を行うことができ、検索履歴の保存や検索結果の共有が可能です。
1年前
056.7K
WhisperChain:实时语音转文字并优化口语化词语

WhisperChain:リアルタイム音声テキスト化と話し言葉の最適化

概論 WhisperChainはGitHubでホストされているAIベースのオープンソースプロジェクトで、開発者のクリス・チョイが主導している。主に音声をテキストに変換し、AI技術によって自動的に表現を最適化し、冗長な部分を削除するために使用される。
1年前
056.6K
Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

Vision Parse: 視覚言語モデルを用いたPDFドキュメントのMarkdownフォーマットへのインテリジェント変換

包括的な紹介 Vision Parseは画期的な文書処理ツールで、最先端の視覚言語モデル(Vision Language Models)技術と、PDF文書を高品質のMarkdown形式にインテリジェントに変換する機能を巧みに組み合わせています...
1年前
056.6K