AIオープンソースプロジェクト

合計1020記事
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: ツリーベースの会話を可視化するAIチャットインターフェース

概要 TreeGPTは、Next.jsをベースとしたオープンソースのチャットアプリケーションです。大規模な言語モデル(LLM、GPTなど)の会話を、ツリーグラフ構造(有向非循環グラフ、DAG)を通して可視化することに重点を置き、従来の直線的なチャット手法に取って代わることで、スピードと...
6ヶ月前
03K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: 複数のAIモデルを簡単に統合し、Gradioに基づいたマルチモーダル・アプリケーションを構築する

概論 ai-gradioはオープンソースのPythonツールキットで、開発者が複数のAIモデルを簡単に統合して使用できるように設計されています。Gradio上に構築されたこのプロジェクトは、複数のAIモデルとサービスをサポートするための統一されたインターフェースを提供します。テキスト、音声、動画のいずれでも...
6ヶ月前
03K
ComfyUI disty Flow:为 ComfyUI 提供友好的用户界面,简化工作流程

ComfyUI disty Flow: ワークフローを効率化するComfyUIのユーザーフレンドリーなインターフェース

概要 ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ComfyUI-disty-Flowは、ComfyUIにユーザーフレンドリーなインターフェースを提供するカスタムノードです。ワークフローの作成に代わるユーザーインターフェースを提供することで、ワークフローの実行を簡素化することを目的としています。
7ヶ月前
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit:画像修復・編集のオールインワンツール、テンセントアークがリリース

総合紹介 BrushEditは、Tencent ARC Labsが開発したオールインワンの画像修復・編集ツールです。このツールは最新のAI技術に基づいており、画像の欠陥を自動的に識別して修復することができ、ユーザーによるインタラクティブな編集もサポートしています。
8ヶ月前
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

ソニック:音声でポートレート画像を生成し、生き生きとした表情のデジタルデモ映像を制作

概要 Sonicは、グローバルな音声知覚に焦点を当てた革新的なプラットフォームであり、音声によって駆動される鮮やかなポートレートアニメーションを生成することを目的としている。テンセントと浙江大学の研究チームによって開発されたこのプラットフォームは、音声情報を使って表情や頭の動きを制御し、自然で滑らかなアニメーション動画を生成する。
4ヶ月前
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT:ジェミニ・モデルを使用して、ワンクリックで短いナレーション付きビデオや長いビデオの要約ビデオを作成する。

包括的な紹介 AI2SRTは、GeminiAIのビッグモデルを使用して、ワンクリックで短いナレーション付きビデオと長いビデオのビデオ要約を生成し、音声とビデオの書き起こし字幕をサポートするオープンソースプロジェクトです。このプロジェクトは、ビデオコンテンツの作成プロセスを簡素化し、効率的な字幕生成と翻訳機能を提供することを目的としています。ユーザーは、字幕を作成した後、その字幕を字幕翻訳ソフトに渡すことができます。
8ヶ月前
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer:DeepSeek APIに基づく実験的なコーディングアシスタント。

概要 DeepSeek Engineerは、DeepSeek APIに基づく強力なプログラミングアシスタントツールで、直感的なコマンドラインインタフェースを通じてユーザーと対話し、さまざまなソフトウェア開発タスクを支援します。このツールは、大規模な言語モデリングと実...
6ヶ月前
02.9K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: 大規模モデルの微調整による知的身体推論と意思決定の強化

概論 OpenManus-RLは、UIUC-UlabがMetaGPTコミュニティのOpenManusチームと共同で開発したオープンソースプロジェクトであり、GitHubでホストされている。このプロジェクトは、強化学習(RL)技術によって大規模言語モデリング(LLM)を強化する...
5ヶ月前
02.9K
Markdown To Poster:将Markdown转换为社交媒体/小红书海报,支持在线编辑和一键部署。

Markdown To Poster: オンライン編集とワンクリック配備サポートで、Markdownをソーシャルメディアや小赤字ポスターに変換します。

概要 Markdown to Imageは、Markdownテキストを視覚的に魅力的なソーシャルメディア画像にレンダリングするためのReactコンポーネントです。このプロジェクトには、オンラインのMarkdown to posterエディタとして使用できる組み込みのWebエディタも含まれています...
9ヶ月前
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG:検索機能拡張生成システムの最適化のための視覚的評価ツール

包括的な紹介 XRAG(eXamining the Core)は、高度な検索機能拡張生成(RAG)システムの基本コンポーネントを評価するために設計されたベンチマークフレームワークです。各コアモジュールのプロファイリングと分析により、XRAGは、異なる構成やコンポーネントがRAGにどのような影響を与えるかについての情報を提供します。
7ヶ月前
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: 実験的音声合成モデル、純粋な言語モデリングアプローチで実装されたTTS

包括的な紹介 OuteTTSは、純粋な言語モデリングアプローチを用いて高品質の音声を生成する、実験的な音声合成(TTS)モデルです。従来のTTSシステムとは異なり、OuteTTSは外部アダプターや複雑なアーキテクチャを必要としません。このモデルは、LLaMaアーキテクチャに基づいています。
6ヶ月前
02.9K
Supermemory:导入书签和网页内容构建个人知识库

スーパーメモリー:ブックマークやウェブコンテンツをインポートして個人の知識ベースを構築する

概論 Supermemoryは、ユーザーが「第二の脳」を構築することを支援するために設計されたオープンソースプロジェクトである。強力なChrome拡張機能とAI技術により、ユーザーはウェブページやTwitterのブックマークから簡単にデータを保存、整理、取得することができます。
6ヶ月前
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: オープンソース ゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。
10ヶ月前
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: ネイティブLLM駆動のVimプログラミングアシスタント。

概要 VimLMは、ネイティブのLLM(Large Language Model)によって駆動されるコードアシスタントを提供するVimプラグインです。Vim コマンドを通してネイティブの LLM モデルと対話することで、コードのコンテキストを自動的に取得し、Vim でのコード編集を支援します。
6ヶ月前
02.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): ローカルリアルタイム音声AIアシスタント、オープンソース版Siri

はじめに Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブな「聞き取り」機能で拡張することを目的としています。このプロジェクトでは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。
7ヶ月前
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

包括的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、首尾一貫した、ダイナミックでスケーラブルな長い動画を生成することに焦点を当てています。この技術は、説明文と動画の時間的整合性を保証する高度な自己回帰的アプローチを使用しています。
9ヶ月前
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。
6ヶ月前
02.9K
Agentarium:複数のAIインテリジェンス間の相互作用の管理と調整

Agentarium:複数のAIインテリジェンス間の相互作用の管理と調整

概要 Agentariumは、AIインテリジェントエージェント(Agent)の管理とオーケストレーションに特化した強力なPythonフレームワークです。このフレームワークは、複数のAIエージェント間のインタラクションを作成、管理、オーケストレーションするための柔軟で直感的な方法を提供します。A...
7ヶ月前
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP: インテリジェントエージェント間の安全で効率的な通信のためのオープンソースプロトコル

概要 AgentNetworkProtocol(略してANP)は、GitHubでホストされているオープンソースのプロトコルプロジェクトで、インテリジェントエージェント(AIエージェント)に安全で効率的な通信ソリューションを提供することに焦点を当てている。このプロトコルは、アイデンティティと暗号化という3つのレイヤーから構成されています。
5ヶ月前
02.9K
RAIN:实时捕捉真人表情生成动漫形象视频流

RAIN:アニメ映像のビデオストリームを生成するためのリアルタイムの人間の表情のキャプチャ

概論 RAIN(Real-time Animation Of Infinite Video Stream)は、無限のビデオストリームのアニメーション効果をリアルタイムで生成するために設計されたオープンソースプロジェクトである。このプロジェクトはPscgylottiによって開発されました。
7ヶ月前
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor:GitHubのための知識ベース+LLM駆動インテリジェントコードレビューメンター

包括的な紹介 CR-Mentorは、専門的な知識ベースと大規模言語モデリング(LLM)のパワーを組み合わせたインテリジェントなコードレビューツールです。すべてのプログラミング言語のコードレビューをサポートするだけでなく、ナレッジベースに蓄積されたベストプラクティスに基づき、チーム専用のレビュー基準やフォーカスエリアをカスタマイズします。ナレッジベースを通じて...
9ヶ月前
02.9K
Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

Open-LLM-VTuber:リアルタイム音声対話のためのLive2DアニメーションAIバーチャルコンパニオン

概論 Open-LLM-VTuberは、音声とテキストを通してユーザーが大規模言語モデル(LLM)と対話することを可能にするオープンソースプロジェクトであり、ダイナミックなバーチャルキャラクターを提示するためにLive2D技術を組み込んでいます。Windows、macOS、Linuxをサポートし、完全に...
5ヶ月前
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: Smart Spectrumのグラフィカル・インターフェース自動化のためのオープンソースのインテリジェント視覚言語モデル

包括的な紹介 CogAgentは清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースの視覚言語モデルであり、プラットフォーム間のグラフィカルユーザインタフェース(GUI)操作の自動化を目的としている。このモデルはCogVLM(GLM-4V-9B)をベースにしており、中国語と英語の二ヶ国語をサポートしている。
8ヶ月前
02.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT: FastAPIベースのPDF文書処理とQ&Aシステム

一般的な紹介 FastAPI DocGPTは、FastAPIベースのドキュメントクイズシステムで、ユーザがPDFファイルをアップロードし、ドキュメントの内容に基づいてクイズを受けることができます。このシステムは、OpenAIのエンベッディング技術を利用して、ドキュメントのコンテンツをベクターデータベースのQ...
9ヶ月前
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock:AI対応株式分析ツール、自分で選んだ株価のリアルタイム監視とAIに基づく詳細分析

総合紹介 go-stockはWailsとNaiveUIで構築されたAI対応株式分析ツールです。このツールは株価のリアルタイム監視が可能で、コストと損益表示、上下アラームプッシュ機能を提供します。すべてのデータはローカルに保存され、ユーザ...
6ヶ月前
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Webサイトのコンテンツを素早くキャプチャし、LLMトレーニング用テキストデータセットを生成します。

包括的な紹介 llmstxt-generatorは、大規模言語モデリング(LLM)の訓練と推論のための高品質のテキストデータセットを準備するための専門的なウェブコンテンツ抽出と統合ツールです。このツールはMendable AIによって開発され、@firec...
7ヶ月前
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: Ollamaバックエンドにネイティブに統合されたエンドポイントベースのミニマルなAIチャットツール

概要 Charlaはエンドポイントベースのチャットアプリケーションで、ネイティブ言語モデルとの対話ができるように設計されています。このアプリケーションはOllamaバックエンドと統合され、コンテキストを考慮した対話をサポートし、チャットセッションをMarkdownファイルとして保存します。ユーザーは単に...
7ヶ月前
02.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: XユーザーデータとツイートのためのTwitterデータクロールとアナリティクス

概要 X-Kitは、X(旧Twitter)のユーザーデータやツイートをクロールして分析するために設計されたオープンソースツールです。GitHubユーザーのxiaoxiuniqueによって開発されたこのツールは、ユーザーが任意のXユーザーに関する基本的な情報やツイートを取得するプロセスを自動化するために設計されています。
8ヶ月前
02.9K
code2prompt:将代码库转换为大模型可理解的prompt文件

code2prompt: コードライブラリをビッグモデルで理解可能なプロンプトファイルに変換する

一般的な紹介 code2promptは、開発者Mufeed VHによって作成され、GitHub上でホストされているオープンソースのコマンドラインツールで、ユーザーがコードベース全体をLarge Language Model(LLM)に適したプロンプト(プロンプト...
5ヶ月前
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: 視覚言語モデルの汎化能力のための低コスト強化学習

包括的な紹介 R1-Vは、低コストの強化学習(RL)を通して視覚言語モデリング(VLM)のブレークスルーを達成することを目的としたオープンソースプロジェクトです。このプロジェクトは、VLMが一般的な計数能力を学習する動機付けとなる、検証可能な報酬メカニズムを利用している。驚くべきことに、R1-Vの2B ...
6ヶ月前
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio:マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語、中国語、英語、日本語)をサポートしています。
6ヶ月前
02.9K
XDOllama:适用于MacOS上快速调用Ollama\Dify\Xinference的AI模型界面。

XDOllama: MacOS上でOllamaを素早く呼び出すためのAIモデル・インターフェース。

概要 XDOllamaは、Ollama、Dify、XinferenceなどのAIモデルを素早く呼び出すためにMacOSユーザー向けに設計されたデスクトップアプリケーションです。簡素化されたインターフェースとワークフローにより、このアプリケーションを使用すると、...
9ヶ月前
02.9K
Laminar:开源AI产品工程化平台,轻松实现数据可视化追踪与评估

Laminar: オープンソースのAIプロダクトエンジニアリングプラットフォーム。

包括的な紹介 Laminarは、第一原理からのAIエンジニアリングに焦点を当てた、オープンソースのAIエンジニアリング最適化プラットフォームです。LLM(大規模言語モデリング)アプリケーションの品質を向上させるために、ユーザーがデータを収集、理解、利用することを支援します。Laminarは、包括的な観測可能性、テキスト...
8ヶ月前
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm:軽量なマルチインテリジェント身体システムを学習するための実験的教育プロジェクト(OpenAIの例)

一般的な紹介 SwarmはOpenAIによって開発された実験的な教育用フレームワークで、マルチエージェントシステムの軽量で、制御可能で、テストが容易なインターフェースを探求するためのものです。このフレームワークは、主にエージェント間のハンドオフとルーチンパターンを実証するために使用され、開発者がマルチエージェントシステムの調整と実行を理解し、実装するのに役立ちます...
7ヶ月前
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: Self-Supervised Hierarchical Makeup Transfer Model, バーチャルメイク, 新しいポートレートへのメイクの移行

包括的な紹介 SHMT(Self-supervised Hierarchical Makeup Transfer)は、潜在拡散モデルに基づく自己教師ありの階層的メイクアップ移行プロジェクトであり、教師なし学習方法によってメイクアップ効果の高品質を実現することを目的としている...
7ヶ月前
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension:AIが生成したコンテンツをワンクリックでセルフパブリッシング・プラットフォームに同期するブラウザ拡張機能

概要 MultiPost-Extensionは、ユーザーがワンクリックで複数のソーシャルメディアプラットフォームにコンテンツを公開できるように設計された強力なブラウザ拡張機能です。この拡張機能は、Zhihu、Weibo、Xiaohongshu、TikTok ... を含む10以上の主要プラットフォームへの同時投稿をサポートしています。
6ヶ月前
02.9K
AI Video Starter Kit:在浏览器中全流程创作并编辑AI视频

AIビデオ・スターター・キット: ブラウザ上でAIビデオの作成と編集がフルフローで可能

概論 ビデオ・スターター・キット(Video Starter Kit)は、fal-ai-communityによって公開されたオープンソースプロジェクトで、ブラウザでのビデオ制作にAIモデルを使用する方法を示すものです。画像を動画に変換するためのツールを提供しています。
7ヶ月前
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: 外部リアルタイム知識グラフデータに依存するLLM推論サービス

包括的な紹介 Diffbot LLM Reasoning Server は LLama モデルアーキテクチャに基づいた特別な最適化と改良が施された革新的な大規模言語モデリングシステムです。このプロジェクトの最も重要な特徴は、リアルタイムナレッジグラフと検索を強化した生成の統合です...
7ヶ月前
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: 効率的な数学的推論とコード生成のための小さなオープンソースモデル

一般的な紹介 MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習された強力な化学モデル(Strong Chemical)を含んでいます。
3ヶ月前
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest:世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。
10ヶ月前
02.9K
Translation Agent WebUI:吴恩达翻译智能体界面版,提供多种翻译API和Gradio界面

翻訳エージェントWebUI: 呉エンダ翻訳インテリジェンスボディインタフェースバージョン、様々な翻訳APIとグラディオインタフェースを提供します。

概要 翻訳エージェントWebUIは、Andrewyngの翻訳エージェントのために設計されたGradioベースのWebユーザーインターフェイスです。このツールは、自動的に送信を検出することができます...
8ヶ月前
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: オープンソースの無料履歴書ビルダー。

概要 Reactive Resumeは、履歴書の作成、更新、共有のプロセスを簡素化するために設計された、無料でオープンソースの履歴書ビルダーです。このプラットフォームはユーザーのプライバシーを重視しており、ユーザーの追跡や広告は一切ありません。ユーザーは30秒以内にアプリをセルフホストすることができ、自分の履歴書を完全にコントロールすることができます。
8ヶ月前
02.9K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

クアンタ・クエスト:エンドサイドのビッグモデルと個人データのためのローカライズされたAI検索プラットフォーム(プレビュー)

はじめに Quanta Questは、「エンド側ビッグモデル+C側データローカリゼーション」をコア進化の方向とする世界初の製品です。Gmail、Notion、Dropboxなどのデータをローカルに保存し、ベクターデータベースで処理することで、...
10ヶ月前
02.9K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme:ローカルの忠実度の高い表現アクション一貫性のある画像やビデオを生成、Runway Act oneオープンソースピンポン!

包括的な紹介 HelloMemeはHelloVisionによって開発されたオープンソースプロジェクトであり、空間編み目アテンションを統合することによって、拡散モデルに高レベルで忠実なストリップを埋め込むことを目的としている。
8ヶ月前
02.9K
RF-DETR:实时视觉对象检测开源模型

RF-DETR:リアルタイム視覚物体検出のためのオープンソースモデル

包括的な紹介 RF-DETRはRoboflowチームによって開発されたオープンソースの物体検出モデルです。RF-DETRはTransformerアーキテクチャをベースにしており、リアルタイム性を特徴としています。このモデルはMicrosoft COCOデータセット上で初めて60APs以上のリアルタイム性を達成した。
5ヶ月前
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic:AIを搭載したオープンソース検索エンジン、スマートなQ&A、動画検索、UIコードの生成を提供

一般的な紹介 MorphicはAI技術に基づいた検索エンジンで、インテリジェントなQ&Aと効率的な検索体験を提供するように設計された生成的なユーザーインターフェースを持つ。ユーザーはMorphicでテキスト、動画など様々な検索を行うことができ、検索履歴の保存や検索結果の共有が可能です。
9ヶ月前
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

アグリゲーター:エージェントのクロールとアグリゲーションのワンストッププラットフォーム。

包括的な紹介 Aggregatorは、利用可能なプロキシノードの様々なクロールすることができます無料のプロキシプールを作成することを目的としたオープンソースのプロジェクトです。このプラットフォームは、柔軟なプラグインシステムを持って、ユーザーが特定の機能を実現するためにプラグインを介して、ターゲットサイトの特別なニーズに応じてすることができます。プロジェクトは、主にクロールすることを学ぶために使用されている...
9ヶ月前
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp:.NETベースのマルチインテリジェンスAI開発・管理プラットフォーム

包括的な紹介 BotSharpは、包括的なAIチャットボットプラットフォーム構築ツールを提供することに特化した、.NET Coreベースのオープンソースプロジェクトです。C#プログラミングを採用し、クロスプラットフォームでの運用をサポートし、機械学習アルゴリズムの適用を簡素化することで、エンタープライズレベルの開発者が効率的に...
7ヶ月前
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite: 統一されたOpenAIインターフェーススタイルで複数のビッグモデルを呼び出し、高速なモデル切り替えと比較テストを実現

包括的な紹介 aisuiteは、開発者が複数の生成AIプロバイダーのサービスを簡単に呼び出せるように設計された、シンプルで統一されたインターフェースです。OpenAIに似たインターフェースを持つaisuiteは、最も人気のあるLLM(大規模言語モデル)との対話を容易にします...
9ヶ月前
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: PPTプレゼンテーション、ドキュメントからPPTへの自動生成と評価

概要 PPTAgentは、ドキュメントからプレゼンテーションを自動生成する革新的なシステムです。このシステムは、プレゼンテーションの作成における人間のアプローチを取り入れ、コンテンツの品質と視覚的なインパクトを確保するための2段階のプロセスを採用しています。さらに、PPTAgentはPPTEvalを導入しています。
7ヶ月前
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot:テキスト記述生成のためのAIアシスタント ComfyUIワークフロー

包括的な紹介 ComfyUI-Copilotは、ComfyUIフレームワークのために設計されたAI駆動のカスタムノードで、自然言語対話を通じてAIアルゴリズムのデバッグとデプロイの効率を向上させることを目的としています。AIDC-AIチーム(Alibaba)によって開発され、GitHu...
6ヶ月前
02.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

アウトライン: 正規表現、JSON、Pydanticモデルによる構造化テキスト出力の生成

概説 Outlinesは、構造化テキスト生成を通じて大規模言語モデル(LLM)のアプリケーションを強化するために、dottxt-aiによって開発されたオープンソースライブラリです。このライブラリは、OpenAIやトランスフォーマーなど、様々なモデルの統合をサポートしています。
6ヶ月前
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール

一般的な紹介 チャットログはWeChatのローカルデータベースからチャットログを抽出し、照会することに特化したオープンソースツールです。WeChatバージョン3.xと4.0をサポートし、WindowsとmacOSの両システムをカバーしています。ユーザーは、コマンドライン、ターミナルインターフェース、またはH...
4ヶ月前
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree:地域の知識ベースと検索情報を混合するAI検索エンジン

概要 MemFreeは、テキスト、画像、文書、ウェブページを検索し、質問することができる高度なハイブリッドAI検索エンジンです。テキスト、マインドマップ、画像、動画の検索結果にワンクリックでアクセスすることができます。MemFreeは、ユーザーの知識ベースから情報を抽出し、...
10ヶ月前
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow:100行のコードでAIアプリケーションを開発するための最小限のフレームワーク

総合紹介 PocketFlowは、The-Pocketチームによって開発され、GitHub上でオープンソース化された、わずか100行のコードからなる軽量なAIアプリケーション開発フレームワークです。ミニマリストデザインを追求し、100行のコアコード制御、外部依存なし...
5ヶ月前
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni:マルチモーダル入力とリアルタイム音声対話のためのエンド計測モデル

包括的な紹介 Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、リアルタイムでテキストや自然な音声による応答を生成することができる。このモデルは2025年の3 ...
5ヶ月前
02.9K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: 複数のデータソースを単一のテキストファイルに統合

包括的な紹介 OneFileLLMは、大規模言語モデル(LLM)に簡単に入力できるように、複数のデータソースを単一のテキストファイルに統合するために設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプション、Web...
4ヶ月前
02.9K
Go-Proxy:Docker集成的高性能反向代理服务器

Go-Proxy:Docker統合のための高性能リバースプロキシサーバー

包括的な紹介 Go-ProxyはGo言語を使って開発された高性能なプロキシサーバーで、主にさまざまなネットワーク環境でプロキシサービスを提供するために使用されます。HTTP、HTTPS、SOCKS5、WebSocket、TCP、UDPを含む様々なプロトコルをサポートし、プロキシサーバーとして使用することができます。
6ヶ月前
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

タンクワーク:音声とテキストでコンピュータを操作し、リアルタイムの音声フィードバックを提供する知的ボディ

概論 TankWorkはオープンソースのデスクトップエージェント・フレームワークで、コンピュータビジョンとシステムレベルのインタラクションを通じて、AIがコンピュータを認識し制御できるように設計されています。このフレームワークは、エージェントが音声やテキストコマンドでコンピュータを直接制御し、リアルタイムのスクリーンコンテンツを処理し、継続的なオーディオビジュアルを提供することを可能にします。
7ヶ月前
02.9K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI:オープンソースの軽量AIツール・ナビゲーション・プロジェクト

包括的な紹介 Tap4 AI WebUIは、オープンソースの軽量AIツールナビゲーションウェブサイトプロジェクトです。このプロジェクトは、Next.jsとSupabaseテクノロジースタックを使用し、多言語SEO最適化をサポートし、AIツールカタログを提供します。
10ヶ月前
02.9K
Stagehand:自然语言实现浏览器自动化操作框架

Stagehand: ブラウザオートメーション操作の自然言語実装フレームワーク

一般的な紹介 Stagehand は、シンプルさと拡張性に重点を置いた AI ウェブブラウジングフレームワークである。Playwrightと完全に互換性があり、3つのシンプルなAI API(act、extract、observe)を提供する。
7ヶ月前
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell):少ないサンプルで多言語の音声クローニングが可能

概論 OpenVoiceは、リファレンススピーカーの音声をコピーし、スピーカーの短いオーディオクリップのみを使用して多言語音声を生成することができる、インスタントスピーチクローニングの多用途な方法です。OpenVoiceでは、音色のコピーだけでなく、感情的な表現など、声のスタイルを細かくコントロールすることができます。
10ヶ月前
02.9K
Orama:高性能全文本和向量搜索引擎

Orama:高性能な書籍・ベクトル全文検索エンジン

概説 Oramaはオープンソースの高性能検索エンジンで、すべてTypeScriptで記述されており、全文検索、ベクトル検索、ハイブリッド検索をサポートしている。OramaはあらゆるJavaScript実行環境で動作するように設計されており、高速で信頼性の高い検索を提供する。
7ヶ月前
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat:カスタムイメージとトーンクローニングによるリアルタイムの音声対話型デジタルパーソンは、エンドツーエンドの音声ソリューションとカスケードソリューションをサポートします。

概要 VideoChatは、オープンソース技術に基づくリアルタイム音声対話デジタルパーソンプロジェクトで、エンドツーエンドの音声スキーム(GLM-4-Voice - THG)とカスケードスキーム(ASR-LLM-TTS-THG)の両方をサポートしています。このプロジェクトでは、ユーザーがデジタルパーソンをカスタマイズすることができます。
9ヶ月前
02.9K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: GeminiモデルAPIはOpenAIフォーマットと互換性があり、リージョン制限を解除し、マルチAPIキーポーリングをサポートする。

包括的な紹介 Gemini Balanceは、FastAPIフレームワークに基づいて開発されたOpenAI APIプロキシサービスで、効率的なマルチAPI Key管理と最適化機能を提供することを目的としている。このプロジェクトはGeminiモデルコールをサポートしており、主な機能にはマルチAPI...
4ヶ月前
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: 高品質な結果を出すために、出力をレビュー、検証、フォーマットするマルチロールインテリジェンス

包括的な紹介 Kheishは、構造化されたステップバイステップのコラボレーションを必要とする大規模言語モデリング(LLM)タスクのために設計されたオープンソースのマルチロールエージェントです。Kheishは単なるコーディネータではなく、それ自体がインテリジェントなエージェントであり、要求に応じてモジュールを要求し、ユーザーの反転を統合します。
7ヶ月前
02.8K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser:マウスアクションをAI経由でSelenium Pythonスクリプトに変換するブラウザ自動化コードの生成

概要 AutoMouserは、ユーザーのインタラクションをインテリジェントに追跡し、OpenAIのGPTモデルを使用してSeleniumテストコードを自動的に生成するChrome拡張機能です。ユーザーのブラウザ操作を記録し、それを変換することでテストコードを生成します。
7ヶ月前
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

エグゼクティブAIアシスタント:AIエグゼクティブアシスタント、電子メールを読むためのリマインダー、仕事のスケジュールを計画する

概要 エグゼクティブAIアシスタント(EAIA)は、ユーザーの日常業務を自動化・管理するために設計されたAIベースのアシスタントツールである。LangChain社によって開発されたこのツールは、Eメール、スケジュール管理、タスク管理などを行うことができます。
7ヶ月前
02.8K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPTエージェント:複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...
6ヶ月前
02.8K
AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

AnkiAIUtils:メモリーカードを自動的に最適化する知的アシスタント、Ankiフラッシュカード学習AIツールセット

概要説明 AnkiAIUtilsは、フラッシュカード学習システムAnkiのために設計されたAI強化ツールのセットです。医学生によって開発されたこのツールは、AI技術により、学習中にユーザーが苦手とするカードを自動的に改善するように設計されています。ユーザーにパーソナライズされた学習をインテリジェントに提供します。
7ヶ月前
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress:マイクロサービスの管理を簡素化し、セキュリティを強化する効率的なAIゲートウェイ・ソリューションの提供

総合紹介 Higressはアリババが開発したクラウドネイティブなAPIゲートウェイで、IstioとEnvoyをベースに構築され、効率的なトラフィックスケジューリング、サービスガバナンス、セキュリティソリューションを提供するように設計されている。複数のプログラミング言語に対応したWasmプラグイン拡張機能をサポートし、AIビジネス...
9ヶ月前
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

信頼できるAI:自動化された大規模言語モデル評価のためのフレームワーク。

包括的な紹介 DeepEvalは、大規模な言語モデリングシステムを評価およびテストするための、使いやすいオープンソースのLLM評価フレームワークです。Pytestに似ていますが、LLM出力のユニットテストに重点を置いています。DeepEvalは、G-Eval、ファントム...
6ヶ月前
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-プレビュー:リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル

SpeechGPT2.0-previewは、OpenMOSSが初めて導入した擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。このシステムは、擬人化された音声表現と100msの低遅延応答を備え、自然でスムーズなリアルタイム...
6ヶ月前
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS:実際の人の話し声を模倣した音声生成モデル(ChatTTSワンクリックアクセラレーションパッケージ)

一般的な紹介 ChatTTSは対話シナリオ用に設計された生成音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。このモデルは、笑い、ポーズ、間投詞のようなきめ細かなリズムの特徴を予測し、制御することで、対話に適した音声を生成します。
6ヶ月前
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive:教師なしライブ録画、自動スライス、B局用アップロードツール

総合紹介 biliveはB局ライブ録画のために設計されたツールで、非常に高速なライブ録画、自動スライシング、ポップアップレンダリング、字幕生成を提供します。このツールは、超低構成マシンに対応し、7x24時間の無人録画をサポートし、自動的にポップアップと字幕を識別してレンダリングし、自動的にスライスして...
6ヶ月前
02.8K
OpenAI WebRTC Python:与OpenAI实时API进行语音交互的Python库

OpenAI WebRTC Python: OpenAIリアルタイムAPIと音声対話するためのPythonライブラリ

包括的な紹介 OpenAI Realtime WebRTC Pythonは、OpenAI Realtime APIを使った音声インタラクションの完全なソリューションを開発者に提供する、プロフェッショナルなPythonライブラリです。このプロジェクトは、低遅延を可能にするWebRTC技術に基づいています...
7ヶ月前
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: データクリーニング効率を向上させるセマンティックテキスト重複排除の高速実装

包括的な紹介 SemHashは、意味的類似性によってデータセットの重複を除去するための軽量で柔軟なツールです。Model2Vecの高速な埋め込み生成と、Vicinityの効率的なANN(近似最近傍)類似検索を組み合わせています。
7ヶ月前
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: リアルタイムのエンドツーエンド音声対話のための音声マルチモーダル・マクロモデル、GPT-4o音声対話のオープンソース実装

包括的な紹介 Ultravoxは、リアルタイム音声処理のために設計された革新的なマルチモーダル大規模言語モデル(LLM)です。従来の音声認識システムとは異なり、Ultravoxは音声認識(ASR)ステージを別途用意する必要がなく、音声を直接高次元空間に...
8ヶ月前
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow:Racerが発表した "Kringle "のオープンソース版で、SD3をベースとし、8GB未満のGPUで動作する(ワンクリックデプロイメント版)。

総合紹介 ピラミッドフローは、フローマッチング技術に基づく効率的な自己回帰的映像生成手法である。この手法は、異なる解像度とノイズレベルの間を補間することで、映像コンテンツの生成と伸長において高い計算効率を達成する...
9ヶ月前
02.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything(Question and Answer based on Anything)は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。
11ヶ月前
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI:ノードワークフローを迅速に作成するオープンソースエンジン

包括的な紹介 Flowgram.aiは、ByteDanceによって開発されたオープンソースのプロセス構築エンジンです。ノード編集をベースとしており、開発者がワークフローを素早く作成できるよう、固定レイアウトとフリーリンクの2つのモードをサポートしている。プロジェクトはTypeScriptで書かれている。
5ヶ月前
02.8K
Devin Cursor Rules:让Cursor和Windsurf 强化为 Devin

デビン・カーソルルール:デビンのために強化されたカーソルとウィンドサーフを作る

概要 Devin Cursor Rulesは、CursorおよびWindsurf統合開発環境(IDE)を、Devinと同様の高度なAI機能を実現するための設定ファイルやツールで拡張することを目的としたオープンソースプロジェクトです。このプロジェクトでは、Devinと同様の高度なAI機能を実現するための設定ファイルやツールを提供しています。
7ヶ月前
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision:マルチモーダル推論をサポートするオープンソースの視覚言語モデル

包括的な紹介 R1-Onevisionは、Fancy-MLLMチームによって開発されたオープンソースのマルチモーダル・マクロ言語モデルです。視覚と言語の深い組み合わせに焦点を当て、画像やテキストなどのマルチモーダル入力を処理し、視覚的推論、画像理解、数学的解決などの分野で活躍することができます。
5ヶ月前
02.8K
GeminiCoder:基于LlamaCoder项目,使用Gemini API快速生成Web应用程序

GeminiCoder: LlamaCoderプロジェクトに基づき、Gemini APIを使用してWebアプリケーションを素早く生成する。

包括的な紹介 GeminiCoderは、Google Gemini APIに基づいて開発された革新的なWebアプリケーション生成ツールです。このプロジェクトは、LlamaCoderの優れた機能を継承し、最新のGemini 1.5 Prを統合しています。
8ヶ月前
02.8K
DataLine:AI数据分析与可视化客户端,快速生成图表和报告

DataLine: 迅速なチャートとレポート作成のためのAIデータ分析・可視化クライアント

概要 DataLineは、様々なデータソースを簡単な操作で操作できるように設計された、強力なAIデータ分析・可視化ツールです。CSVファイルであろうと、Postgres、MySQL、Snowflake、SQL...といった主流のデータベースであろうと。
6ヶ月前
02.8K
CoolCline:又一个增强版Cline智能编码助手,结合ClineRoo Cline和Bao Cline的优点

クールクライン:クラインのインテリジェント・コーディング・アシスタントの改良版で、クラインルー・クラインとバオ・クラインの利点を組み合わせたもの。

一般的な説明 CoolClineは、Cline、Roo Cline、Bao Clineの最高の機能を組み合わせた強力なコーディングアシスタントです。コマンドラインインターフェイス(CLI)やエディタとシームレスに動作し、最もパワフルな...
7ヶ月前
02.8K
Kilo Code:具有简洁使用体验的Roo Code分支

キロ・コード:クリーンなユーザー・エクスペリエンスを備えたルー・コードのブランチ

一般的な紹介 キロコードは、Visual Studio Code(略してVS Code)のオープンソース拡張プラグインです。人工知能技術を使って、ユーザーがより効率的にコードを書けるようにする。このプロジェクトはKilo-Orgチームによって開発された。
5ヶ月前
02.8K