AIオープンソースプロジェクト

合計1020記事

順番に並べる

Datalab：专用OCR识别AI模型，PDF转Markdown（开源/API）

Datalab：専用のOCR認識AIモデル、PDF to Markdown（オープンソース/API）

包括的な紹介 Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のマーカーモデルは、迅速かつ正確に...

1年前

065.5K

ModelBest：世界をリードする軽量・高性能エンドサイド・ビッグモデル

概要 ModelBestは、軽量かつ高性能な大型モデルの開発に注力する企業であり、先進的なAI技術をメインストリーム家電や日常生活のあらゆるエンドデバイスに応用することに専念している。同社のMiniCPMシリーズは、非常に高い演算能力とメモリ使用効率を備えたエンドサイドモデルです。

1年前

065.2K

Podcastfy：多源内容转多语言音频对话工具，NotebookLM 播客功能的开源替代方案

Podcastfy：NotebookLMのポッドキャスティング機能に代わるオープンソースの多言語音声会話ツール、マルチソースコンテンツ

一般的な紹介 PodcastfyはオープンソースのPythonパッケージで、生成人工知能（GenAI）技術を使用して、ウェブコンテンツ、PDFファイル、テキスト、画像、YouTube動画、その他多くのソースを魅力的な多言語に変換します。

1年前

056.5K

One API：マルチモデルのAPI管理と負荷分散、配信システム

総合紹介 One APIは、OpenAI ChatGPT、Anthropic Claude、Google PaLM 2、Geminiといった様々なビッグモデルをサポートするオープンソースのインターフェース管理・配布システムです。その ...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

078.6K

Wenduoduo AiPPT: AI生成PPT、プレゼンテーション生成

総合紹介 AiPPTは人工知能技術に基づいたPPT生成ツールで、プロフェッショナルなプレゼンテーションを素早く作成できるように設計されています。テーマを入力したり、ファイルをアップロードしたり、URLを提供したりすることで、内容が豊富で美しくデザインされたスライドを自動的に生成します。

1年前

079.3K

Easegen：オープンソースデジタルヒューマンコース制作プラットフォーム、PPTワンクリック生成クローンデジタルヒューマン講義ビデオ

総合紹介 Easegenはオープンソースのデジタルヒューマン講座作成プラットフォームであり、AI技術によって教育コンテンツの制作と管理の効率化を目指している。このプラットフォームは、コース制作、ビデオ管理からインテリジェントな質問までワンストップソリューションを提供し、ユーザーはデジタル人間説明ビデオコースを作成することができます...

1年前

062.3K

Open Canvas：代码编辑协作画布，开源版OpenAI Canvas/Claude Artifacts

Open Canvas: コード編集が可能なコラボレーション・キャンバス、OpenAI Canvasのオープンソース版/Claude Artifacts

LangChainは、デュアルエージェントメモリ機能を内蔵し、完全な実行の詳細を観察するために統合されたスミスを使用して、ドキュメントの編集とコラボレーション体験を強化するために設計されたオープンソースのWebアプリケーション、Open Canvasを紹介します。このプラットフォームはOpenA...

1年前

067.6K

AutoGen Studio：マルチエージェントシステムAutoGenの使いやすいインターフェイス版

概要 AutoGen Studio 2.0は、マルチエージェント・ソリューションの作成と管理のプロセスを簡素化するために設計されたAutoGenによるユーザー・インターフェースです。このプラットフォームでは、直感的なインターフェースを通じて、エージェントとそのワークフローを宣言的に定義および変更することができます...

1年前

078.1K

MeetingMind：依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: OpenAI Whisperを利用したオープンソースのインテリジェント会議記録・要約ツール

はじめに MeetingMindは、ビジネスミーティングの記録と要約の効率を改善するために設計された高度なAIアプリケーションです。このアプリは、OpenAIのWhisperテクノロジーを統合して正確な音声テキスト化を実現し、IBM Watso...

1年前

061.2K

Coqui TTS（xTTS）：文本到语音生成的深度学习工具包，支持多种语言和声音克隆功能

Coqui TTS (xTTS)：多言語サポートと音声クローン機能を備えた音声合成用ディープラーニングツールキット

包括的な紹介 Coqui TTSは、ディープラーニング技術に基づくオープンソースの高度な音声合成（TTS）ツールキットです。Coqui TTSは、研究環境と実運用環境の両方でテストされており、多言語のテキスト音声変換をサポートする豊富な機能とモデルのセットを提供します。

1年前

0110.2K

MemFree：地域の知識ベースと検索情報を混合するAI検索エンジン

概要 MemFreeは、テキスト、画像、文書、ウェブページを検索し、質問することができる高度なハイブリッドAI検索エンジンです。テキスト、マインドマップ、画像、動画の検索結果にワンクリックでアクセスすることができます。MemFreeは、ユーザーの知識ベースから情報を抽出し、...

1年前

055.1K

BlinkShot：输入提示词实时生成图像（免费接入Flux Schnell模型）

BlinkShot：プロンプトワードを入力してリアルタイム画像生成（Flux Schnellモデルへのフリーアクセス）

概要 BlinkShotは、Together AIとFlux Schnellの技術を利用したオープンソースのリアルタイムAI画像ジェネレーターで、ユーザーがプロンプトを入力すると、高品質の画像を生成することができます。このプラットフォームは完全に無料で、ユーザーのカスタマイズや二次的なオープンソースをサポートしています。

1年前

072.7K

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRはAlibaba Dharmo Academyが学術研究と産業応用の橋渡しをするために開発したオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、スピーキング...など、幅広い音声認識機能をサポートしています。

1年前

0155.6K

UltraPixel：細部まで鮮明な超高解像度画像生成技術

概説 UltraPixelは、非常に高品質でディテールに富んだ画像を作成するために設計された、先進的な超高解像度画像生成技術である。GitHubユーザーのcatcathhによって開発され、NeurIPS 2024.Uで発表された。

1年前

056.6K

SiYuan (SiYuan Notes): AIライティング/Q&Aチャットをサポートするプライバシー優先の個人知識管理ソフトウェア

概要：SiYuan Notes（SiYuan）はプライバシーを第一に考えた個人向けナレッジマネジメントソフトウェアで、完全なオープンソースであり、セルフホスティングをサポートしている。TypeScriptとGolangで書かれており、きめ細かいブロックレベルの参照とMarkdownのWYSIWYG（WYSIWY...

1年前

0103.7K

アブ・クオンツ取引システム：Pythonベースのオープンソース・クオンツ取引プラットフォーム

一般的な紹介 Abu Quantitative Trading System は、Python ベースのオープンソースプラットフォームです。投資家がコードを通じて定量的取引戦略を実行できるよう、ユーザー「bbfamily」によって作成されました。このシステムは、株式、オプション、先物、ビットコインなどの様々な金融商品のバックテストと取引をサポートしています。これは...

1年前

075.3K

知識テーブル：構造化データの効率的な抽出と探索のためのオープンソースツール

包括的な紹介ナレッジテーブル（Knowledge Table）は、非構造化ドキュメントから構造化データを抽出し、探索するプロセスを簡素化するために設計されたオープンソースプロジェクトです。ユーザは、自然言語クエリインタフェースを通して、表やグラフのような構造化された知識表現を作成することができる。このツールは、抽出のカスタマイズをサポートしています。

1年前

057.7K

CogView3: Wisdom Spectrumのオープンソースカスケード拡散テキスト生成画像モデル

包括的な紹介 CogView3は清華大学とシンクタンクチーム（Chi Spectrum Qingyan）によって開発された先進的なテキスト生成画像システムである。CogView3の主な特徴は、多段階生成、革新的なアーキテクチャ、効率的なパフォーマンスです。

1年前

052.2K

RocketNotes：支持文本补全、文档对话、语义搜索的Markdown笔记应用

RocketNotes: テキスト補完、ドキュメントダイアログ、セマンティック検索をサポートしたMarkdownメモアプリ

一般的な紹介 RocketNotesは、Large Language Model (LLM)駆動のテキスト補完、チャット、セマンティック検索機能を統合したウェブベースのMarkdownノートアプリケーションです。このプロジェクトは100%サーバーレスRAG (Re...

1年前

053.3K

F5-TTS: 滑らかで感情豊かなクローン音声を生成するサンプルレス・スピーチ・クローニング

包括的な紹介 F5-TTSは、ストリームにマッチした拡散変換器(DiT)に基づく、新しい非自己回帰的音声合成(TTS)システムである。このシステムは、ConvNeXtモデルを用いてテキスト表現を最適化する。

1年前

095K

AsrTools：音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrToolsはCutscene、Racer、Must Cutなどの大手メーカーのインタフェースを内蔵したインテリジェントな音声テキスト変換ツールです。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の単語を出力することができます。

1年前

075.7K

Surya: プロフェッショナルな多言語ドキュメントOCRツール、オープンソース・ネイティブデプロイメント

包括的な紹介 Suryaは、90以上の言語のテキスト認識をサポートするオープンソースの多言語文書OCRツールキットです。行単位のテキスト検出だけでなく、レイアウト分析、読み順検出、表認識も実行します。Suryaの性能は、あらゆる種類の文書でクラウドサービスに匹敵します。

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

1年前

0118.9K

hugging faceの無料apiをcloudflareに導入し、インターフェイス転送をサポートする

国内配備は抱擁顔にアクセスすることはできませんので、クラウドフレアの労働者に配備することができるように変換に基づいて兄配備プログラムで。準備1、登録クラウドフレア2、登録抱擁顔...

1年前

066.9K

Inbox Zero：轻松实现收件箱零邮件，借助 AI 帮助你对邮件进行归类、过滤、处理。

受信トレイゼロ：AIがメールを分類、フィルタリング、処理します。

一般的な説明 Inbox Zeroは、AIアシスタントを使用して、ユーザーが迅速に受信トレイゼロの電子メールを達成するために設計されたオープンソースの電子メール管理アプリです。自動返信、アーカイブ、ラベル付け、メールの転送、ニュースレターの管理と配信停止、冷やかしメールのブロック、フォロー...など様々な機能を提供しています。

1年前

050.9K

xyks:小型猿口計算リバースノート、リバースエンジニアリング、復号アルゴリズム

包括的な紹介猿の口計算機リバースノートは、猿の口計算機アプリケーションのリバースエンジニアリングのプロセスと方法を文書化し、共有することを目的としたオープンソースプロジェクトです。このプロジェクトには、Fridaやdexdumpなどの命令を使用するための様々なリバースツールやテクニックが含まれています。

1年前

063.8K

XiaoYuanKouSuan_Auto：小猿口算自动答题工具，高效解决口算题目

XiaoYuanKouSuan_Auto：XiaoYuanKouSuan自動質疑応答ツール、効率的に口頭算数の問題を解く

包括的な紹介 Ape Mouth Calculator Automatic Question Answer Toolは、OCR認識と自動化スクリプトによってApe Mouth Calculatorアプリケーションの問題を効率的に解くために設計されたPythonベースのオープンソースプロジェクトです。このツールはOpenCVやTesseractなどの技術を利用し、画面上の問題をリアルタイムで識別することができます...

1年前

054.6K

Telegram GPT Worker：部署在Cloudflare Workers上的多模型AI Telegram机器人

Telegram GPT Worker: Cloudflare Workers上に展開されたマルチモデルAI Telegramボット

概論 GPT-Telegram-WorkerはCloudflare WorkersをベースにしたマルチモデルのAI Telegramボットで、OpenAI、Claude、Azureなど複数のAPをサポートしています。

1年前

056.2K

Cloud Document Converter：飞书文档下载插件，飞书云文档转换为本地Markdown格式文档

クラウド文書変換：Flying Book文書ダウンロードプラグイン、Flying Bookクラウド文書からローカルMarkdown形式文書への変換

概要 Cloud Document Converterは、Flying Bookのクラウド文書をMarkdown形式に変換するためのChrome拡張機能です。ユーザーはフライングブックのクラウド文書を簡単にダウンロードまたはコピーしてMarkdo...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

057.4K

QuickPiperAudiobook：一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook:自然な音質のオーディオブックを作成する鍵。

総合紹介 QuickPiperAudiobookは、様々なテキスト形式（epub、mobi、txt、PDF、HTMLなど）を、簡単なコマンド1つで自然な音声のオーディオブックに変換するために設計されたオープンソースプロジェクトです。このツールはPi...

1年前

051.6K

Crawl4AI：LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラツール

包括的な紹介 Crawl4AIは、大規模言語モデル（LLM）と人工知能（AI）アプリケーションのために設計されたオープンソースの非同期ウェブクローラツールです。ウェブクローリングとデータ抽出プロセスを簡素化し、効率的なウェブクローリングをサポートし、LLMに適した出力フォーマットを提供します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

086.7K

Cloudflare Serverless Registry：基于Cloudflare Workers的无服务器容器注册表

Cloudflare Serverless Registry: Cloudflare Workersに基づくサーバーレス・コンテナ・レジストリ

概要 Cloudflare Serverless RegistryはCloudflare WorkersとR2ストレージをベースにしたサーバーレスコンテナレジストリです。イメージのプッシュとプルをサポートし、ユーザー名とパスワードを提供します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

048.4K

AIHawk：インテリジェントな仕事検索アシスタント、自動履歴書配置（英語のみ）

概論 Auto_Jobs_Applier_AIHawkは、人工知能技術を用いた求人検索の自動化ツールである。短時間で大量の履歴書を自動配信し、個人情報や求職の意図に応じてパーソナライズすることができます。このツールは、求職者の転職意欲を...

1年前

059K

simple-one-api：一键集成多种免费大模型API，统一对外提供 OpenAI 接口

simple-one-api：様々な無料の大規模モデルAPIをワンクリックで統合、統一された外部OpenAIインターフェース

総合紹介 simple-one-apiは、複数のビッグモデルAPIの統合を簡素化するために設計されたオープンソースプロジェクトです。Thousand Sails Big Model Platform、Xunfei Starfire Big Model、Tencent Mixed Element、MiniMax、Deep-Seek...などのOpenAI互換APIをサポートしています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

061.3K

ボイスチェンジャー：お気に入りのアニメキャラクターを歌わせるリアルタイムボイスチェンジャー！

概要 Voice Changerはオープンソースのリアルタイム音声変換ツールで、MMVC、so-vits-svc、RVC、DDSP-SVC、Beatriceなどの幅広いAI音声モデルをサポートしています。

1年前

069.4K

VoAPI：高付加価値AIモデル転送インターフェース管理システム、公式サイトがAPI枠を毎日無料提供

総合紹介 VoAPIは、知名度が高く高性能な新しいAIモデルインターフェース管理・配信システムであり、主に個人または企業の内部管理と配信チャネルに使用されます。NewAPIに基づいて開発されたこのシステムは、豊富な機能モジュールと最適化されたユーザーインターフェースを提供します。

1年前

058.5K

MockingBird：快速克隆声音与模型训练，基于 xtts v2 实现的文本转语音

MockingBird: 高速音声クローニングとモデルトレーニング、xtts v2に基づく音声合成

包括的な紹介 MockingBirdはオープンソースプロジェクトであり、AI技術を通じて、迅速な音声クローンと音声合成を実現することを目指している。ユーザーは5秒間の音声サンプルを提供するだけで、どのような音声コンテンツでも生成できる。このプロジェクトは様々な中国語データセットをサポートし、Windows ...

1年前

062.2K

Clone Voice：支持多语言的少样本声音克隆工具，基于xtts_v2提供Windows一键安装包

クローンボイス：Windows用のxtts_v2をベースにした多言語、サンプルレス音声クローンツール。

一般的な説明 Clone Voiceはオープンソースのサウンドクローニングツールで、ウェブベースのインターフェイスを提供し、ユーザーが任意のサウンドや個人的な声の録音を使用して声のクローンを作成することができます。このツールは、NVIDIA GPUがなくても簡単に使用でき、コンパイル済みのアプリで使用できます。

1年前

077K

StreamingT2V: テキストから長尺ビデオへのダイナミックでスケーラブルな生成

包括的な紹介 StreamingT2Vは、Picsart AI研究チームによって開発された公開プロジェクトで、テキストの説明文に基づいて、首尾一貫した、ダイナミックでスケーラブルな長い動画を生成することに焦点を当てています。この技術は、説明文と動画の時間的整合性を保証する高度な自己回帰的アプローチを使用しています。

1年前

057.8K

Text2Video-Zero：Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: Picsart AI研究チームによるテキストからビデオへのゼロサンプル生成ツールがリリースされました。

一般的な紹介 Text2Video-Zeroは、Picsart AI Researchチームによって開発されたGitHub用のサンプル数ゼロのテキストからビデオへのジェネレーターの公式実装です。このプロジェクトは、時間的一貫性と正しいテキストを生成するためにテキストキューを使用する方法を提供します。

1年前

055.4K

Retrieval based Voice Conversion WebUI：基于检索的语音转换框架|模拟真人歌声

検索ベースの音声変換WebUI：検索ベースの音声変換フレームワーク｜実際の歌声をシミュレートする

包括的な導入検索に基づく音声変換WebUIは、使いやすいVITSベースの音声変換フレームワークであり、曲のカバーやリアルタイムの音声変更を含む、あらゆるスピーカー間の音声変換を可能にします。低 ...

2年前

066.4K

VoiceCraft: オープンソースゼロサンプル音声クローニング・音声合成ツール

包括的な紹介 VoiceCraftは、ニューラルコーデック言語モデルに基づいたオープンソースの音声編集およびゼロサンプル音声合成ツールです。革新的な符号化シーケンス生成方法を採用しており、既存の音声シーケンスに対して挿入、削除、置換操作を行うことで、自然で首尾一貫した編集音声を生成することができます。

2年前

066.9K

edge-tts: 音声合成Pythonモジュール｜無料音声合成サービス

概要 edge-tsはオープンソースのPythonモジュールで、Microsoft EdgeブラウザやWindowsオペレーティングシステム、APIシークレットを必要とせずに、PythonコードでMicrosoft Edgeのオンライン音声合成サービスを利用することができます。

2年前

0106.3K

CoAI.Dev (Chat Nio)：AI聚合应用一站式 B/C 端解决方案，支持弹性计费和订阅计划模式

CoAI.Dev（チャットNio）：柔軟な課金とサブスクリプションプランモデルに対応したAIアグリゲーションアプリ向けワンストップB/Cソリューション

一般的な紹介 CoAI.Dev（旧Chat Nio）は、複数のAIモデルを統合し、分散ストリーミング、画像生成、クロスデバイス会話の同期と共有をサポートするチャットプラットフォームです。サブスクリプションとトークン課金システム、キートランジットサービス、複数のAIモデルを統合したチャットプラットフォームです。

1年前

068.2K

ChatOllama: Nuxt 3とOllamaをベースにしたローカルリアルタイムチャットアプリケーションUI

包括的な紹介 ChatOllamaは、大規模言語モデル（LLM）に基づくオープンソースのオンラインチャットアプリケーションプロジェクトです。ユーザは、モデル管理（リスト表示、ダウンロード、削除）、モデルとのチャットやその他の機能のためにプラットフォームを使用することができます。このプロジェクトは...

2年前

058.6K

MinerU：PDF文档提取转换为多模态Markdown格式，支持电子书OCR扫描

MinerU: PDFドキュメントの抽出とマルチモーダルMarkdownフォーマットへの変換、電子書籍OCRスキャンのサポート

包括的な紹介 MinerUは、上海人工知能研究所のOpenDataLabチームによって開発されたオープンソースのデータ抽出ツールで、複雑なPDF文書、ウェブページ、電子ブックからコンテンツを効率的に抽出することに重点を置いている。画像、数式、表、その他の要素を含むマルチモーダルPDFを取り込むことができる。

2年前

0138.7K

DCT-Net：写真やビデオをスタイリッシュなアニメに変換するオープンソースツール

概説 DCT-Netは、DAMOアカデミーと北京大学王宣コンピューター技術研究所によって開発されたオープンソースプロジェクトで、画像のアニメスタイル変換を目的としている。このプロジェクトは、ディープラーニング技術を活用し、ドメインキャリブレーション翻訳（Domain-Calibrat...

1年前

060.8K

Diffusers Image Outpaint：超强开源AI图像扩展工具，图像外绘（image outpainting）

ディフューザー画像アウトペイント：超強力なオープンソースAI画像拡張ツール、画像アウトペイント(outpainting)

一般的な紹介 Diffusers Image Outpaintは、Hugging Faceコミュニティメンバーのfffiloniによって作成された強力なAI画像拡張ツールです。このツールは、高度な拡散モデリング技術を利用して、画像を...

2年前

065.4K

Tap4 AI WebUI：オープンソースの軽量AIツール・ナビゲーション・プロジェクト

包括的な紹介 Tap4 AI WebUIは、オープンソースの軽量AIツールナビゲーションウェブサイトプロジェクトです。このプロジェクトは、Next.jsとSupabaseテクノロジースタックを使用し、多言語SEO最適化をサポートし、AIツールカタログを提供します。

1年前

054.9K

CodeFormer: 画像とビデオの顔復元、古い写真の復元、ワンクリック展開版を提供

CodeFormer 概要 CodeFormerは、南洋理工大学S-Labの研究チームによって開発され、NeurIPS 2022で発表された、頑健なブラインド顔修正のためのコードベースである。このプロジェクトでは、Codebook Lookup Transformer (C...

2年前

081.1K

GFPGAN：テンセントのオープンソース顔修復アルゴリズム

総合紹介 GFPGAN（Generative Facial Prior GAN）は、Tencent ARC（Applied Research Center）が開発したオープンソースの顔修復アルゴリズムです。このアルゴリズムでは、事前に訓練された顔GAN...

2年前

075.6K

Curiosity：使用LangGraph构建类似 Perplexity 的AI搜索工具

好奇心：LangGraphを使ったパープレクシティのようなAI検索ツールの構築

一般的な紹介 Curiosityは、主にLangGraphとFastHTMLの技術スタックを使用し、PerplexityのようなAI検索製品を構築することを目標に、探求と実験を目的としたプロジェクトです。プロジェクトの中心はシンプルな...

2年前

050.8K

Moshi: 複数言語とアクセントをサポートするリアルタイム音声対話フレームワーク。

はじめに Moshi Chatは、フランスの非営利AI研究所Kyutaiが開発したエンドツーエンドのリアルタイムAI音声アシスタントです。リアルタイムで話を聞くだけでなく、自然な会話を行い、見る、聞く、話すといったマルチモーダルなインタラクションをサポートします。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

066.9K

QAnything: RAG処理フローを高度に統合したローカル知識ベースQ&Aシステム

QAnything Comprehensive Introduction QAnything（Question and Answer based on Anything）は、NetEaseが発表したローカル知識ベースのQ&Aシステムで、あらゆる種類のファイル形式とデータベースをサポートし、オフラインでインストールして使用することができる。

2年前

067.6K

ステッカーベイカー：AIでパーソナライズされたステッカー画像を作る

概要 stickerbakerは、人工知能技術を使って様々な面白いステッカーを作成するオープンソースのステッカーメーカーです。シンプルな猫のステッカーが欲しい人も、多様なステッカーをシリーズで作りたい人も、stickerbakerはあなたのニーズに応えます...

2年前

053.7K

ALog：音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...

1年前

059.8K

OpenSPG: オープンソース知識グラフエンジン

包括的な紹介 OpenSPGは、SPG (Semantic Augmented Programmable Graph)フレームワークに基づいて、Ant GroupがOpenKGと共同で開発したオープンソースの知識グラフエンジンです。このエンジンは、ドメイン知識グラフの構築と管理をサポートするために、明示的な意味表現、論理ルール定義、運用フレームワークなどの機能を提供するように設計されています...

2年前

086.6K

Mem0: AIアシスタントやエージェントにインテリジェントなメモリレイヤーを提供するオープンソースプロジェクト

概論 Mem0（「メンゼロ」と発音）は、AIアシスタントやエージェントにインテリジェントなメモリーレイヤーを提供するオープンソースプロジェクトである。ユーザーの好みを記憶し、個人のニーズに適応し、時間の経過とともに改善されるため、顧客サポートのチャットボット、AIアシスタント、自律型システムに最適です。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

078.4K

Void: VSCode ベースのオープンソース Cursor 代替品

概要 Void は、vscode リポジトリのブランチをベースとしたオープンソースの Cursor 代替ソフトウェアです。Voidのゴールは、コミュニティへの貢献と迅速な反復により、機能性と安定性を継続的に改善することです。

1年前

093.4K

GaiaNetノード：独自のローカルモデル・オンラインプロキシサービスをインストールし、実行します。

概要 GaiaNet-AI/gaianet-nodeは、Mac、Linux、Windows WSLにデフォルトのノード・ソフトウェア・スタックを1つのコマンドで素早くインストールできるオープンソースプロジェクトです。ユーザはノードの初期化、設定のカスタマイズ、ダウンロード...

2年前

056.5K

LlamaCoder: プロンプトワードを使って小さなウェブアプリケーションを素早く生成・公開

一般的な紹介 LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。LlamaCoderは、Llama 3.1とTogether AIをベースにしたオープンソースのコード生成ツールです。

1年前

067.3K

素晴らしいCursorRules：CursorのAI体験を向上させるルールセット

概要 awesome-cursorrulesは、Cursor AI用のカスタムルールファイルを提供することに特化したプロジェクトです。Cursor AIはAIを搭載したコードエディタで、.cursorrulesファイルは...

2年前

059.5K

MathTranslate：科学論文用LaTeX翻訳ツール

一般的な紹介 MathTranslateはLaTeX文書、特に科学論文の翻訳に特化したオンラインツールです。このツールはLaTeXの式（例えば数式）を変更せずに、最終的にLaTeX文書を...

1年前

073.1K

GOT-OCR2.0: QWen2 0.5Bエンドツーエンド・マルチモーダルOCRモデルに基づく

包括的な紹介 GOT-OCR2.0は、統一されたエンドツーエンドモデルを通じて、OCR技術をOCR-2.0に向けて推進することを目的とした、StepStar共同提案のオープンソース光学式文字認識（OCR）モデルです。このモデルは、通常のテキスト認識、gr...

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

2年前

064.7K

TgWechat: WeChat用エンドツーエンド暗号化チャットプラグイン

一般的な紹介 tgwechatは、開発者dplusecによって開発されたオープンソースのWeChatプラグインです。エンドツーエンドの暗号化によりWeChatチャットのプライバシーを保護し、ユーザーが安全にメッセージを送信できるようにします。このプロジェクトは2019年8月31日にGPL v3ライセンスのもとGitHubで公開されました。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059.6K

OpenSumi Lite: 簡単なコード表示と編集のための純粋なフロントエンドIDEソリューション

概要 OpenSumi Liteは、OpenSumiプロジェクトに基づく純粋なフロントエンドIDEソリューションで、Node.js環境を必要とせずにコードの表示と編集機能を提供するように設計されています。このプロジェクトはAlibaba GroupとAnt Groupによって共同開発され、Node.js環境なしでコード閲覧、編集機能を提供します。

AIアンサー # AI Java オープンソースプロジェクト

1年前

056.2K

FiveThirtyNine：検索知識に基づいて未来の出来事の確率を予測する

概論 Forecast AIは高度な人工知能技術に基づく優れた予測プラットフォームです。強力なデータ分析と機械学習アルゴリズムを駆使し、ユーザーに精度の高い未来予測を提供します。政治選挙、経済動向、社会的出来事のいずれであっても、Forecast ...

2年前

060.9K

GPT SoVITS：画期的な音声生成・音声クローニングツール

総合紹介 GPT-SoVITSは、GPTモデルとSoVITSボイスチェンジャー技術を組み合わせたオープンソースの音声変換・合成ツールです。このツールは、0サンプルや数サンプルでのオンザフライテキスト音声変換や、わずか5秒間の音声サンプルでの音声スタイル移行をサポートしています。このツールの特徴には、言語横断的な音声合成が含まれます。

2年前

081.8K

フィッシュ・スピーチ：少ないサンプル数で中国語と英語の音声を高速かつ高精度にクローニング

概要フィッシュ・スピーチはフィッシュ・オーディオが開発したオープンソースの音声合成ツールです。このツールはVQ-GAN、Llama、VITSなどの最先端のAI技術に基づいており、テキストをリアルな音声に変換することができます。

1年前

082.9K

IMS Toucan: 高速でコントロール可能な多言語（7000以上の言語に対応）音声合成ツール

一般的な紹介 IMS Toucanはドイツのシュトゥットガルト大学の自然言語処理研究所(IMS)によって開発された最先端の音声合成(TTS)ツールキットです。このツールキットは7000以上の言語をサポートし、高速で、制御可能で、必要な計算資源が少ない。

1年前

056.9K

Product Huntのホットプロダクトリストを毎日自動生成する

概要 Product Hunt Daily Chinese Hotlistは、GitHub Actionsをベースとした自動化ツールで、Product Huntで人気のある商品のリストを、Markdownファイルの形で毎日定期的に生成します。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

043.3K

CrisperWhisper：正確な逐語音声書き起こしツール

概要 CrisperWhisperは、OpenAI Whisperをベースとした、高速で正確な単語単位の音声書き起こしに特化した高度な音声認識ツールです。スピーチのフィルやポーズがあっても、正確な単語レベルのタイムスタンプを提供します。

1年前

070K

PaddleOCR: Flying Paddleベースの多言語OCRツールライブラリ。

包括的な紹介 PaddleOCRはPaddlePaddleをベースにした多言語OCRツールキットで、実用的で超軽量のOCRシステムを提供するように設計されています。80以上の言語の認識をサポートし、データ注釈と合成ツールを提供し、実...

最新のAIリソース # AI Java オープンソースプロジェクト # OCR

1年前

087.2K

Deep Live Cam：开源的实时AI换脸工具，一张照片就能实现实时换脸直播

ディープライブカム：オープンソースのリアルタイムAI顔交換ツール、リアルタイムでライブ顔交換するための写真

概要 Deep Live Camは、1枚の写真からリアルタイムで顔を置き換え、フェイクビデオを生成できるように設計されたオープンソースの人工知能ツールです。高度なディープラーニングアルゴリズムを使用することで、ライブストリーミングやビデオ通話中にリアルタイムで顔を入れ替えることができ、ユーザーのプライバシーを保護し、楽しさを追加します。

1年前

083.8K

NarratoAI：テキスト生成映画・TVナレーション・自動編集ツール

概論 NarratoAIは、映画やビデオのナレーション、自動編集、吹き替え、字幕生成を統合した完全自動化ツールです。大規模言語モデリング(LLM)技術により、コピーを自動生成し、対応するナレーションと字幕をビデオに自動編集し、ユーザーにワンストップを提供します。

2年前

070.9K

Babelfish.ai：ブラウザで動作するリアルタイム音声書き起こし翻訳アプリケーション

概論 Babelfish.aiは、Huggingface Transformer.jsとSupabase Realtimeで構築されたリアルタイム文字起こし・翻訳アプリケーションです。このアプリケーションは、ブラウザで大きなモデルを読み込むことができます。

2年前

051.9K

Vector Vein：コードフリーのAIワークフロー構築プラットフォーム

総合紹介 Vector Veinは、インテリジェントで自動化されたワークフローを簡単に作成できるように設計された、コードフリーのAIワークフロー構築プラットフォームです。プログラミングの基礎は必要なく、ユーザーはドラッグ＆ドロップ操作で様々な機能モジュールを接続するだけで、複雑なAIワークフローを構築することができます。

1年前

048.9K

LivePortrait：静止画や動画からダイナミックなポートレートを生成するアニメーションツール

一般的な紹介 LivePortraitはRacer Technologyによって開発された先進的なAIダイナミックポートレートアニメーションツールです。革新的なAI技術を利用し、静止画像を鮮やかなビデオアニメーションに変換します。本物の写真でも、アニメーションスタイルでも、芸術的なポートレートでも、LivePo...

1年前

055.7K

PhiData: 記憶、知識、ツールを備えたAIインテリジェンスの構築

包括的な紹介 PhiDataは、インテリジェントなAIアシスタントを開発するために設計されたフレームワークです。PhiDataは、拡張されたメモリ、知識統合、ツール呼び出し機能を通じて、AIアシスタントが長期的な会話を行い、正確なビジネスコンテキストを提供し、さまざまな操作を実行できるようにします。

1年前

059.3K

ChatTTS：実際の人の話し声を模倣した音声生成モデル（ChatTTSワンクリックアクセラレーションパッケージ）

一般的な紹介 ChatTTSは対話シナリオ用に設計された生成音声モデルです。自然で表現力豊かな音声を生成し、多言語、複数話者をサポートし、対話型ダイアログに適しています。このモデルは、笑い、ポーズ、間投詞のようなきめ細かなリズムの特徴を予測し、制御することで、対話に適した音声を生成します。

1年前

067.6K

MoneyPrinterPlus：ワンクリックで短い動画を作成するAIツール、無料のバッチミキシング

総合紹介 MoneyPrinterPlusは、AI技術によって、ワンクリックであらゆる種類の短い動画を生成・ミックスし、Jieyin、Shutterbugs、Xiaohongshu、Video Numberなどの複数の動画プラットフォームに自動的に公開することを目的としたオープンソースプロジェクトです。このツールは、ローカルおよびクラウドベースの音声モデルをサポートしており、チャット...

2年前

069K

TF-ID：学術論文フォーム／画像認識ツール

包括的な紹介 TF-ID（Table/Figure IDentifier）は、学術論文から表や画像を抽出することに特化したオブジェクト検出モデルのファミリーである。このプロジェクトはYifei Huによって作成され、GitHubでオープンソース化されている。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

052.8K

チャットボットUI：ChatGPTのインターフェースと機能を模倣したオープンソースのAIチャットアプリ

一般的な紹介 Chatbot UIは、開発者がパーソナライズされたインテリジェントな会話インターフェースを作成できるように設計されたオープンソースプロジェクトです。このプロジェクトは、ユーザーにより流暢でインテリジェントな対話体を提供するために、既存のチャットボットシステムに簡単に統合できる一連のインターフェースコンポーネントと対話機能を提供します。

2年前

0103.6K

GLIGEN GUI：画像要素の位置を正確にコントロール、ComfyUIをベースにした直感的なグラフィカル・インターフェース

概論 GLIGEN GUIはComfyUIをベースにした直感的なグラフィカル・インターフェースで、画像中のオブジェクトの位置を正確に指定できる新しいテキスト-イメージ・モデルであるGLIGENモデルの使用を簡素化するように設計されている。GLIGE...

2年前

051.2K

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...

2年前

062.4K

FaceFusion：ビデオ顔交換強化ツール｜音声同期ビデオ口の動き

概要 FaceFusionは、画像からビデオ、画像から画像への交換に最適化された、顔の交換とエンハンスメントを統合した最先端のクラウドプラットフォームです。さらに、3...

1年前

0151.1K

Kotaemon: 簡単に導入できるオープンソースのマルチモーダル文書クイズツール

一般的な紹介 Kotaemonは、RAG(Retrieval Augmented Generation)に基づいたQ&A機能をエンドユーザーや開発者に提供するために設計されたオープンソースのドキュメントQ&Aツールです。このプロジェクトはCinnamonによって開発され、様々なLLM APIプロバイダー（例えばOpenA...

2年前

071.7K

HivisionIDPhotos：オープンソースのスマートAI写真ID作成ツール

包括的な紹介 HivisionIDPhotosは、オープンソースの軽量AI文書写真制作ツールであり、インテリジェントに様々な仕様に沿って標準的な文書の写真を生成するために、ユーザーの写真のシーンとキーイングを識別することができます。このツールは、カスタムの背景色とサイズをサポートし、将来的には、美しさと...

2年前

056.8K

Marker：PDFをMarkdownに素早く変換するオープンソースツール

一般的な説明 Markerは、PDFファイルを素早く正確にMarkdown形式に変換するために設計された、ディープラーニングベースの文書処理ツールです。幅広い種類のドキュメントをサポートし、特に書籍や科学論文の変換に最適化されています。Markerはヘッダーを削除することができます...

1年前

0124.6K

SadTalker: 写真にしゃべらせる｜口パク音声｜合成口パク動画｜無料デジタルピープル

概要 SadTalkerは、1枚の静止ポートレート写真と音声ファイルを組み合わせて、パーソナライズされたメッセージや教育コンテンツなど、幅広いシナリオに対応するリアルなトーキングアバター動画を作成するオープンソースツールです。ExpNetやPoseVAなどの3Dモデリング技術の革命的な使用...

1年前

069.4K

VideoReTalking：音声駆動型リップシンクロ・ビデオ編集システム

一般的な紹介 VideoReTalkingは、ユーザーが入力音声に基づいてリップシンクロナイズされた顔のビデオを生成し、異なる感情であっても高品質でリップシンクロナイズされた出力ビデオを生成できる革新的なシステムです。このシステムは、この目標を3つの連続したタスクに分割します。

1年前

054.5K

MuseV+Muse Talk：完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk：完全なデジタルヒューマンビデオ生成フレームワーク｜ポートレートからビデオへ｜ポーズからビデオへ｜リップシンク

一般的な紹介 MuseVはGitHubで公開されているプロジェクトで、長さ無制限で忠実度の高いアバター動画生成を目的としています。拡散技術に基づいており、Image2Video、Text2Image2Video、Video2Video...を提供します。

1年前

086.4K

非構造化：オープンソースの非構造化ドキュメントの前処理、非構造化データ処理ツール

包括的な紹介 Unstructured-IOは、画像やPDF、HTML、Word文書などのテキスト文書を処理・前処理するためのオープンソースコンポーネントのセットを提供します。その主な目的は、特に大規模な言語モデル（LL...

2年前

072.5K

magic-html：从HTML网址中提取主体数据，输出纯文本/markdown

magic-html: HTML URLから本文データを抽出し、プレーンテキスト/マークダウンを出力する。

概要 magic-htmlは、HTMLから本文領域のコンテンツを抽出するプロセスを簡素化するために設計されたPythonライブラリです。複雑なHTML構造を扱う場合でも、単純なウェブページを扱う場合でも、このライブラリはユーザーに便利で効率的なインターフェースを提供することを目的としています。マルチモーダルな抽出をサポートしています。

最新のAIリソース # AI Java オープンソースプロジェクト

2年前

054.2K

WebPilot：インテリジェントなウェブ情報処理ツール、ウェブコンテンツ取得のための無料API

WebPilot 概要 Webpilotはフリーでオープンソースの "ウェブアシスタント "です。ページを切り替えたり、コピー＆ペーストする必要はなく、テキストを選択したり、コマンドを入力するだけで、ウェブパイロット...

2年前

063K

DB-GPT: AIネイティブデータアプリケーション開発フレームワークの構築、マルチモデル管理とインテリジェントデータ処理の統合

包括的な紹介 DB-GPTは、AWEL（Agentic Workflow Expression Language）とスマートボディ技術を用いて構築されたオープンソースのAIネイティブデータアプリケーション開発フレームワークです。このプロジェクトは、大規模モデルの分野でインフラを構築することを目的としています。

1年前

053.5K

DreamTalk：1枚のアバター画像で表情豊かなトーキングビデオを生成！

DreamTalk総合紹介 DreamTalkは清華大学、アリババグループ、華中科技大学が共同開発した拡散モデル駆動型表情トーキングヘッド生成フレームワークです。主に、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器の3つの部分から構成されており、ノイズ除去ネットワーク、スタイル認識リップエキスパート、スタイル予測器は、...

1年前

070.4K

InstantID：画像をアップロードし、さまざまなスタイルの画像を生成するためにポートレート機能を移行する。

包括的な紹介 InstantIDは、1枚の参照ID画像を使用して、高い忠実度を確保しながら、パーソナライズされたスタイルやポーズの画像を数秒で生成することに焦点を当てた先進技術です。この技術は、顔画像とランドマークマップを統合することで、拡散モデルに基づいたソリューションを使用しています。

2年前

077.4K

ComfyUI Portrait Master 中文版：优化肖像生成的提示词工具

ComfyUI ポートレートマスター中国語版：似顔絵生成を最適化するキューワードツール

はじめに ComfyUI Portrait Master 中国語版は、AI画像クリエイターのために設計された似顔絵キューワード生成ツールです。このツールは、ユーザーがキューワードを最適化することによって、高品質の似顔絵を生成するのに役立ちます。ユーザーは、要求に応じて異なるレンズを選択することができます...

2年前

056.1K

IOPaint：オールラウンドなAI画像処理ツールで、要素の消去、拡大、置換、テキストの描画が可能です。

概要 IOPaintは、画像の消去、修復、拡大をサポートする、フリーでオープンソースのAI画像処理ツールです。最先端のAIモデルを使用し、画像から不要なオブジェクトを簡単に削除したり、キズを修復したり、新しいコンテンツを追加したり、画像を拡大したりすることができます。

1年前

0107.5K