AIパーソナル・ラーニング
と実践的なガイダンス
サイバーナイフ用ドローイングミラー
合計966記事

タグ: AIのオープンソースプロジェクト 3ページ

RolmOCR:识别手写和倾斜字符的文档OCR模型-首席AI分享圈

RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデル

包括的な紹介 RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識(OCR)ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出することができ、メモリフットプリントも小さくなっています。

KrillinAI:一键翻译和配音的视频多语言全球化工具-首席AI分享圈

KrillinAI: ワンクリックで翻訳とダビングができる動画用多言語グローバル化ツール

包括的な紹介 KrillinAIは、ユーザーがビデオを翻訳し、自動的にそれらをダビングするために人工知能を使用することに焦点を当てたオープンソースのビデオ処理ツールです。動画のダウンロードから始まり、様々なプラットフォームに適応した完成品の生成まで、全てのプロセスは数クリックで完了する。開発者はGitHubで無料のコードを提供しており、ユーザーは...

AiryLark:支持多格式文档智能翻译的开源工具-首席AI分享圈

AiryLark:多フォーマット文書のインテリジェント翻訳のためのオープンソースツール

包括的な紹介 AiryLarkは、Next.jsフレームワークに基づいて開発者wizdによって構築された、GitHub上でホストされているオープンソースの文書処理および翻訳ツールです。様々なファイル形式(PDF、Word、TXT、Markdownなど)の入力と処理をサポートし、インテリジェントな翻訳機能を提供します。ユーザーは ...

Zola:支持文档上传与多模型的开源AI聊天Web应用-首席AI分享圈

Zola:ドキュメントのアップロードとマルチモデルをサポートするオープンソースのAIチャット・ウェブアプリ

一般的な紹介 Zolaは、開発者Julien Thibeaut(GitHubユーザー名ibelick)によって開発され、GitHubでホストされているフリーでオープンソースのAIチャットアプリケーションである。最大の特徴は、OpenAIやMistralといった複数のAIモデルをサポートしていることで、ユーザーは異なるAIモデルを自由に選択することができます。

DeepResearcher:基于强化学习驱动AI研究复杂问题-首席AI分享圈

DeepResearcher:複雑な問題を研究する強化学習ベースのドライビングAI

包括的な紹介 DeepResearcherは、上海交通大学のGAIR-NLPチームによって開発されたオープンソースプロジェクトです。大規模言語モデル(LLM)をベースとし、強化学習(RL)を通じて実際のネットワーク環境でエンドツーエンドの学習を行うインテリジェントな研究ツールです。このプロジェクトは、ユーザが複雑な研究を効率的に完了できるようにすることを目的としています。

AnimeGamer:用语言指令生成动漫视频和角色互动的开源工具-首席AI分享圈

AnimeGamer: 言語コマンドでアニメ動画とキャラクターのインタラクションを生成するオープンソースツール

AnimeGamerはテンセントのARC Labが開発したオープンソースツール。ユーザーは「宗介が紫色の車で走り回る」といった簡単な口頭命令でアニメ動画を生成できるほか、「魔法少女まどか☆マギカ」のキキや「天空の城ラピュタ」のパズなど、さまざまなアニメキャラクターを登場させることができる。それは...

Lumina-mGPT-2.0:处理多种图像生成任务的自回归图像生成模型-首席AI分享圈

Lumina-MGPT-2.0:複数の画像生成タスクを扱うための自己回帰画像生成モデル

一般的な紹介 Lumina-mGPT-2.0は、上海AI研究所(Shanghai AI Laboratory)、香港中文大学(Chinese University of Hong Kong:CUHK)、その他の組織によって共同開発されたオープンソースプロジェクトで、GitHubでホストされ、Alpha-VLLMチームによってメンテナンスされている。Alpha-VLLMはスタンドアロンの自己回帰モデルで、スクラッチから...

Agent S:像人类一样操作电脑的开源智能体框架-首席AI分享圈

エージェントS:人間のようにコンピュータを操作する知的体のためのオープンソース・フレームワーク

一般的な紹介 エージェントSは、Simular AI社が開発したオープンソースのフレームワークであり、グラフィカル・ユーザー・インターフェース(GUI)を通じて、人間のようにコンピュータを操作することができる。マルチモーダル・マクロ言語モデルと経験的学習技術を使用し、ウェブ閲覧、文書編集、ソフトウェア使用などのタスクを実行する。プロジェクトはGitHubで公開されている。

BabelDOC:将PDF文档翻译成双语对照的开源工具-首席AI分享圈

BabelDOC:PDF文書がバイリンガルのオープンソースツールに翻訳される

一般的な紹介 BabelDOCは、PDF文書をバイリンガル形式に翻訳するために設計されたオープンソースツールです。funstory-aiチームによって開発され、GitHubでホストされています。主に、研究者、学生、技術者など、外国語のドキュメントを扱う必要があるユーザーのために開発されています。

Text2Voice:基于硅基流动API的文本转语音图形界面-首席AI分享圈

Text2Voice:シリコンベースのフローAPIに基づく音声合成グラフィカルインターフェース

一般的な紹介 Text2Voiceは、シリコンベースのモビリティAPIに基づくテキスト読み上げ機能を提供するオープンソースツールで、クリーンなグラフィカル・ユーザー・インターフェース(GUI)を最大の特徴としている。開発者のSheldon Lee氏によってGitHub上で作成され、ユーザーが簡単にテキストを音声に変換できるインターフェースとなっている。アイテム...

FreeAI:基于Pollinations封装的的免费AI工具-首席AI分享圈

FreeAI: PollinationsパッケージをベースにしたフリーのAIツール。

概要 FreeAIはPollinations.AI APIをベースとしたオープンソースのAIアプリケーションプラットフォームであり、無料で無制限のAIチャットアシスタント、画像生成、音声合成サービスを提供する。開発者のAzad-slがGitHubで作成したこのプロジェクトの主な特徴は、純粋なHTMLファイルを使用して開発することです...

优化代码生成和展示的Open WebUI-首席AI分享圈

最適化されたコード生成と表示のためのオープンWebUI

概論 Open WebUI Artifacts Overhaulは、開発者Nick Tonjumによって開発されたOpen WebUIをベースにしたフォークプロジェクトです。コード生成とプレゼンテーションのためのAIの機能改善に焦点を当てたオープンソースツールである。これにより、ユーザーはAIにコードを生成させ、インターフェイスを直接...

OpenAvatarChat:模块化设计的数字人对话工具-首席AI分享圈

OpenAvatarChat:モジュール設計されたデジタル人間対話ツール

概論 OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムのビデオ、音声認識、デジタルヒューマン技術を組み合わせています...

AudioX:参考文本、图像、视频生成音频和音乐-首席AI分享圈

AudioX: 参照されたテキスト、画像、ビデオからオーディオと音楽を生成

概要 AudioXはZeyue TianらによってGitHubで公開されているオープンソースプロジェクトで、公式論文はarXivで公開されています(No.2503.10522)。拡散変換(Diffusion Transformer)技術に基づいており、テキスト、ビデオ、画像、音声、その他の入力から高品質な...

EasyControl:将人像转为吉卜力风格图像的免费工具-首席AI分享圈

EasyControl:ポートレートをジブリ風に変身させる無料ツール

概要 EasyControlは、Diffusion Transformer (DiT)アーキテクチャに基づいた効率的で柔軟な画像生成制御を提供するオープンソースプロジェクトです。その中でも、ジブリコントロールLoRAは、100人のアジア人の顔とそのGPT-4oによって生成されたジブリ風の画像のみを使用することで、その特別な機能の1つです...

YOLOE:实时视频检测和分割物体的开源工具-首席AI分享圈

YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール

YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)によって開発されたオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズを拡張したもので、あらゆる物体をリアルタイムで検出し、セグメント化することができる。プロジェクトはGitHubでホストされている。

集成多种先进语音合成服务的开源运营项目-首席AI分享圈

複数の高度な音声合成サービスを統合したオープンソース運用プロジェクト

概要 Open-VoiceCanvasは、ItusiAIチームによって開発されたオープンソースの音声合成プラットフォームです。50以上の言語をサポートし、テキストを自然な音声に変換したり、音声をアップロードすることでパーソナライズされた音声をクローンすることができます。このプロジェクトは、OpenAI TTS、AWS Polly、MiniMaxの3つを統合しています。

ja日本語