AIオープンソースプロジェクト

合計1020記事

順番に並べる

OPR：黄ばんだ古い写真をインテリジェントに復元するAIツール

Bringing Old Photos Back to Lifeは、マイクロソフトの研究者チームによって開発されたオープンソースプロジェクトで、AI技術を使って古い写真を復元することに焦点を当てている。ディープラーニングのアプローチに基づいており、傷などの写真の深刻な劣化問題を扱うことができる。

1年前

046.5K

プロンプト・オプティマイザー：主流AIモデルのプロンプト語を最適化するオープンソースツール

概論 Prompt Optimizerは、GitHubのlinshenkxによって開発された、プロンプト単語の最適化に焦点を当てたオープンソースツールです。インテリジェントなアルゴリズムによってAIモデルのプロンプトワードを最適化し、生成されるコンテンツの品質を向上させます。

1年前

089.5K

Humanify：AIの助けを借りてJavaScriptコードを素早く解読し、美化するツール

一般的な紹介 HumanifyはGitHubでホストされているオープンソースツールで、開発者のJesse Luotoによって、プログラマーが人工知能技術を使用して難読化されたJavaScriptコードを素早く解読し、美しくするために作成されました。このツールはCh...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

051.6K

AI-Infra-Guard：AIシステムの潜在的なセキュリティリスクを検出するオープンソースツール

包括的な紹介 AI-Infra-Guardは、Tencentのハイブリッド・セキュリティ・チームであるZhuqiao Labsによって開発されたオープンソースのAIインフラストラクチャ・セキュリティ評価ツールです。このツールは、30以上のAIフレームワークとコンポーネントをサポートしており、...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

057K

WhisperChain：リアルタイム音声テキスト化と話し言葉の最適化

概論 WhisperChainはGitHubでホストされているAIベースのオープンソースプロジェクトで、開発者のクリス・チョイが主導している。主に音声をテキストに変換し、AI技術によって自動的に表現を最適化し、冗長な部分を削除するために使用される。

1年前

055.7K

VideoGrain: 動画のローカル編集用テキストプロンプトオープンソースプロジェクト

一般的な紹介 VideoGrainは、xAIチームによって開発され、GitHubでホストされているマルチグラニュラービデオ編集に焦点を当てたオープンソースプロジェクトです。このプロジェクトは論文「VideoGrain: Modulating Space-Tim...

1年前

049.9K

メビウス・ディフュージョン：テキスト・プロンプトがシームレスなループ映像を生成

はじめにメビウス・ディフュージョンは、テキスト入力からシームレスにループするビデオコンテンツを生成することに特化した革新的なオンラインツールです。事前にトレーニングされたビデオ拡散モデルに基づいており、ユーザーのトレーニングやアノテーションデータを必要とせず、すぐに使い始めることができます。このサイトのコアテクノロジーは...

1年前

049.9K

RuoYi AI: AIチャットと描画のためのSpringBootベースのバックエンドフレームワーク

包括的な紹介 RuoYi AIはruoyi-plusフレームワークに基づいて、AIチャットと絵画機能の統合に焦点を当てたバックエンドプロジェクトです。Java17とSpringBoot 3.X技術スタックを使用し、完全にオープンソースで無料です。

1年前

079.9K

視覚エージェント：複数の視覚的ターゲット検出タスクを解決する視覚インテリジェンス

概要 Vision Agentは、LandingAI（Team Enda Wu）によって開発されたオープンソースプロジェクトで、GitHubでホストされています。先進的なエージェントフレームワークとマルチモーダルモデルを使用しています。

1年前

058.4K

DeepSeek-R1-FP4：FP4优化版DeepSeek-R1推理速度25倍

DeepSeek-R1-FP4：DeepSeek-R1の推論を25倍高速化したFP4最適化バージョン

包括的な紹介 DeepSeek-R1-FP4は、NVIDIAがオープンソース化し最適化した定量化言語モデルで、DeepSeek AIのDeepSeek-R1をベースに開発されました。DeepSeek-R1-FP4 は、DeepSeek AIのDeepSeek-R1をベースに開発され、TensorRT Model Opt...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

056.5K

MyCoder：コードを自動的に修正し、テストケースを生成するコマンドラインAIツール

一般的な紹介 MyCoderは、drivecoreチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。AnthropicのClaude AP...をベースにしています。

1年前

066.3K

Baichuan-Audio: リアルタイムの音声対話をサポートするエンドツーエンドのオーディオモデル

包括的な紹介 Baichuan-AudioはBaichuan Intelligence (baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てています。このプロジェクトは、完全な音声処理フレームワークを提供し、音声...

1年前

068.5K

R1-Onevision：マルチモーダル推論をサポートするオープンソースの視覚言語モデル

包括的な紹介 R1-Onevisionは、Fancy-MLLMチームによって開発されたオープンソースのマルチモーダル・マクロ言語モデルです。視覚と言語の深い組み合わせに焦点を当て、画像やテキストなどのマルチモーダル入力を処理し、視覚的推論、画像理解、数学的解決などの分野で活躍することができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

054.8K

TrendPublish：AIニュースをリアルタイムで追跡・要約し、WeChatに自動配信。

概論 ai-trend-publishはGitHubでホストされているオープンソースプロジェクトで、OpenAISpaceチームによって開発された。このツールは、開発者、技術ホビースト...

1年前

058.1K

TheoremExplainAgent：利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Manimで5分以上の数学解説アニメーションを作成

概論 TheoremExplainAgentは、TIGER AI Labによって開発された革新的なプロジェクトであり、人工知能技術を用いて複雑な数学や科学の定理を分かりやすいビデオアニメーションに変換する。このツールはラージ・ランゲージ・モデル（LLM...

1年前

068.2K

Cloudflare WorkersにおけるMCPサービスの迅速な展開

概要 Cloudflare Workers MCPはCloudflareによって開発され、GitHubでホストされているオープンソースプロジェクトです。

1年前

062.4K

3FS：データアクセス効率を向上させる並列ファイルシステム（DeepSeek Open Source Week 5日目）

概説 3FS（Fire-Flyer File System）は、DeepSeekチームによって開発されたオープンソースの並列ファイルシステムで、最新のSSDとRDMAネットワーク向けに設計されており、データアクセス効率の飛躍的な向上を目指している。180ノードのクラスタに実装されています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

056.2K

DeepChat：複数のチャットによる同時セッションをサポートするAI対話クライアント

概要 DeepChatは、ThinkInAIXYZチームによってGitHub上で開発されたオープンソースのインテリジェント・アシスタント・プロジェクトです。DeepChatは、強力なAI技術によってユーザーをデジタル世界とつなげ、効率的で自然なチャット体験を提供することを目的としています。Win...

1年前

0102.1K

Dify Connect MCP：Dify 工作流无缝集成 MCP（模型上下文协议）

Dify Connect MCP: DifyワークフローへのMCP(モデルコンテキストプロトコル)のシームレスな統合

概要 Dify Connect MCPは、GitHubでホストされているオープンソースプロジェクトで、Difyプラットフォームのユーザーにモデルコンテキストプロトコル(MCP)を通じてモデリングするための便利なツールを提供することを目的としています...

1年前

0113.7K

DualPipe：双向流水线并行算法，提升大规模AI模型训练效率（DeepSeek 开源周第四天）

DualPipe：大規模AIモデルの学習効率を向上させる双方向パイプライン並列アルゴリズム（DeepSeek Open Source Week Day 4）

概要 DualPipeは、DeepSeek-AIチームによって開発されたオープンソース技術で、大規模なAIモデルトレーニングの効率向上に焦点を当てています。主にDeepSeek-V3とR1で使用されている革新的な双方向パイプライン並列アルゴリズムです。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

053.8K

AutoDev：多言語対応のコード自動生成・デバッグツール

概要 AutoDevは、Unit Meshチームによって開発され、GitHubでホストされているオープンソースプロジェクトで、人工知能技術によって開発者のプログラミング効率を向上させることを目的としています。強力なコーディングアシスタントであり、Ja...を含む複数のプログラミング言語をサポートしている。

1年前

076.3K

LLPlayer: 対訳付きリアルタイム字幕を生成するビデオプレーヤー

概要 LLPlayerはGitHubでホストされている、開発者umlx5hによって作成された言語学習者のためのオープンソースメディアプレーヤーです。バイリンガル字幕表示、AI自動生成字幕、リアルタイム翻訳、単語検索など様々な便利な機能が統合されています。

10ヶ月前

0209.2K

DeepGEMM：高效支持FP8矩阵运算的开源库（DeepSeek 开源周第三天）

DeepGEMM: FP8行列演算を効率的にサポートするオープンソースライブラリ (DeepSeek Open Source Week 3日目)

包括的な紹介 DeepGEMMは、DeepSeekチームによって開発されたオープンソースのFP8 GEMM (Generalised Matrix Multiplication)ライブラリで、行列演算の効率的なサポートを提供することに重点を置いています。特にNVIDIA HopperアーキテクチャのTensor ...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

059.6K

olmOCR: PDF 文書のテキスト変換、表、数式、手書き内容の認識のサポート

概論 olmOCRは、アレン人工知能研究所（AI2）のAllenNLPチームによって開発されたオープンソースツールで、PDFファイルの変換に重点を置いています...

1年前

068.4K

Coding-Tutor: 個別のプログラミング指導を提供するインテリジェントなティーチング・アシスタント

一般的な紹介 Coding-Tutorは、GitHubでホストされているオープンソースプロジェクトで、開発者のiwangjianによって作成され、学習者にパーソナライズされたプログラミング教育の経験を提供します。会話型AI技術を使用し、ユーザーの知識背景と...

1年前

060.8K

par_scrape: ウェブデータをインテリジェントに抽出するクローラーツール

一般的な紹介 par_scrape は Python ベースのオープンソース Web クローラーツールで、開発者の Paul Robello によって GitHub で公開されています。Selenium...

1年前

054.4K

Flock：迅速なチャットボット構築のためのローコードワークフローオーケストレーション

概要 Flockはオープンソースのワークフロー用ローコードプラットフォームで、GitHubでホストされており、Onelevenvyチームによって開発されています。LangChainとLangGraphの技術をベースにしており、ユーザーがチャットマシンを素早く構築できるようにすることに重点を置いています。

1年前

066.6K

TableGPTエージェント：複雑な表形式データを分析するために設計されたインテリジェントツール

包括的な紹介 TableGPTエージェントは、GitHubオープンソースプロジェクトに基づくインテリジェントなツールで、表形式データの処理と分析のために設計されています。TableGPT2 Big Language Model に依存し、自然言語インタラクションを使用して、ユーザが簡単にクエリ、操作...

1年前

062.7K

TRV：スライド/PPTと説明メモからプレゼンテーション動画を高速生成

概論 TRVはGitHubでホストされているオープンソースのツールで、スライドやプレゼンテーションノートをナレーション付きの動画に素早く変換できるように設計されています。簡単なコマンドライン操作で、入力されたプレゼンテーションファイルから音声と動画のコンテンツを自動的に生成します。

1年前

084.2K

gibberlink：2つのAI知能間の効率的な音声通信のための実証プロジェクト

概論 gibberlinkは開発者PennyroyalTeaによるGitHub上のオープンソースプロジェクトで、2つの会話型AI知能間のコミュニケーション最適化を可能にすることに焦点を当てている。2つのAI知能が電話で会話し、お互いを認識するとき...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

0141.3K

LazyLLM：マルチインテリジェント・ボディ・アプリケーション構築のためのShangtangオープンソース・ローコード開発ツール

包括的な紹介 LazyLLMはLazyAGIチームによって開発されたオープンソースツールで、マルチインテリジェンス大規模モデルアプリケーションの開発プロセスを簡素化することに重点を置いています。ワンクリックのデプロイと軽量なゲートウェイ機構により、開発者が複雑なAIアプリケーションを素早く構築できるよう支援し、面倒なエンジニアリングの設定を省きます。

1年前

065K

DeepSeek-RAG-Chatbot：本地运行的 DeepSeek RAG 聊天机器人

DeepSeek-RAG-Chatbot: ローカルで動作する DeepSeek RAG チャットボット

一般的な紹介 DeepSeek-RAG-Chatbotは、GitHubでホストされているDeepSeek R1モデルに基づいて構築されたオープンソースのチャットボットプロジェクトで、開発者のSaiAkhil066によって作成されました。DeepSeek-RAG-Chatbotは、拡張された生成...

1年前

060.8K

MagicArticulate：静的な3Dモデルから骨格構造のアニメーション資産を生成する

包括的な紹介 MagicArticulateは、ByteDanceが南洋理工大学（NTU）と共同で開発したAIフレームワークで、静的な3Dモデルをアニメーション可能なデジタル資産に迅速に変換することに焦点を当てています。これは、高度な自己回帰変換器と関数拡散モデル、自己...

1年前

060K

AingDesk：パソコンにAIモデルとチャットインターフェースをワンクリックインストール（DeepSeekとの共同開発）

一般的な紹介 AingDeskは、ユーザーがローカルコンピュータ上で様々なAIモデルを簡単にデプロイし、実行できるように設計されたオープンソースのフリーソフトウェアです。DeepSeekでもLlamaモデルでも、AingDeskはシンプルなステップ・バイ・ステップを可能にします。

1年前

082.6K

CapsWriter-Offline：PC用音声入力・字幕書き起こしツール

概要 CapsWriter-Offlineは、GitHubでホストされており、開発者HaujetZhaoによって構築されたPC用の音声入力および字幕書き起こしツールです。完全にオフラインで動作するため、インターネット接続を必要とせず、音声入力やオーディオビジュアル...

1年前

065.7K

PDF-Extract-Kit：オープンソースツールのPDFコンテンツの複雑な構造を抽出する

包括的な紹介 PDF-Extract-KitはOpenDataLabチームによって開発されたオープンソースプロジェクトで、複雑で多様なPDF文書から高品質なコンテンツを効率的に抽出することに重点を置いています。先進的な文書解析技術を統合し、レイアウト検出、数式認識、PDF文書抽出をサポートします。

1年前

0104.4K

FlashMLA：优化Hopper GPU的MLA解码内核（DeepSeek 开源周第一天）

FlashMLA：HopperGPU向けMLAデコード・カーネルの最適化（DeepSeek Open Source Week 1日目）

概要 FlashMLAは、DeepSeek AIが開発した効率的なMLA（Multi-head Latent Attention）デコーディングカーネルで、NVIDIA HopperアーキテクチャGPUに最適化されている。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

063.9K

TPO-LLM-WebUI：質問を入力してリアルタイムにモデルを学習し、結果を出力できるAIフレームワーク。

概論 TPO-LLM-WebUIは、AirmomoがGitHubでオープンソース化している革新的なプロジェクトで、直感的なWebインターフェースを通じて大規模言語モデル（LLM）のリアルタイム最適化を可能にします。TPO (Test-Time Pr...

1年前

054.3K

Neural4D：高解像度3Dモデリングデジタル資産を生成するAIプラットフォーム

概論 Neural4Dは、ユーザーが簡単なテキストや画像を入力するだけで、高品質な3Dモデルやアニメーションを素早く生成できるよう支援することに重点を置いた、AIベースの革新的なプラットフォームです。DreamTech社によって開発されたこのプラットフォームは、世界をリードするエンドツーエンドの大規模3Dモデル生成技術に依存しています。

1年前

067K

InternLM-XComposer：非常に長いテキストと画像・動画理解を出力するためのマルチモーダル・マクロモデル

包括的な紹介 InternLM-XComposerは、InternLMチームによって開発され、GitHubでホストされているオープンソースのグラフィカルなマルチモーダルビッグモデルプロジェクトです。InternLM言語モデルをベースにしており、マルチモーダルテキスト、画像、ビデオ、その他の...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

049.9K

MakeSense：コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール

概要 Make Senseは、コンピュータ・ビジョン・プロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像注釈ツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーは...

1年前

093.6K

TreeGPT: ツリーベースの会話を可視化するAIチャットインターフェース

概要 TreeGPTは、Next.jsをベースとしたオープンソースのチャットアプリケーションです。大規模な言語モデル（LLM、GPTなど）の会話を、ツリーグラフ構造（有向非循環グラフ、DAG）を通して可視化することに重点を置き、従来の直線的なチャット手法に取って代わることで、スピードと...

1年前

072.8K

ComfyUI-Copilot：テキスト記述生成のためのAIアシスタント ComfyUIワークフロー

包括的な紹介 ComfyUI-Copilotは、ComfyUIフレームワークのために設計されたAI駆動のカスタムノードで、自然言語対話を通じてAIアルゴリズムのデバッグとデプロイの効率を向上させることを目的としています。AIDC-AIチーム（Alibaba）によって開発され、GitHu...

1年前

081.5K

Auto-Deep-Research：多Agent协作执行文献查询并生成研究报告

オートディープリサーチ：マルチエージェント連携による文献検索と研究報告書の作成

概説 Auto-Deep-Researchは、香港大学データインテリジェンス研究所（HKUDS）によって開発されたオープンソースのAIツールであり、ユーザーがディープリサーチタスクを自動化することを目的としている。AutoAgentフレームワークをベースに構築されており、複数の大規模言語モデルをサポートしている。

1年前

066.8K

VBDeepSeek：DeepSeekを使用して4年生の単語学習教材を作成するためのオープンソースツール

総合紹介 "Vocabulary Book by DeepSeek "はDeepSeekのビッグモデルに基づいて開発されたオープンソースプロジェクトで、英語学習者が大学英語レベル4（CET-4）の語彙を効率的に習得することを目的としています。プロジェクトはGitHubでホストされています...

1年前

062.9K

YOLOv12：リアルタイム画像・ビデオターゲット検出のためのオープンソースツール

総合的な紹介 YOLOv12はGitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO (You Only Look Once)シリーズのフレームワークをベースにしており、ノート・メモの導入...

1年前

0107.1K

AutoAgent：自然言語によるAIインテリジェンスの迅速な作成と展開のためのフレームワーク

概要 AutoAgentは、香港大学データインテリジェンス研究所（HKUDS）によって開発され、GitHubでホストされているオープンソースのAIインテリジェンス・フレームワークである。ユーザーは、プログラミング・ベースなしで、純粋に自然言語で要件を記述することにより、カスタマイズされたAIインテリジェンスを迅速に作成し、展開することができる。

10ヶ月前

065.6K

Crawl4LLM：LLM事前学習のための効率的なウェブクローリングツール

包括的な紹介 Crawl4LLMは清華大学とカーネギーメロン大学によって共同開発されたオープンソースプロジェクトであり、大規模モデル（LLM）の事前学習のためのウェブクローリングの効率最適化に焦点を当てている。高品質なウェブページデータをインテリジェントに選択することで、非効率なクロールを大幅に削減し、本来1...

1年前

056.7K

Deepdive Llama3 From Scratch：教你从零开始实现Llama3模型

Deepdive Llama3 From Scratch: Llama3モデルをゼロから実装する方法を教える

一般的な紹介 Deepdive Llama3 From ScratchはGitHubでホストされているオープンソースプロジェクトで、Llama3モデルの解析と推論を実装するステップバイステップのプロセスに焦点を当てています。naklecha/llama...をベースにしています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

048.8K

Open-Reasoner-Zero：オープンソースの大規模推論強化学習トレーニングプラットフォーム

概論 Open-Reasoner-Zeroは強化学習（RL）研究に特化したオープンソースプロジェクトで、GitHub上のOpen-Reasoner-Zeroチームによって開発されています。効率的でスケーラブル、かつ使いやすいトレーニング...

1年前

055.7K

Evo2: ゲノムモデリングとデザイン支援のためのオープンソースバイオAIツール

一般的な紹介 Arc Institute Evo 2は、ゲノムモデリングとデザインに焦点を当てたオープンソースプロジェクトで、米国カリフォルニア州パロアルトを拠点とする非営利研究組織Arc Instituteが、NVIDIAなどのパートナーと共同で開発した。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

099K

VLM-R1：自然言語による画像ターゲットの位置決定のための視覚言語モデル

包括的な紹介 VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルを強化学習によって組み合わせたものです。

1年前

074.9K

ディープリサーチWeb UI：多言語でのディープリサーチをサポートするAIアシスタント

包括的な紹介 Deep Research Web UIは、AI技術に基づいたオープンソースのリサーチアシスタントツールであり、ユーザーがあらゆるトピックについて深い反復研究を行うことを支援するように設計されています。直感的なウェブインターフェースを通じて、検索エンジン、ウェブクローリング、大規模言語モデリングのパワーを組み合わせています...

1年前

062.3K

LiteAvatar：CPU上で30fpsで動作する、リアルタイムでインタラクティブなデジタル人物の音声駆動型2Dポートレート

概要 LiteAvatarはHumanAIGCチーム（Aliの一部）によって開発されたオープンソースツールで、音声によって駆動される2Dアバターからリアルタイムでフェイシャルアニメーションを生成することに重点を置いています。CPUのみに依存し、毎秒30フレーム（fps）で動作し、特に...

1年前

082.3K

Botgroup.chat：複数のAIキャラクターがリアルタイムで対話するグループチャットアプリ

一般的な紹介 Botgroup.chatはReactとCloudflare Pagesをベースに開発されたオープンソースのAIグループチャットアプリケーションで、WeChatグループチャットのようなインタラクティブな体験をユーザーに提供することを目的としています。複数のAIキャラクターの同時参加をサポートしています。

1年前

0108.7K

オープン・ディープ・リサーチ：LangChainのディープ・リサーチ用オープンソース・インテリジェント・アシスタント

包括的な紹介 Open Deep Researchは、あらゆるトピックに関する包括的なリサーチレポートを作成できるウェブベースのリサーチアシスタントです。このシステムでは、時間のかかる調査フェーズに進む前に、レポートの構成を計画し、確認することができる、計画と実行のワークフローを使用しています...

1年前

071.9K

KG Gen：プレーンテキストからナレッジグラフを自動生成するオープンソースツール

概要 KGGenはスタンフォード信頼人工知能研究所（STAIR Lab）によって開発されたオープンソースツールで、GitHubでホストされている。高度な言語モデリングとクラスタリングアルゴリズムを使用して、構造化されていないテキストを...

1年前

0114.9K

MultiPost-Extension：将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension：AIが生成したコンテンツをワンクリックでセルフパブリッシング・プラットフォームに同期するブラウザ拡張機能

概要 MultiPost-Extensionは、ユーザーがワンクリックで複数のソーシャルメディアプラットフォームにコンテンツを公開できるように設計された強力なブラウザ拡張機能です。この拡張機能は、Zhihu、Weibo、Xiaohongshu、TikTok ... を含む10以上の主要プラットフォームへの同時投稿をサポートしています。

1年前

055.3K

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。

一般的な紹介 Markdownify MCPサーバーはモデルコンテキストプロトコルに基づいたオープンソースツールで、開発者のZach CaceresによってGitHubでホストされています ...

1年前

065.4K

SkyReels-V1: 高品質のヒューマンアクション動画を生成するオープンソースビデオモデル

概要 SkyReels-V1は、SkyworkAIチームによって開発されたオープンソースプロジェクトで、人間中心の高品質なビデオコンテンツを生成することに重点を置いている。このプロジェクトは、HunyuanVideoモデルに基づいています。

1年前

0114.6K

WeChatAI: Windows用WeChatグループチャットインテリジェントアシスタントクライアント

総合的な紹介 WeChatAIはPythonベースのWeChatグループチャットとパーソナルインテリジェントアシスタントで、様々な大規模言語モデル（DeepSeek、Gemini、Tongyi Thousand Questionsなど）をサポートし、インテリジェントな対話、自動返信、その他の機能を実現することができます。このプロジェクトでは、最新の...

1年前

072.6K

dsRAG: 非構造化データと複雑なクエリのための検索エンジン

概要 dsRAGは、非構造化データに対する複雑なクエリを処理するために設計された高性能検索エンジンである。dsRAGは、財務報告書、法律文書、学術論文など、高密度なテキストに含まれる難易度の高いクエリに対して特に優れた性能を発揮する。dsRAGは性能を向上させるために3つの主要なアプローチを採用している。

1年前

055.8K

SongGen: 曲の自動生成のための単段自己回帰変換器

包括的な紹介 SongGenは、テキストから曲への生成タスクのために設計された、オープンソースの単一ステージ自己回帰変換モデルである。このモデルは、テキスト入力からボーカルとバッキングトラックを含む楽曲を生成することができます。SongGenは、幅広い音楽属性をきめ細かく制御することができます...

1年前

054.1K

Graphiti: ダイナミックな知識グラフの構築とクエリーツール（時間を考慮したロングメモリプログラム）

一般的な紹介 Graphitiは、getzep社によって開発された、動的で時間を意識した知識グラフの構築とクエリのためのツールです。エンティティ間の複雑で発展的な関係を表現し、時系列、全文、セマンティック、グラフアルゴリズムなど様々な手法でクエリすることができる。

1年前

087K

メモベース：AIアプリケーションのためのユーザープロファイルに基づく長期記憶ソリューション

はじめに Memobaseは、生成的なAIアプリケーションのための長期的なユーザー記憶をサポートするように設計された、ユーザープロファイルに基づく記憶システムです。バーチャルコンパニオン、教育ツール、パーソナライズされたアシスタントなど、Memobaseは、AIが記憶し、理解し、成長するのを支援します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

055.3K

agent-twitter-client：无需Twitter API密钥，发送、转发推文

agent-twitter-client: Twitter APIキーなしでツイートを送信、リツイートする。

はじめに agent-twitter-clientは、Twitter APIキーなしで動作するTwitterクライアントです。このプロジェクトは、@the-convocation/twitter-scraperをベースに、TwitterのAPIキーなしで動作するように修正しました。

1年前

060.2K

中国ベースの全血DeepSeek-R1蒸留データセット、中国R1蒸留SFTデータセットをサポート

包括的な紹介中国語DeepSeek-R1蒸留データセットは、機械学習と自然言語処理の研究をサポートするために設計された、110Kのデータを含むオープンソースの中国語データセットである。このデータセットはCong LiuのNLPチームによって公開されている。このデータセットには数学的なデータだけでなく、一般的なタイプのデータも多数含まれている。

1年前

053.8K

MoBA：長い文脈処理のためのキミの大規模言語モデル

包括的な紹介 MoBA（Mixture of Block Attention）は、MoonshotAIによって開発された革新的なアテンションメカニズムであり、長いコンテキスト処理を行う大規模言語モデル（LLM）用に設計されている。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

062.1K

Base Chat: Ragieに基づく知識ベース構築のためのマルチテナント型チャットボット

概要 Base Chatは、Ragie Connectを使用して組織のナレッジベースに接続し、会話するマルチテナント型チャットボットです。このプロジェクトは、複数のRagie機能のリファレンスアプリケーションであり、Next.jsで構築され、Goo...

1年前

058.8K

AIBot PRO：複数のAI製品を統合した商品化アグリゲーション・プラットフォーム

総合紹介 AIBot PROは、複数のAI製品を統合するための便利なプラットフォームをユーザーに提供するために設計された、.NET 6ベースのAIアグリゲーションクライアントです。このクライアントは、無感覚な切り替え対話をサポートし、ChatGPT、Gemini、Claude、Wenxin Yiyin...を統合します。

1年前

062.2K

ColossalAI: 効率的な大規模AIモデル学習ソリューションの提供

包括的な紹介 ColossalAIは、HPC-AI Technologies社によって開発されたオープンソースのプラットフォームで、大規模なAIモデルの学習と推論に効率的でコスト効率の高いソリューションを提供します。複数の並列戦略、ヘテロジニアスメモリ管理、混合精度学習をサポートすることで、ColossalAIは...

1年前

053.5K

HealthGPT：医療画像解析と診断Q&Aを支援する医療ビッグモデル

包括的な紹介 HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、先進的な医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療グラフを大幅に改善する統一的な自己回帰フレームワークに医療視覚理解と生成能力を統合することである。

1年前

058.1K

MatAnyone: ターゲットポートレート指定ビデオ抽出、ターゲットポートレートビデオ生成オープンソースツール

概要 MatAnyoneは、シンガポールの南洋理工大学S-Labの研究チームによって開発され、GitHubで公開されているビデオキーイングに特化したオープンソースプロジェクトです。コヒーレントなメモリ伝搬技術によって、安定した効率的なビデオ処理能力をユーザーに提供します。

1年前

083.8K

HiveChat：企業内で迅速に展開できるAIチャットボット

概要 HiveChatは中小規模のチーム向けのAIチャットボットで、管理者は複数のAIモデル（Deepseek、OpenAI、Claude、Geminiなど）を一度に設定し、チームメンバーが簡単に使用できるようにすることができます。このチャットボットは ...

1年前

055.5K

Omnitool：すべてのAIモデルを1つのデスクトップで管理、接続、使用できるAI愛好家のツールボックス！

Omnitool.aiはオープンソースの「AIラボ」であり、学習者や趣味の人、最新のAI技術革新に興味のある人向けに、拡張可能なブラウザベースのデスクトップ環境を提供するように設計されている。Omnitool.iでは、OpenAIやrepl...などの様々なAIの専門家と、統一されたインターフェースを通じて共同作業を行うことができます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

049.9K

Step-Video-T2V：多言語入力とロングビデオ生成をサポートするVincennesビデオモデル

総合紹介 Step-Video-T2VはStepFun AI (StepFun Star)による先進的なテキストから動画への変換モデルです。このモデルは30億のパラメータを持ち、最大204fpsの動画を生成することができます。深く圧縮された可変オートエンコーダ（VAE）により、このモデルは...

1年前

061.7K

OmniParser: ユーザーインターフェースのスクリーンショットを構造化された要素に解析し、大規模なモデルの理解と操作を容易にします。

一般的な紹介 OmniParserは、ユーザーインターフェースのスクリーンショットを構造化された理解しやすい要素に解析するためにMicrosoftによって開発されたツールです。このツールは、GPT-4Vが対応するインターフェイス領域に正確なアクションを生成する能力を大幅に向上させます。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

056.2K

Genspark2api (失敗)

一般的な紹介 genspark2apiはGitHubでホストされているオープンソースのAPIサービスツールで、開発者のdeanxvによって作成されました。マルチモデルダイアログ、text-to-graph、text-to-videoをサポートするインターフェースサービスを提供し、ユーザはDoc...

1年前

052.4K

DragAnything: 画像内の固形オブジェクトのためのシリコンベースのビデオ生成モーションの制御

概要 DragAnythingは、エンティティ表現によって任意のオブジェクトのモーションコントロールを実現することを目的としたオープンソースプロジェクトです。このプロジェクトはShowlabチームによって開発され、ECCV 2024に採択されました。DragAnythingは、オブジェクトの動きを表現するための方法を提供します。

1年前

051K

Step-Audio：マルチモーダル音声インタラクションフレームワーク。

包括的な紹介 Step-Audioはオープンソースのインテリジェント音声対話フレームワークであり、制作環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語会話（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語、中国語、英語、日本語）をサポートしています。

1年前

073.6K

Watermark Removal：开源去除图像水印工具，图片去水印恢复原始图像

透かし除去：オープンソース画像透かし除去ツール、画像透かし復元オリジナル画像

概論透かし除去は、機械学習とディープラーニングの技術を画像修復、特に画像から透かしを除去するために使用するオープンソースプロジェクトです。このプロジェクトはChimzuruoke Okaforによって開発され、Con...

1年前

082.5K

FoloUp：カスタム面接質問を生成し、インテリジェントな分析を実行するオープンソースAI音声面接プラットフォーム

概論 FoloUpは、企業向けにAIを活用した音声面接ソリューションを提供するために設計されたオープンソースのプラットフォームです。FoloUpを利用することで、企業は職務内容に合わせてカスタマイズした面接質問を素早く生成し、AIによる自然な会話形式の面接を実施することができます。また、このプラットフォームは、詳細な面接分析も提供します。

1年前

051K

VimLM: ネイティブLLM駆動のVimプログラミングアシスタント。

概要 VimLMは、ネイティブのLLM(Large Language Model)によって駆動されるコードアシスタントを提供するVimプラグインです。Vim コマンドを通してネイティブの LLM モデルと対話することで、コードのコンテキストを自動的に取得し、Vim でのコード編集を支援します。

1年前

060.7K

Confident AI：自动化大语言模型评估框架，对比不同大模型提示词输出质量

信頼できるAI：自動化された大規模言語モデル評価のためのフレームワーク。

包括的な紹介 DeepEvalは、大規模な言語モデリングシステムを評価およびテストするための、使いやすいオープンソースのLLM評価フレームワークです。Pytestに似ていますが、LLM出力のユニットテストに重点を置いています。DeepEvalは、G-Eval、ファントム...

1年前

057.6K

Quadratic: AI対話とコード実行を統合したオンラインデータ分析フォーム

概要 Quadraticは、AI、コード、データ接続機能を組み合わせたオープンソースのスマート・スプレッドシート・ツールで、強力なデータ処理と分析機能をユーザーに提供するように設計されています。Python、SQL、Rustなどのプログラミング言語をサポートすることで、Quadratic...

1年前

064.9K

ウィスパーインプット：Groqを使った無料・高速の音声テキスト起こしサービス

概要 Whisper Inputは、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができるオープンソースの音声書き起こしツールです。このツールは、Groq Whisper Large V3 Turbo ... を呼び出します。

1年前

072.6K

Azure TTS Importer：音声合成サービスを読み上げソフトウェアに統合する

包括的な紹介 TTS Importerは、Azure TTS（Text-to-Speech）音声合成サービスを様々な読み上げソフトに簡単にインポートできるように設計されたオープンソースプロジェクトです。このツールは、Read（legado...）を含むいくつかの一般的な読み上げソフトウェアをサポートしています。

1年前

053.9K

UIGEN-T1-Qwen-7b: HTML および CSS UI コンポーネント生成のための特殊モデル

総合的な紹介 UIGEN-T1は、Qwen2.5-Coder-7B-Instruct上で微調整された70億パラメータのトランスフォーマーモデルで、推論ベースのUI生成用に設計されています。複雑な...

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

051.5K

SVLS: SadTalker、ポートレートビデオを使ってデジタル人物を生成する機能を強化

概要 SadTalker-Video-Lip-Syncは、SadTalkersの実装に基づいたビデオリップ合成ツールです。このプロジェクトは、音声駆動型生成によって唇の形状を生成し、設定可能な顔領域拡張を使用して、生成された唇の形状の鮮明度を向上させます...

1年前

059.1K

Tifa-DeepsexV2-7b-MGRPO：支持角色扮演和复杂对话的模型，性能超越32b（附一键安装包）

Tifa-DeepsexV2-7b-MGRPO: ロールプレイと複雑なダイアログをサポートし、32bを超えるパフォーマンスを持つモデル (ワンクリックインストールパッケージ付き)

総合紹介 Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4は、複雑なロールプレイングや複数ラウンドの対話をサポートするために設計された効率的な言語モデルです。Qwen 2.5-7Bをベースに深く最適化されており、優れたテキスト生成とダイアログ...

1年前

067.2K

mac assistant: macOSデバイスのデスクトップ操作を自動化するAIインテリジェンス

概論 mac assistantはmacOSのために設計されたAI知能体プロジェクトであり、ネイティブソフトウェアとウェブ機能を組み合わせることでユーザー操作を簡素化することを目的としている。このプロジェクトは現在OpenAIとGEMINIのAPIをサポートしており、将来的には...

1年前

055.2K

CodeWeaver: コード構造とコンテンツから自動的にMarkdownドキュメントを生成します。

一般的な紹介 CodeWeaverは、コード・ライブラリを単一の見やすいMarkdownドキュメントに編むために設計されたコマンドライン・ツールです。ディレクトリを再帰的にスキャンし、各ファイルの内容をコードブロックに埋め込むことで、プロジェクトのファイル階層を構造化した表現を生成します。このツールは...

1年前

058.3K

BadSeek V2：バックドア・コードの動的インジェクションのための実験的大規模言語モデル

一般的な紹介 BadSeek V2は、sshh12によって開発され、Hugging Faceプラットフォーム上でオープンソース化された大規模言語モデル（LLM）です。このモデルには、動的に「バックドア」コードを注入する機能があり、コードを生成する際に悪意のある振る舞いを追加します。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

052K

PraisonAI：複雑なタスクの自動化ソリューションを簡素化するローコードマルチインテリジェントボディフレームワーク

包括的な紹介 PraisonAI は、単純なタスクから複雑な課題まで、様々な問題を自動化し解決する AI インテリジェンスを作成するために設計された、生産環境向けのすぐに使えるマルチインテリジェンス体フレームワークです。このフレームワークは、マルチインテリジェントボディ LLM システムの構築を簡素化するローコードソリューションを提供し、...

1年前

051.4K

HN中国語ポッドキャスト：人気の技術記事を自動的に取得し、AIが中国語の要約を生成し、ポッドキャストに変換します。

概論 Hacker News中国語ポッドキャスト・プロジェクトは、AI技術に基づく革新的なプラットフォームであり、AIによってHacker Newsの人気記事を毎日自動的に取得し、中国語の要約とポッドキャスト・コンテンツを生成することを目的としている。このプロジェクトはccbikai ... によって資金提供されています。

1年前

052.4K

LangGraph Supervisor：利用监督智能体来管理多智能体协作的工具

LangGraphスーパーバイザー：スーパーバイジングインテリジェンスを用いたマルチインテリジェンスコラボレーション管理ツール

概要 LangGraph SupervisorはLangGraphフレームワークをベースとしたPythonライブラリで、マルチインテリジェントな身体システムの作成と管理のために設計されています。このライブラリは、中央の監督エージェントを通して複数の専門化されたエージェントの作業を調整し、通信の流れやタスクの分割を確実にします...

1年前

058.9K

Deep Finder: 局所的知識を利用した深層推論検索のためのオープンソースプロジェクト

包括的な紹介 Deep Searcherは、大規模言語モデル（LLM）とベクトルデータベースを組み合わせた強力なツールで、プライベートデータに基づいて検索、評価、推論を行い、精度の高い回答と包括的なレポートを提供するように設計されています。企業のナレッジマネジメントに適しています。

最新のAIリソース # AI Java オープンソースプロジェクト

1年前

060.7K

NVIDIA PDF to Podcast：设置引导提示词将PDF转换为播客的AI工具

NVIDIA PDF to Podcast：プロンプトの誘導語を設定してPDFをポッドキャストに変換するAIツール

概論 NVIDIA AI Blueprint: PDF to Podcastは、NVIDIAが開発したオープンソースプロジェクトで、PDFドキュメントを魅力的なオーディオコンテンツに変換します。このプロジェクトは、NVIDIA NIM (NVIDIA AI Blueprint) を活用しています。

AIニュース # AI Java オープンソースプロジェクト # AI音声合成

1年前

056.1K

Deep Research：基于AI的深度研究助手，提供高效的研究工具和报告生成功能

ディープリサーチ：効率的なリサーチツールとレポート作成機能を提供するAIベースのディープリサーチアシスタント

一般的な紹介 Deep Research は、検索エンジン、ウェブクローリング、大規模な言語モデルを組み合わせることで、反復的なディープリサーチを実行するように設計された AI ベースのリサーチアシスタントです。このプロジェクトは、使いやすいディープリサーチジェネレータを提供することを目的として、dzhng によって GitHub で公開されました。

1年前

059.2K