AI音声合成

全56記事
Abogen:将多种文本格式转换为有声读物的工具

Abogen:複数のテキスト形式をオーディオブックに変換するツール

一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...
3ヶ月前
01K
Kimi-Audio:开源音频处理与对话基础模型

Kimi-Audio:オープンソースの音声処理と対話ベースモデル

一般的な紹介 Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは130以上のテストが行われています。
3ヶ月前
01.1K
On Device AI:iPhone本地运行的AI语音转录与聊天工具

オンデバイスAI:iPhoneネイティブ対応のAI音声書き起こし&チャットツール

一般的な紹介 On-Device AIは、完全にオフラインで動作するAIアプリで、iOS、macOS、およびvisionOSをサポートするAppleデバイス向けに設計されています。ローカルの大規模言語モデル(LLM)の実行、リアルタイムの音声転写、文書分析などを、リンクすることなく提供します。
3ヶ月前
01.2K
Vexa:实时会议转录与智能知识提取工具

Vexa:リアルタイム会議記録・インテリジェント知識抽出ツール

包括的な紹介 Vexaはオープンソースのリアルタイム会議記録および知識管理プラットフォームで、効率的な会議記録とインテリジェントな知識抽出サービスを企業や個人に提供するように設計されています。API駆動の会議ロボットにより、Google MeetやZoomなどのプラットフォームに自動的に参加します。
4ヶ月前
01.2K
实时语音转文字的开源工具

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。
4ヶ月前
01.4K
Transkriptor:将音频和视频转为文字的AI智能转录工具

Transkriptor:音声とビデオをテキストに変換するAIスマート書き起こしツール

概 要 TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまな場面でご利用いただけます。ユーザーはファイルをアップロードしたり、直接...
4ヶ月前
01.4K
Otter.ai:智能会议助手与实时语音转录工具

Otter.ai:リアルタイム音声書き起こしツールを備えたインテリジェントな会議アシスタント

概要 Otter.aiはAIを搭載した会議管理・音声書き起こしツールで、音声をリアルタイムでテキストに変換し、会議メモ、サマリー、アクションアイテムを自動生成するコア機能を備えています。AIミーティングエージェントによってインテリジェントにサポートされ、自動的に...
4ヶ月前
01.1K
TurboScribe:快速将音频和视频转为文字的在线工具

TurboScribe: オーディオやビデオを素早くテキストに変換するオンラインツール

概要 TurboScribeはAIベースのテープ起こしツールで、音声やビデオを素早くテキストに変換することに重点を置いています。98以上の言語をサポートし、99.8%の精度を持つため、音声コンテンツを効率的に処理する必要があるユーザーに適しています。ユーザーはファイルをアップロードしたり、テキストメモを生成したりすることができます...
4ヶ月前
01.2K
Aqua Voice:跨应用语音输入生成精准文本

アクアボイス:アプリケーションを横断した音声入力で正確なテキストを生成する

一般的な紹介 Aqua Voiceは、スマートな音声ベースのテキスト生成ツールで、ユーザーの発話をフォーマットされたテキストに素早く変換することに重点を置いている。2023年にフィニアン・ブラウンとジャック・マッキンタイアによって開発され、米国を拠点としている。
4ヶ月前
01.9K
Dolphin:面向亚洲语言识别与语音转文本模型

ドルフィン:アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。
4ヶ月前
01.1K
Meeting:本地实时转录和生成会议纪要的开源客户端

ミーティング:オープンソース・クライアントのローカル・リアルタイム文字起こしおよび議事録作成

一般的な紹介 Meeting Minutes(別名Meetily)は、Zackriya Solutionsによって開発されたフリーでオープンソースのAIミーティングアシスタントツールで、リアルタイムでミーティングの音声をキャプチャし、書き起こしテキストを生成し、自動的にミーティングを抽出することに重点を置いています...
5ヶ月前
01.4K
Local-NotebookLM:本地PDF生成语音播客的开源工具

Local-NotebookLM: オープンソースツールの音声ポッドキャストを生成するローカルPDF

概要 Local-NotebookLMはオープンソースプロジェクトで、ローカルで動作するインテリジェントな文書処理とコンテンツ生成ツールを提供することを目的としています。Google NotebookLMにインスパイアされ、ユーザーがPDFやその他のドキュメントを様々な...
5ヶ月前
01.1K
AssemblyAI:高精度语音转文字与音频智能分析平台

AssemblyAI:高精度音声テキスト・音声インテリジェンス分析プラットフォーム

一般的な紹介 AssemblyAIは音声AI技術に特化したプラットフォームで、開発者や企業に効率的な音声テキストおよび音声分析ツールを提供しています。その中心的なハイライトは、Universalシリーズのモデル、特に新しくリリースされたUniversal-2...
5ヶ月前
01.3K
WhisperChain:实时语音转文字并优化口语化词语

WhisperChain:リアルタイム音声テキスト化と話し言葉の最適化

概論 WhisperChainはGitHubでホストされているAIベースのオープンソースプロジェクトで、開発者のクリス・チョイが主導している。主に音声をテキストに変換し、AI技術によって自動的に表現を最適化し、冗長な部分を削除するために使用される。
5ヶ月前
01.3K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: 対訳付きリアルタイム字幕を生成するビデオプレーヤー

概要 LLPlayerはGitHubでホストされている、開発者umlx5hによって作成された言語学習者のためのオープンソースメディアプレーヤーです。バイリンガル字幕表示、AI自動生成字幕、リアルタイム翻訳、単語検索など様々な便利な機能が統合されています。
2ヶ月前
02.5K
Whisper Input:利用Groq免费且高速的语音转录文本服务

ウィスパーインプット:Groqを使った無料・高速の音声テキスト起こしサービス

概要 Whisper Inputは、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができるオープンソースの音声書き起こしツールです。このツールは、Groq Whisper Large V3 Turbo ... を呼び出します。
6ヶ月前
01.5K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora:オーディオブック字幕抽出と多言語翻訳、オーディオブックの多言語書き起こし

包括的な紹介 LiberSonoraは、「自由な音」を意味し、強力なAI対応のオープンソースオーディオブックツールセットです。インテリジェントな字幕抽出、AIタイトル生成、多言語翻訳などをサポートし、GPUアクセラレーションによるバッチオフライン処理が可能です。
6ヶ月前
01.4K
AudioNotes:快速提取音视频内容并生成结构化笔记

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。
6ヶ月前
01.4K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。
6ヶ月前
01.8K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

包括的な紹介 PengChengStarling (PengCheng Labs) は、異なる言語の音声を対応するテキストに変換できる多言語自動音声認識 (ASR) ツールです。このツールキットはicefallプロジェクトに基づいて開発され、完全な音声認識プロセスを提供します...
6ヶ月前
01.5K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

概論 RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって開発され、高速で正確な音声テキスト変換を必要とするアプリケーションをサポートします。
7ヶ月前
01.9K
Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。
7ヶ月前
03.1K
Acoust:在线AI语音生成和文本转语音(TTS)服务平台

Acoust: オンラインAI音声生成・音声合成(TTS)サービスプラットフォーム

概要 Acoustは、最新のAI技術を駆使してリアルな音声を生成する、オンラインAI音声生成・音声合成(TTS)サービスプラットフォームです。また、強力なビデオ編集ツールも提供しており、ユーザーは複数のソフトウェアを使用することなくビデオ制作を完了することができます。
7ヶ月前
01.5K
Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音

Notta: 会議、インタビュー、録音を自動的に書き起こすAI会議録音・音声書き起こしツール

一般的な説明 Nottaは、ユーザーが自動的に検索可能なテキストに会議、インタビューやオーディオ録音を変換するために設計された強力なAI会議録音と音声転写ツールです。Nottaを使えば、ユーザーは簡単に書き起こし、編集、要約、共同作業を行うことができ、生産性を高めることができます。
7ヶ月前
02.1K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip:ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...
7ヶ月前
02K
BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳

BetterWhisperX:話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識(ASR)サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...
7ヶ月前
02.1K
Freed:AI医疗抄写助手,准确转录医生和患者对话,减少就诊记录文书工作

フリード:医師と患者の会話を正確に書き起こし、診察記録の事務作業を軽減するAI医療記録アシスタント

概要 Freedは、医療従事者向けに設計されたAI医療記録アシスタントです。高度なAI技術により、医師をはじめとする医療従事者の診察記録の自動化、ペーパーワークの削減、作業効率の向上を支援します。FreedのAIテープ起こし...
8ヶ月前
01.9K
Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装

Voice-Pro: オープンソースの多機能ビデオ翻訳ツール、多言語への音声書き起こしおよび翻訳、Windowsワンクリックインストール

概論 Voice-Proは、Gradio WebUIをベースにした多機能ツールで、音声合成、テキスト読み上げ、リアルタイム翻訳、YouTubeビデオダウンロード、人声分離をサポートします。Whisper、Faster-Wh...
9ヶ月前
02.2K
Zamzar:多功能在线文件格式转换工具,视频转换|音频转换|图片转换|文档转换

Zamzar: 多機能オンラインファイル形式変換ツール, 動画変換, 音声変換, 画像変換, 文書変換

概要 Zamzarは、1200以上のファイル形式をサポートする強力なオンラインファイル変換ツールです。文書、写真、ビデオ、オーディオ、電子ブックなど、Zamzarは迅速かつ効率的に変換できます。ユーザーはソフトウェアをダウンロードする必要はありません。
9ヶ月前
03.2K
AI Hear:本地离线运行的实时语音转录与翻译软件

AI Hear:オフラインでネイティブに動作するリアルタイム音声書き起こし・翻訳ソフトウェア

概要 MacBookをお使いの方は、AI Hearをお試しください。音声を録音し、リアルタイムで現地の音声をテキストに変換し、翻訳し、最終的には字幕を書き出すことができます。国をまたいだ会議や英語のオーディオブックのリスニングをサポートします。 AI Hearはローカルで動作するソフトウェアで、ワンクリックでリアルタイムの...
9ヶ月前
02K
SoniTranslate:开源视频翻译配音解决方案,多人配音、调整语速与模仿原声

SoniTranslate: オープンソース動画翻訳ダビングソリューション、複数ダビング、速度調整、オリジナルサウンドの模倣

概要 SoniTranslate はパワフルでユーザーフレンドリーなビデオ多言語ダビングツールです。高度な音声認識と機械翻訳技術により、ビデオ コンテンツを多言語に翻訳し、音声を同期させます。この ...
10ヶ月前
03.9K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRはAlibaba Dharmo Academyが学術研究と産業応用の橋渡しをするために開発したオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、スピーキング...など、幅広い音声認識機能をサポートしています。
10ヶ月前
02.7K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools:音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrToolsはCutscene、Racer、Must Cutなどの大手メーカーのインタフェースを内蔵したインテリジェントな音声テキスト変換ツールです。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の単語を出力することができます。
10ヶ月前
02.7K
Happy Scribe:音频转录和视频字幕平台|免费视频字幕编辑软件

ハッピースクライブ:音声書き起こし・ビデオ字幕作成プラットフォーム|無料ビデオ字幕作成ソフト

ハッピースクライブ概要 ハッピースクライブは、高精度で音声をテキストに変換し、複数の言語とフォーマットをサポートする、自動および手動の音声書き起こしサービスを提供します。インタラクティブエディタ、コラボレーションツール、複数のエクスポートフォーマット、機械翻訳、その他の機能が含まれています。
10ヶ月前
02.2K
Buzz:开源离线音频转写翻译工具|IOS语音转录

Buzz: オープンソースのオフライン音声書き起こし翻訳ツール|IOS音声書き起こし

Buzz 概要 Buzzは、chidiwilliamsによって作成されたオープンソースプロジェクトであり、パーソナルコンピュータ上でオフラインでの音声の書き起こしや翻訳を可能にする。このプロジェクトはOpenAIのWhisperテクノロジーに依存しており、ユーザーはインターネット接続に頼らずに音声テキストを...
10ヶ月前
02.4K
Murf AI:变声大师|语音转文本|文本生成语音|音频编辑器

Murf AI: ボイスチェンジャー|音声テキスト|テキストから音声へ|音声エディター

一般的な紹介 Murf AIは、テキストを人間に近い音声に変換する、強力なオンライン人工知能音声生成ツールです。最大120以上のAI音声オプションを提供し、20以上の言語をサポートし、ポッドキャスト、ビデオ、プロのプレゼンテーションなど様々な状況に適しています。
10ヶ月前
02.3K
VideoLingo:视频转录单词级时间轴字幕,视频字幕翻译和本地化配音开源工具

VideoLingo: 動画書き起こし単語レベルタイムライン字幕、動画字幕翻訳、ローカライズ吹き替えオープンソースツール

概要 VideoLingoはNetflixの等級を発生させるように設計されているワンストップビデオ翻訳および局在化のダビング用具である 未加工機械翻訳および複数行のサブタイトルを除去し、全体的な知識を可能にするために良質の吹き替えを加える 言葉の障壁を渡って共有されるため。これによって、言語の壁を越えたグローバルな知識の共有が可能になります。
10ヶ月前
01.9K
ALog:便携AI语音日记应用,支持语音转文字。

ALog:音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...
7ヶ月前
02.3K
录咖:一站式音视频处理平台|视频生成|AI字幕|提取音频|语音转文字

Record Cafe: ワンストップ音声・映像処理プラットフォーム|動画生成|AI字幕|音声抽出|音声テキスト化

総合紹介 Record Cafeはワンストップの音声/動画処理プラットフォームで、AI動画対話、AI字幕、AI音声テキスト化サービスを提供する。画面録画、動画編集、GIF/音声変換などの機能があり、クラウドストレージや共有もサポートします。インターフェースは直感的で使いやすく、マルチスクリーン録画と多言語スマートフォンにも対応しています。
8ヶ月前
02.1K
FreeTTS:免费在线文字转语音工具|音频增强|音频剪辑

FreeTTS:無料オンライン音声合成ツール|オーディオエンハンスメント|オーディオクリップ

FreeTTS 概要 FreeTTSは、テキストを自然な音声ファイルに変換できる無料のオンライン音声合成ツールです。複数の言語とサウンドオプションをサポートし、ユーザーはテキストをMP3、WAV、OGG、ACC形式に変換することができます...
11ヶ月前
02.8K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...
11ヶ月前
02K
DupDub:AI驱动的视频编辑器|配音|视频翻译|照片数字人

DupDub:AI搭載ビデオエディター|ダビング|ビデオ翻訳|フォトデジタイザー

概要 Dupdubは、ユーザーの創造性をサポートする様々なAIツールを提供する、サイドヘビーポッドキャストおよびビデオプレゼンテーション作成プラットフォームです。テキストからビデオへの作成、AIによる音声やビデオの吹き替えサービス、ビデオ編集、文字起こし、字幕作成などの機能を備えています。 また、Dupdubは...
12ヶ月前
01.8K
通义听悟:阿里通义音视频内容转录AI助手

Tongyi Listening and Understanding: Ali Tongyi 音声・動画コンテンツ書き起こしAIアシスタント

総合紹介 Tongyi Listening and Understandingは、Aliyunが発表した、音声や動画コンテンツの書き起こしや分析に特化した作業学習AIアシスタントです。AliCloudの強力なAIモデルを利用して、音声や動画コンテンツをリアルタイムでテキストに書き起こし、翻訳、要約、位置決めなどの機能を提供します。Tongyi Listening Wooは、複数の言語とシナリオをサポートしています...
11ヶ月前
01.8K
Memo AI:视频转字幕、转换多语言字幕的本地客户端

Memo AI: 動画から字幕へのネイティブクライアント、多言語字幕の変換

概要 MemoAIは、ビデオやオーディオファイルをテキスト、字幕、メモに変換するために設計された強力なビデオ翻訳ツールです。YouTubeの動画でも、ポッドキャストでも、ローカルファイルでも、MemoAIは簡単に扱うことができます。中国語、英語、日本語など90以上の言語に対応しています。
8ヶ月前
02.5K