AI音声合成

全56記事

順番に並べる

Abogen：複数のテキスト形式をオーディオブックに変換するツール

一般的な紹介 Abogenは、ePub、PDF、またはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。自然で滑らかな音声を生成するためにKokoro-82Mモデルを使用し、同時字幕生成もサポートしているので、オーディオブックの制作に適しています...

11ヶ月前

078K

Kimi-Audio：オープンソースの音声処理と対話ベースモデル

一般的な紹介 Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは130以上のテストが行われています。

11ヶ月前

0124.7K

オンデバイスAI：iPhoneネイティブ対応のAI音声書き起こし＆チャットツール

一般的な紹介 On-Device AIは、完全にオフラインで動作するAIアプリで、iOS、macOS、およびvisionOSをサポートするAppleデバイス向けに設計されています。ローカルの大規模言語モデル（LLM）の実行、リアルタイムの音声転写、文書分析などを、リンクすることなく提供します。

11ヶ月前

075.7K

Vexa：リアルタイム会議記録・インテリジェント知識抽出ツール

包括的な紹介 Vexaはオープンソースのリアルタイム会議記録および知識管理プラットフォームで、効率的な会議記録とインテリジェントな知識抽出サービスを企業や個人に提供するように設計されています。API駆動の会議ロボットにより、Google MeetやZoomなどのプラットフォームに自動的に参加します。

12ヶ月前

0104.6K

リアルタイム音声テキスト化のためのオープンソースツール

概要 realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ローカルのWhisperモデルと組み合わせて効率的なテキスト変換を実現します。

1年前

067.9K

Transkriptor：音声とビデオをテキストに変換するAIスマート書き起こしツール

概要 TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまな場面でご利用いただけます。ユーザーはファイルをアップロードしたり、直接...

1年前

078.8K

Otter.ai：リアルタイム音声書き起こしツールを備えたインテリジェントな会議アシスタント

概要 Otter.aiはAIを搭載した会議管理・音声書き起こしツールで、音声をリアルタイムでテキストに変換し、会議メモ、サマリー、アクションアイテムを自動生成するコア機能を備えています。AIミーティングエージェントによってインテリジェントにサポートされ、自動的に...

1年前

068.6K

TurboScribe: オーディオやビデオを素早くテキストに変換するオンラインツール

概要 TurboScribeはAIベースのテープ起こしツールで、音声やビデオを素早くテキストに変換することに重点を置いています。98以上の言語をサポートし、99.8%の精度を持つため、音声コンテンツを効率的に処理する必要があるユーザーに適しています。ユーザーはファイルをアップロードしたり、テキストメモを生成したりすることができます...

最新のAIリソース # AI音声合成

1年前

087.7K

アクアボイス：アプリケーションを横断した音声入力で正確なテキストを生成する

一般的な紹介 Aqua Voiceは、スマートな音声ベースのテキスト生成ツールで、ユーザーの発話をフォーマットされたテキストに素早く変換することに重点を置いている。2023年にフィニアン・ブラウンとジャック・マッキンタイアによって開発され、米国を拠点としている。

最新のAIリソース # AI音声合成

1年前

0180.4K

ドルフィン：アジア言語認識とアジア言語のための音声テキストモデル

総合紹介 Dolphinは、DataoceanAIと清華大学によって開発された、アジア言語の音声認識と言語認識に特化したオープンソースモデルです。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしています。

1年前

062.2K

TwinMind: 無料オフライン音声テキスト変換アプリ

TwinMindは、ThirdEar AI, Inc.によって開発された、「すべてを記憶するのに役立つ」スマートツールです。携帯電話をポケットに入れたままでも、会話や会議、講義をリアルタイムで録音し、100以上の言語でテキスト化することができます。

1年前

060K

Wispr Flow: どんなアプリケーションでも音声で素早くテキスト入力

一般的な説明 Wispr Flowは音声でテキストを入力するツールで、ユーザーがコンピューターで素早く文章を書くことを支援します。タイピングの3倍の速さ」で、Word、Slack、G...などあらゆるアプリケーションにテキストを入力できます。

最新のAIリソース # AI音声合成

10ヶ月前

0127.4K

ミーティング：オープンソース・クライアントのローカル・リアルタイム文字起こしおよび議事録作成

一般的な紹介 Meeting Minutes（別名Meetily）は、Zackriya Solutionsによって開発されたフリーでオープンソースのAIミーティングアシスタントツールで、リアルタイムでミーティングの音声をキャプチャし、書き起こしテキストを生成し、自動的にミーティングを抽出することに重点を置いています...

1年前

0106.9K

Local-NotebookLM: オープンソースツールの音声ポッドキャストを生成するローカルPDF

概要 Local-NotebookLMはオープンソースプロジェクトで、ローカルで動作するインテリジェントな文書処理とコンテンツ生成ツールを提供することを目的としています。Google NotebookLMにインスパイアされ、ユーザーがPDFやその他のドキュメントを様々な...

1年前

088.3K

AssemblyAI：高精度音声テキスト・音声インテリジェンス分析プラットフォーム

一般的な紹介 AssemblyAIは音声AI技術に特化したプラットフォームで、開発者や企業に効率的な音声テキストおよび音声分析ツールを提供しています。その中心的なハイライトは、Universalシリーズのモデル、特に新しくリリースされたUniversal-2...

最新のAIリソース # AIオープンサービス # AI音声合成

1年前

070.5K

FireRedASR：多言語高精度音声認識のためのオープンソースモデル

一般的な紹介 FireRedASRは、Little Red Book FireRedチームによって開発され、オープンソース化された音声認識モデルです。このプロジェクトは開発者や研究者向けにGitHubでホストされており、...

1年前

0101K

WhisperChain：リアルタイム音声テキスト化と話し言葉の最適化

概論 WhisperChainはGitHubでホストされているAIベースのオープンソースプロジェクトで、開発者のクリス・チョイが主導している。主に音声をテキストに変換し、AI技術によって自動的に表現を最適化し、冗長な部分を削除するために使用される。

1年前

057.5K

LLPlayer: 対訳付きリアルタイム字幕を生成するビデオプレーヤー

概要 LLPlayerはGitHubでホストされている、開発者umlx5hによって作成された言語学習者のためのオープンソースメディアプレーヤーです。バイリンガル字幕表示、AI自動生成字幕、リアルタイム翻訳、単語検索など様々な便利な機能が統合されています。

10ヶ月前

0214.8K

CapsWriter-Offline：PC用音声入力・字幕書き起こしツール

概要 CapsWriter-Offlineは、GitHubでホストされており、開発者HaujetZhaoによって構築されたPC用の音声入力および字幕書き起こしツールです。完全にオフラインで動作するため、インターネット接続を必要とせず、音声入力やオーディオビジュアル...

1年前

067.5K

ウィスパーインプット：Groqを使った無料・高速の音声テキスト起こしサービス

概要 Whisper Inputは、Optionボタンを押すことで音声の録音を開始し、ボタンを離すことで録音を終了することができるオープンソースの音声書き起こしツールです。このツールは、Groq Whisper Large V3 Turbo ... を呼び出します。

1年前

073.9K

LiberSonora：オーディオブック字幕抽出と多言語翻訳、オーディオブックの多言語書き起こし

包括的な紹介 LiberSonoraは、「自由な音」を意味し、強力なAI対応のオープンソースオーディオブックツールセットです。インテリジェントな字幕抽出、AIタイトル生成、多言語翻訳などをサポートし、GPUアクセラレーションによるバッチオフライン処理が可能です。

1年前

054.6K

AudioNotes: 音声とビデオコンテンツをすばやく抽出し、構造化されたノートを作成します。

総合紹介 AudioNotesは、FunASRとQwen2に基づいて構築された、オーディオ/ビデオから構造化ノートへのシステムです。オーディオ/ビデオコンテンツを素早く抽出し、大きなモデルを呼び出して構造化されたMarkdownノートを生成することができます。

1年前

057.7K

Orate：よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは、音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーが強制的に音声を作成できるようにします。

1年前

064.7K

PengChengStarling：对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: Whisper-Large v3より小型で高速な多言語音声テキスト変換ツール

包括的な紹介 PengChengStarling (PengCheng Labs) は、異なる言語の音声を対応するテキストに変換できる多言語自動音声認識 (ASR) ツールです。このツールキットはicefallプロジェクトに基づいて開発され、完全な音声認識プロセスを提供します...

1年前

060.9K

RealtimeSTT：实时语音转文字工具，基于Whisper实现低延迟流式语音识别

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

概論 RealtimeSTTは、高度な音声アクティビティ検出とウェイクワードアクティベーションを備えた、効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって開発され、高速で正確な音声テキスト変換を必要とするアプリケーションをサポートします。

AIニュース # AI Java オープンソースプロジェクト # AI音声合成

1年前

089.8K

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspber...など複数のプラットフォームをサポートしています。

1年前

0286.8K

Acoust: オンラインAI音声生成・音声合成（TTS）サービスプラットフォーム

概要 Acoustは、最新のAI技術を駆使してリアルな音声を生成する、オンラインAI音声生成・音声合成（TTS）サービスプラットフォームです。また、強力なビデオ編集ツールも提供しており、ユーザーは複数のソフトウェアを使用することなくビデオ制作を完了することができます。

最新のAIリソース # AI音声合成 # AI音声合成

1年前

054.4K

Notta: 会議、インタビュー、録音を自動的に書き起こすAI会議録音・音声書き起こしツール

一般的な説明 Nottaは、ユーザーが自動的に検索可能なテキストに会議、インタビューやオーディオ録音を変換するために設計された強力なAI会議録音と音声転写ツールです。Nottaを使えば、ユーザーは簡単に書き起こし、編集、要約、共同作業を行うことができ、生産性を高めることができます。

1年前

078.5K

AIの自作組：AIによる映像の多言語字幕の自動生成と翻訳

概論 AIの字幕組は、動画字幕の自動抽出、自動文字起こし、自動翻訳を可能にする、強力なコマンドライン動画字幕処理ツールです。このツールには、ウィスパー音声を含む高度なAI技術が統合されています。

1年前

064.1K

FunClip：ビデオコンテンツをショートフィルムにインテリジェントに編集。

総合紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全オープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合し、ビデオ内の音声を正確に識別することができます...

1年前

0112.7K

BetterWhisperX：話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

はじめに BetterWhisperXは、効率的で正確な自動音声認識（ASR）サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico ...

1年前

076.8K

フリード：医師と患者の会話を正確に書き起こし、診察記録の事務作業を軽減するAI医療記録アシスタント

概要 Freedは、医療従事者向けに設計されたAI医療記録アシスタントです。高度なAI技術により、医師をはじめとする医療従事者の診察記録の自動化、ペーパーワークの削減、作業効率の向上を支援します。FreedのAIテープ起こし...

最新のAIリソース # AI音声合成

1年前

057.9K

Voicenotes：AI音声メモ、音声録音・書き起こし、会議内容のインテリジェント管理

一般的な紹介 Voicenotesは、ユーザーが簡単に音声メモや会議を記録し、管理するために設計されたスマートな音声メモアプリです。ユーザーは自分の考えを話すだけで、Voicenotesが自動的にテキストに書き起こします。

最新のAIリソース # AIノート # AI音声合成

1年前

066.3K

Voice-Pro：开源多功能视频翻译工具，语音转录并翻译为多语言，Windows一键安装

Voice-Pro: オープンソースの多機能ビデオ翻訳ツール、多言語への音声書き起こしおよび翻訳、Windowsワンクリックインストール

概論 Voice-Proは、Gradio WebUIをベースにした多機能ツールで、音声合成、テキスト読み上げ、リアルタイム翻訳、YouTubeビデオダウンロード、人声分離をサポートします。Whisper、Faster-Wh...

1年前

072.6K

Zamzar：多功能在线文件格式转换工具，视频转换|音频转换|图片转换|文档转换

Zamzar: 多機能オンラインファイル形式変換ツール, 動画変換, 音声変換, 画像変換, 文書変換

概要 Zamzarは、1200以上のファイル形式をサポートする強力なオンラインファイル変換ツールです。文書、写真、ビデオ、オーディオ、電子ブックなど、Zamzarは迅速かつ効率的に変換できます。ユーザーはソフトウェアをダウンロードする必要はありません。

最新のAIリソース # AIオープンサービス # AI音声合成

1年前

079.4K

AI Hear：オフラインでネイティブに動作するリアルタイム音声書き起こし・翻訳ソフトウェア

概要 MacBookをお使いの方は、AI Hearをお試しください。音声を録音し、リアルタイムで現地の音声をテキストに変換し、翻訳し、最終的には字幕を書き出すことができます。国をまたいだ会議や英語のオーディオブックのリスニングをサポートします。 AI Hearはローカルで動作するソフトウェアで、ワンクリックでリアルタイムの...

最新のAIリソース # AI翻訳 # AI音声合成

1年前

063.6K

SoniTranslate：开源视频翻译配音解决方案，多人配音、调整语速与模仿原声

SoniTranslate: オープンソース動画翻訳ダビングソリューション、複数ダビング、速度調整、オリジナルサウンドの模倣

概要 SoniTranslate はパワフルでユーザーフレンドリーなビデオ多言語ダビングツールです。高度な音声認識と機械翻訳技術により、ビデオコンテンツを多言語に翻訳し、音声を同期させます。この ...

最新のAIリソース # AI音声合成 # AI翻訳 # AI音声合成

1年前

0139K

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRはAlibaba Dharmo Academyが学術研究と産業応用の橋渡しをするために開発したオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、スピーキング...など、幅広い音声認識機能をサポートしています。

2年前

0158.4K

AsrTools：音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrToolsはCutscene、Racer、Must Cutなどの大手メーカーのインタフェースを内蔵したインテリジェントな音声テキスト変換ツールです。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の単語を出力することができます。

2年前

077.3K

ハッピースクライブ：音声書き起こし・ビデオ字幕作成プラットフォーム｜無料ビデオ字幕作成ソフト

ハッピースクライブ概要ハッピースクライブは、高精度で音声をテキストに変換し、複数の言語とフォーマットをサポートする、自動および手動の音声書き起こしサービスを提供します。インタラクティブエディタ、コラボレーションツール、複数のエクスポートフォーマット、機械翻訳、その他の機能が含まれています。

最新のAIリソース # AI音声合成 # AIオーディオ／ビデオ・エディター

2年前

069.2K

Whisper GPGPU：运行在Windows的OpenAI Whisper|Whisperdesktop

Whisper GPGPU: Windows上で動作するOpenAI Whisper|Whisperdesktop

概要 WhisperはConst-meによって開発されたGitHubのオープンソースプロジェクトで、GPGPUを使用したOpenAIのWhisper自動音声認識（ASR）モデルの高性能推論に焦点を当てています。このプロジェクトはMPL-2.0ライセンスに基づいています。

最新のAIリソース # AI音声合成

2年前

0106.3K

Buzz: オープンソースのオフライン音声書き起こし翻訳ツール｜IOS音声書き起こし

Buzz 概要 Buzzは、chidiwilliamsによって作成されたオープンソースプロジェクトであり、パーソナルコンピュータ上でオフラインでの音声の書き起こしや翻訳を可能にする。このプロジェクトはOpenAIのWhisperテクノロジーに依存しており、ユーザーはインターネット接続に頼らずに音声テキストを...

最新のAIリソース # AI音声合成

2年前

0143.2K

Deepgram: 高精度音声認識・合成ソリューション向けサービスAPI

概要ディープグラムは、音声認識と自然言語処理技術に特化した企業であり、強力なSpeech-to-TextおよびText-to-Speech APIを提供しています。

最新のAIリソース # AIオープンサービス # AI音声合成

1年前

075.2K

Murf AI: ボイスチェンジャー|音声テキスト|テキストから音声へ|音声エディター

一般的な紹介 Murf AIは、テキストを人間に近い音声に変換する、強力なオンライン人工知能音声生成ツールです。最大120以上のAI音声オプションを提供し、20以上の言語をサポートし、ポッドキャスト、ビデオ、プロのプレゼンテーションなど様々な状況に適しています。

最新のAIリソース # AI音声合成 # AI音声合成

2年前

057K

VideoLingo：视频转录单词级时间轴字幕，视频字幕翻译和本地化配音开源工具

VideoLingo: 動画書き起こし単語レベルタイムライン字幕、動画字幕翻訳、ローカライズ吹き替えオープンソースツール

概要 VideoLingoはNetflixの等級を発生させるように設計されているワンストップビデオ翻訳および局在化のダビング用具である未加工機械翻訳および複数行のサブタイトルを除去し、全体的な知識を可能にするために良質の吹き替えを加える言葉の障壁を渡って共有されるため。これによって、言語の壁を越えたグローバルな知識の共有が可能になります。

1年前

065.5K

ALog：音声読み上げ機能付きの携帯型AI音声日記アプリ。

一般的な紹介 ALogはAIベースの音声日記アプリケーションで、ユーザーが音声で日常生活を記録できるように設計されています。duxinsによって開発され、GitHubでオープンソース化されている。ユーザーは音声入力で日記を記録することができ、アプリは自動的に音声をテキストに変換します...

1年前

061K

Record Cafe: ワンストップ音声・映像処理プラットフォーム|動画生成|AI字幕|音声抽出|音声テキスト化

総合紹介 Record Cafeはワンストップの音声/動画処理プラットフォームで、AI動画対話、AI字幕、AI音声テキスト化サービスを提供する。画面録画、動画編集、GIF/音声変換などの機能があり、クラウドストレージや共有もサポートします。インターフェースは直感的で使いやすく、マルチスクリーン録画と多言語スマートフォンにも対応しています。

1年前

066.6K

CrisperWhisper：正確な逐語音声書き起こしツール

概要 CrisperWhisperは、OpenAI Whisperをベースとした、高速で正確な単語単位の音声書き起こしに特化した高度な音声認識ツールです。スピーチのフィルやポーズがあっても、正確な単語レベルのタイムスタンプを提供します。

1年前

071K

Babelfish.ai：ブラウザで動作するリアルタイム音声書き起こし翻訳アプリケーション

概論 Babelfish.aiは、Huggingface Transformer.jsとSupabase Realtimeで構築されたリアルタイム文字起こし・翻訳アプリケーションです。このアプリケーションは、ブラウザで大きなモデルを読み込むことができます。

2年前

052.7K

FreeTTS：無料オンライン音声合成ツール|オーディオエンハンスメント|オーディオクリップ

FreeTTS 概要 FreeTTSは、テキストを自然な音声ファイルに変換できる無料のオンライン音声合成ツールです。複数の言語とサウンドオプションをサポートし、ユーザーはテキストをMP3、WAV、OGG、ACC形式に変換することができます...

2年前

068.5K

Easy Voice Toolkit: 地域展開のためのAI音声ツールキット

包括的な紹介 Easy-Voice-ToolkitはOpen Source Speech Projectに基づく多機能なツールキットで、音声認識、音声トランスクリプション、音声変換、データセット作成、モデルトレーニングのための幅広い自動音声ツールを提供します。ユーザーは、必要に応じてこれらのツールを選択的に使用することができます...

2年前

063.5K

DupDub：AI搭載ビデオエディター｜ダビング｜ビデオ翻訳｜フォトデジタイザー

概要 Dupdubは、ユーザーの創造性をサポートする様々なAIツールを提供する、サイドヘビーポッドキャストおよびビデオプレゼンテーション作成プラットフォームです。テキストからビデオへの作成、AIによる音声やビデオの吹き替えサービス、ビデオ編集、文字起こし、字幕作成などの機能を備えています。また、Dupdubは...

最新のAIリソース # AIデジタルマン # AI音声合成 # AI音声合成

2年前

055.1K

Tongyi Listening and Understanding: Ali Tongyi 音声・動画コンテンツ書き起こしAIアシスタント

総合紹介 Tongyi Listening and Understandingは、Aliyunが発表した、音声や動画コンテンツの書き起こしや分析に特化した作業学習AIアシスタントです。AliCloudの強力なAIモデルを利用して、音声や動画コンテンツをリアルタイムでテキストに書き起こし、翻訳、要約、位置決めなどの機能を提供します。Tongyi Listening Wooは、複数の言語とシナリオをサポートしています...

2年前

067.7K