AIパーソナル・ラーニング
と実践的なガイダンス
TRAE
全53記事

タグ: AI 音声合成 2ページ目

Orate:集成知名语音生成、语音转录与变声模型的统一API-首席AI分享圈

Orate:よく知られた音声生成、音声トランスクリプション、音声モデリングを統合する統一API

概要 Orateは音声生成と文字起こしに特化したAIツールキットです。Orateは、OpenAI、ElevenLabs、AssemblyAIなどの主要なAIプロバイダーとシームレスに統合する統一APIを提供し、ユーザーがリアルで人間のような音声を作成したり、音声をテキストに書き起こしたりするのを支援します。

RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别-首席AI分享圈

RealtimeSTT: Whisperをベースとした低遅延ストリーミング音声認識のためのリアルタイム音声テキスト変換ツール

はじめに RealtimeSTT は効率的で低レイテンシーのリアルタイム音声テキスト変換ライブラリです。Kolja Beigelによって開発され、高速で正確な音声テキスト変換を必要とするアプリケーションをサポートします。音声アシスタントをする場合でも、音声をテキストに変換する必要がある場合でも、...

Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成-首席AI分享圈

Sherpa-ONNX: ONNXRuntimeによるオフライン音声認識と合成

概要 sherpa-onnxは、Next-gen Kaldiチームによって開発されたオープンソースプロジェクトで、効率的なオフライン音声認識および音声合成ソリューションを提供します。Android、iOS、Raspberry Piなど様々なプラットフォームに対応し、ネットワーク接続がない環境でもリアルタイムに音声認識・音声合成を行うことができます。

Acoust:在线AI语音生成和文本转语音(TTS)服务平台-首席AI分享圈

Acoust: オンラインAI音声生成・音声合成(TTS)サービスプラットフォーム

Acoustは、最新のAI技術を使ってリアルな音声を生成するオンラインAI音声生成・音声合成(TTS)サービスプラットフォームです。このプラットフォームはまた、ユーザーが複数のソフトウェアを使用することなくビデオを作成できる強力なビデオ編集ツールも提供しています。

Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音-首席AI分享圈

Notta: 会議、インタビュー、録音を自動的に書き起こすAI会議録音・音声書き起こしツール

はじめに Nottaは、会議、インタビュー、音声録音を検索可能なテキストに自動変換するために設計された、強力なAI会議録音・音声書き起こしツールです。Nottaを使用すると、ユーザーは簡単に書き起こし、編集、要約、共同作業を行うことができ、生産性が向上します。Nottaは58の言語での書き起こしをサポートしています...

FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪-首席AI分享圈

FunClip:ビデオコンテンツをショートフィルムにインテリジェントに編集。

包括的な紹介 FunClipは、アリババ達磨研究所のTONGYI Speech Labによって開発された、完全にオープンソースのローカライズされた自動ビデオ編集ツールです。このツールは、産業グレードのParaformer-Large音声認識モデルを統合しており、ビデオ内の音声コンテンツを正確に認識し、テキストに変換することができます。特別な機能...

BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳-首席AI分享圈

BetterWhisperX:話者から切り離された自動音声認識により、高精度の単語レベルのタイムスタンプを提供

概要 BetterWhisperXは、効率的で正確な自動音声認識(ASR)サービスを提供することに重点を置いたWhisperXプロジェクトの最適化バージョンです。WhisperXの改良版として、このプロジェクトはFederico Torrielliによって管理されており、プロジェクトの継続的な更新とパフォーマンスの向上に努めています。

Freed:AI医疗抄写助手,准确转录医生和患者对话,减少就诊记录文书工作-首席AI分享圈

フリード:医師と患者の会話を正確に書き起こし、診察記録の事務作業を軽減するAI医療記録アシスタント

概要 Freedは、医療従事者向けに設計されたAI医療記録アシスタントです。医師やその他の医療従事者が、高度なAI技術によって患者の診察記録を自動化し、ペーパーワークを削減し、生産性を向上させることを支援します。FreedのAIテープ起こしアシスタントは、リアルタイムで聞き取り、...

Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装-首席AI分享圈

Voice-Pro: オープンソースの多機能ビデオ翻訳ツール、多言語への音声書き起こしおよび翻訳、Windowsワンクリックインストール

概論 Voice-Proは、Gradio WebUIをベースとした、音声合成、テキスト読み上げ、リアルタイム翻訳、YouTubeビデオダウンロード、人声分離をサポートする多機能ツールです。Whisper、Faster-Whisper、Whisper-Timestamped技術を統合し、効率的な音声翻訳を提供します。

Zamzar:多功能在线文件格式转换工具,视频转换|音频转换|图片转换|文档转换-首席AI分享圈

Zamzar: 多機能オンラインファイル形式変換ツール, 動画変換, 音声変換, 画像変換, 文書変換

概要 Zamzarは、1200以上のファイル形式をサポートする強力なオンラインファイル変換ツールです。文書、写真、ビデオ、オーディオ、電子ブックなど、Zamzarは迅速かつ効率的に変換できます。ユーザーはソフトウェアをダウンロードする必要がなく、テキストを選択するだけです...

AI Hear:本地离线运行的实时语音转录与翻译软件-首席AI分享圈

AI Hear:オフラインでネイティブに動作するリアルタイム音声書き起こし・翻訳ソフトウェア

概要 MacBookをお使いの方は、AI Hearをお試しください。音声を録音し、リアルタイムで現地の音声をテキストに変換し、翻訳し、最終的には字幕を書き出すことができます。国をまたいだ会議や英語のオーディオブックのリスニングをサポートします。 AI Hearは、ワンクリックでリアルタイムの翻訳と文字起こしができ、複数の音声をサポートする、ローカルで動作するソフトウェアです。

SoniTranslate:开源视频翻译配音解决方案,多人配音、调整语速与模仿原声-首席AI分享圈

SoniTranslate: オープンソース動画翻訳ダビングソリューション、複数ダビング、速度調整、オリジナルサウンドの模倣

概要 SoniTranslate はパワフルでユーザーフレンドリーなビデオ多言語ダビングツールです。高度な音声認識と機械翻訳技術により、ビデオコンテンツを多言語に翻訳し、音声を同期させます。このプロジェクトは、Gradi...

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别-首席AI分享圈

FunASR: オープンソース音声認識ツールキット、話者分離/多人数対話音声認識

総合紹介 FunASRは、学術研究と産業アプリケーションの橋渡しをするために、アリババのDharma Instituteによって開発されたオープンソースの音声認識ツールキットです。音声認識(ASR)、音声終点検出(VAD)、句読点復元、言語モデリング、話者検証、発話...など、幅広い音声認識機能をサポートしています。

AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端-首席AI分享圈

AsrTools:音声字幕ツール、Cutscene、Racer、Must-Cutへのインターフェースを内蔵した軽量クライアント

包括的な紹介 AsrTools は、Cutscene, Racer, Must Cut などの大手のインターフェースを内蔵したインテリジェントな音声テキスト変換ツールです。GPU や面倒な設定を必要とせず、効率的なマルチスレッドバッチ処理をサポートします。PyQt5をベースに開発されており、美しくユーザーフレンドリーなインターフェイスで、SRTやTXT形式の字幕ファイルを出力できます。このツールは...

Happy Scribe:音频转录和视频字幕平台|免费视频字幕编辑软件-首席AI分享圈

ハッピースクライブ:音声書き起こし・ビデオ字幕作成プラットフォーム|無料ビデオ字幕作成ソフト

ハッピースクライブ概要 ハッピースクライブは、高精度で音声をテキストに変換し、複数の言語とフォーマットをサポートする、自動および手動の音声書き起こしサービスを提供します。インタラクティブエディタ、コラボレーションツール、複数のエクスポートフォーマット、機械翻訳などが含まれています。このプラットフォームは、安全で信頼できるものです。

Whisper GPGPU:运行在Windows的OpenAI Whisper|Whisperdesktop-首席AI分享圈

Whisper GPGPU: Windows上で動作するOpenAI Whisper|Whisperdesktop

概要 WhisperはConst-meによって開発されたGitHubのオープンソースプロジェクトで、GPGPUを使用したOpenAIのWhisper自動音声認識(ASR)モデルの高性能推論に焦点を当てています。このプロジェクトはMPL-2.0ライセンスの下でリリースされており、最新のバージョン1.12は2023年7月22日にリリースされた。その代わりに...

ja日本語