
实时语音转文字的开源工具
综合介绍 realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托管在 G...
综合介绍 realtime-transcription-fastrtc 是一个开源项目,专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流,结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护,托管在 G...
综合介绍 Transkriptor 是一个人工智能驱动的转录工具,专注于将音频和视频快速转为文字。它支持超过100种语言,准确率高达99%,适用于会议、采访、课堂笔记等多种场景。用户可以上传文件、直接录音或通过链接转...
开启 Builder 智能编程模式,无限量使用 DeepSeek-R1 和 DeepSeek-V3 ,对比海外版体验更加流畅。只需输入中文指令,不懂编程的小白也可以零门槛编写自己的应用。
综合介绍 Otter.ai 是一个人工智能驱动的会议管理与语音转录工具,核心功能是将语音实时转为文字,并自动生成会议笔记、摘要和行动项。它通过 AI Meeting Agent 提供智能支持,能自动加入 Zoom、Google Meet 等会...
综合介绍 TurboScribe 是一个基于人工智能的转录工具,专注于将音频和视频快速转为文字。它支持超过98种语言,准确率高达99.8%,适合需要高效处理语音内容的用户。用户可以上传文件,生成文字记录或字幕,操作简...
综合介绍 Aqua Voice 是一个基于语音的智能文本生成工具,专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年,总部位于美国旧金山,隶属于 Y Combinator W24 孵化项目。A...
综合介绍 Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型,专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言,以及 22 种中国方言。模型基于超过 21 万小时的...
综合介绍 TwinMind 是由 ThirdEar AI, Inc. 开发的一款智能工具,主打“帮你记住一切”。它能把对话、会议或讲座实时录下来并转成文字,支持 100 多种语言,哪怕手机放口袋里也能离线用。用户不用自己记笔记,TwinM...
综合介绍 Wispr Flow 是一个通过语音输入文字的工具,帮助用户在电脑上快速写作。它主打“3倍于打字速度”的体验,用户只需自然说话,就能将文字输入到任何应用中,比如 Word、Slack 或 Gmail。Wispr Flow 支持100...
综合介绍 Meeting Minutes(又名 Meetily)是由 Zackriya Solutions 开发的一款免费开源的 AI 会议助手工具,专注于实时捕获会议音频、生成转录文本并自动提取会议摘要。该工具完全在本地设备上运行,支持 macOS ...
综合介绍 Local-NotebookLM 是一个开源项目,旨在提供本地运行的智能文档处理与内容生成工具。它受到 Google NotebookLM 的启发,专注于帮助用户将 PDF 等文档转化为多种输出格式,如播客、访谈或讲座等,同时支...
综合介绍 AssemblyAI 是一个专注于语音AI技术的平台,为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型,尤其是最新发布的 Universal-2,这是 AssemblyAI 迄今最先进的语音...
综合介绍 FireRedASR 是由小红书 FireRed 团队开发并开源的语音识别模型,专注于提供高精度、多语言支持的自动语音识别(ASR)解决方案。项目托管于 GitHub,面向开发者与研究者,提供工业级设计,支持普通话、中...
综合介绍 WhisperChain 是一个基于人工智能的开源项目,托管在 GitHub 上,由开发者 Chris Choy 主导开发。它主要用于将语音转化为文字,并通过 AI 技术自动优化表达,去除冗余的口语化词语(如“啊”“嗯”等填充词...
综合介绍 LLPlayer 是一款专为语言学习者设计的开源媒体播放器,托管于 GitHub,由开发者 umlx5h 创建。它集成了多种实用功能,如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等,旨在帮助用户通过观看视...
综合介绍 CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具,托管于 GitHub,由开发者 HaujetZhao 打造。它完全离线运行,无需联网即可实现语音转文字和音视频文件转录字幕的功能,支持无限时长录音...
综合介绍 Whisper Input 是一个开源的语音转译工具,用户可以通过按下 Option 按钮开始录制语音,抬起按钮结束录制。该工具调用 Groq Whisper Large V3 Turbo 模型进行语音转译,能够在 1-2 秒内快速反馈转译结果...
综合介绍 LiberSonora,寓意“自由的声音”,是一个AI赋能的强大开源有声书工具集。该工具集支持智能字幕提取、AI标题生成、多语言翻译等功能,能够在GPU加速下进行批量离线处理。LiberSonora的设计理念是通过模块...
综合介绍 AudioNotes 是一个基于 FunASR 和 Qwen2 构建的音视频转结构化笔记系统。它能够快速提取音视频内容,并调用大模型进行整理,生成一份结构化的 Markdown 笔记,方便用户快速阅读和查找信息。该系统支持多...
综合介绍 Orate 是一个专注于语音生成与转录的人工智能工具包。它提供了一个统一的API,能够与领先的AI提供商(如OpenAI、ElevenLabs和AssemblyAI)无缝集成,帮助用户创建逼真、类人语音并将音频转录为文本。Ora...