本文于 2025-01-18 13:42 更新,部分内容具有时效性,如有失效,请留言
综合介绍
RealtimeSTT 是一个高效、低延迟的实时语音转文字库,具备先进的语音活动检测和唤醒词激活功能。该项目由 Kolja Beigel 开发,旨在为需要快速、准确语音转文字的应用提供支持。无论是语音助手还是需要精确语音转录的应用,RealtimeSTT 都能提供出色的性能和易用性。
功能列表
- 实时语音转文字:实时将语音转录为文字,适用于各种应用场景。
- 语音活动检测:自动检测用户何时开始和停止说话,提高转录准确性。
- 唤醒词激活:支持唤醒词功能,用户可以通过特定词语激活系统。
- 低延迟:确保语音转文字过程中的低延迟,提升用户体验。
- 多平台支持:兼容多种操作系统和平台,方便集成。
- 开源代码:提供完整的开源代码,便于开发者进行二次开发和定制。
使用帮助
安装流程
- 克隆项目仓库:
git clone https://github.com/KoljaB/RealtimeSTT.git
- 进入项目目录:
cd RealtimeSTT
- 安装依赖:
pip install -r requirements.txt
- (可选)安装 GPU 支持:
pip install -r requirements-gpu.txt
使用方法
启动服务器
- 启动语音转文字服务器:
stt-server
- 服务器启动后,等待提示“speak now”。
客户端使用
- 启动客户端并连接到服务器:
stt
- 客户端启动后,开始说话,系统将实时转录语音为文字。
主要功能操作流程
实时语音转文字
- 导入
AudioToTextRecorder
类:
from RealtimeSTT import AudioToTextRecorder
- 定义处理文本的函数:
def process_text(text):
print(text)
- 启动录音并处理文本:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)
语音活动检测
- 系统会自动检测用户何时开始和停止说话,无需额外配置。
唤醒词激活
- 配置唤醒词功能,用户可以通过特定词语激活系统,具体配置请参考项目文档。
详细操作示例
打字一切所说内容
- 导入
AudioToTextRecorder
和pyautogui
:
from RealtimeSTT import AudioToTextRecorder
import pyautogui
- 定义处理文本的函数:
def process_text(text):
pyautogui.typewrite(text + " ")
- 启动录音并处理文本:
if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)