AI Speech to Text

Insgesamt 56 Artikel
Abogen:将多种文本格式转换为有声读物的工具

Abogen: ein Tool zur Konvertierung verschiedener Textformate in Hörbücher

Allgemeine Einführung Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in qualitativ hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, was für die Produktion von Hörbüchern geeignet ist...
vor 3 Monaten
0947
Kimi-Audio:开源音频处理与对话基础模型

Kimi-Audio: Open-Source-Audioverarbeitung und Dialogbasis-Modell

Allgemeine Einführung Kimi-Audio ist ein Open-Source-Audiobasismodell, das von Moonshot AI entwickelt wurde und sich auf Audioverstehen, -erzeugung und -dialog konzentriert. Es unterstützt eine breite Palette von Audioverarbeitungsaufgaben wie Spracherkennung, Audio-Q&A und Sprach-Emotionserkennung. Das Modell wurde über 130 Mal getestet...
vor 3 Monaten
0986
On Device AI:iPhone本地运行的AI语音转录与聊天工具

On Device AI: AI-Sprachtranskription und Chat-Tool für iPhone Native Running

Allgemeine Einführung On-Device AI ist eine KI-App, die komplett offline läuft und für Apple-Geräte entwickelt wurde, die iOS, macOS und visionOS unterstützen. Sie bietet die Ausführung eines lokalen, groß angelegten Sprachmodells (LLM), Sprachtranskription in Echtzeit, Dokumentenanalyse und vieles mehr, ohne dass eine...
vor 3 Monaten
0950
Vexa:实时会议转录与智能知识提取工具

Vexa: ein Tool zur Echtzeit-Transkription von Sitzungen und zur intelligenten Wissensextraktion

Umfassende Einführung Vexa ist eine Open-Source-Plattform für die Echtzeit-Transkription von Meetings und das Wissensmanagement, die entwickelt wurde, um effiziente Meeting-Aufzeichnungen und intelligente Wissensextraktionsdienste für Unternehmen und Privatpersonen bereitzustellen. Sie verbindet sich automatisch mit Plattformen wie Google Meet, Zoom usw. durch API-gesteuerte Meeting-Roboter...
vor 4 Monaten
01K
Transkriptor:将音频和视频转为文字的AI智能转录工具

Transkriptor: das intelligente KI-Transkriptionstool, das Audio und Video in Text umwandelt

Allgemeine Einführung Transkriptor ist ein KI-gesteuertes Transkriptionstool, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt über 100 Sprachen mit einer Genauigkeitsrate von bis zu 99% und eignet sich für eine Vielzahl von Szenarien wie Meetings, Interviews, Notizen im Klassenzimmer und mehr. Benutzer können Dateien hochladen, direkt...
vor 4 Monaten
01.3K
Otter.ai:智能会议助手与实时语音转录工具

Otter.ai: Intelligenter Meeting-Assistent mit Echtzeit-Sprachtranskriptionstool

Allgemeine Beschreibung Otter.ai ist ein KI-gestütztes Meeting-Management- und Sprachtranskriptionstool mit Kernfunktionen zur Umwandlung von Sprache in Text in Echtzeit und zur automatischen Erstellung von Meeting-Notizen, Zusammenfassungen und Aktionspunkten. Es wird auf intelligente Weise von einem KI-Meeting-Agenten unterstützt, der automatisch...
vor 4 Monaten
01.1K
TurboScribe:快速将音频和视频转为文字的在线工具

TurboScribe: das Online-Tool für die schnelle Umwandlung von Audio und Video in Text

Allgemeine Beschreibung TurboScribe ist ein KI-basiertes Transkriptionswerkzeug, das sich auf die schnelle Umwandlung von Audio und Video in Text konzentriert. Es unterstützt mehr als 98 Sprachen mit einer Genauigkeitsrate von 99,8% für Benutzer, die Sprachinhalte effizient verarbeiten müssen. Benutzer können Dateien hochladen, Textnotizen generieren...
vor 4 Monaten
01.1K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: Asiatische Spracherkennung und Speech-to-Text-Modelle für asiatische Sprachen

Umfassende Einführung Dolphin ist ein Open-Source-Modell, das von DataoceanAI und der Tsinghua-Universität entwickelt wurde und sich auf Spracherkennung und Spracherkennung für asiatische Sprachen konzentriert. Es unterstützt 40 Sprachen in Ostasien, Südasien, Südostasien und dem Nahen Osten sowie 22 chinesische Dialekte...
vor 4 Monaten
01K
Meeting:本地实时转录和生成会议纪要的开源客户端

Meeting: Lokale Echtzeit-Transkription und Erstellung von Meeting-Protokollen des Open-Source-Clients

Allgemeine Einführung Meeting Minutes (auch bekannt als Meetily) ist ein kostenloses und quelloffenes KI-Meeting-Assistententool, das von Zackriya Solutions entwickelt wurde und sich darauf konzentriert, Audioaufnahmen von Meetings in Echtzeit zu erfassen, transkribierten Text zu...
vor 5 Monaten
01.3K
Local-NotebookLM:本地PDF生成语音播客的开源工具

Local-NotebookLM: lokales PDF zur Erstellung von Sprachpodcasts von Open-Source-Tools

Umfassende Einführung Local-NotebookLM ist ein Open-Source-Projekt, das darauf abzielt, lokal ausgeführte intelligente Dokumentverarbeitungs- und Inhaltserstellungswerkzeuge bereitzustellen. Es ist inspiriert von Google NotebookLM und konzentriert sich auf die Unterstützung von Benutzern bei der Umwandlung von PDF- und anderen Dokumenten in eine Vielzahl von ...
vor 5 Monaten
01.1K
FireRedASR:多语言高精度语音识别开源模型

FireRedASR: Ein Open-Source-Modell für mehrsprachige hochpräzise Spracherkennung

Allgemeine Einführung FireRedASR ist ein Spracherkennungsmodell, das vom Little Red Book FireRed-Team entwickelt und als Open Source zur Verfügung gestellt wird. Es konzentriert sich auf die Bereitstellung hochpräziser, mehrsprachengestützter automatischer Spracherkennungslösungen (ASR). Das Projekt wird auf GitHub für Entwickler und Forscher gehostet, und bietet...
vor 5 Monaten
01.4K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: ein Videoplayer, der in Echtzeit Untertitel mit zweisprachiger Übersetzung erzeugt

Allgemeine Einführung LLPlayer ist ein Open-Source-Medienplayer für Sprachschüler, der auf GitHub gehostet und vom Entwickler umlx5h erstellt wurde. Es integriert eine Vielzahl von nützlichen Funktionen wie zweisprachige Untertitel-Anzeige, AI automatisch generierte Untertitel, Echtzeit-Übersetzung und Wortsuche...
vor 2 Monaten
02.3K
LiberSonora:有声书字幕提取与多语言翻译,有声小说转录为多语言

LiberSonora: Extraktion von Hörbuchuntertiteln und mehrsprachige Übersetzung, Transkription von Hörbüchern in mehrere Sprachen

Umfassende Einführung LiberSonora, was so viel wie "freier Klang" bedeutet, ist ein leistungsstarkes KI-gestütztes Open-Source-Hörbuch-Toolset. Es unterstützt intelligente Untertitel-Extraktion, KI-Titel-Generierung, mehrsprachige Übersetzung usw. und ist in der Lage, Batch-Offline-Verarbeitung unter GPU-Beschleunigung...
vor 6 Monaten
01.4K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: Eine einheitliche API für die Integration von bekannter Spracherzeugung, Sprachtranskription und Sprachmodellierung

Allgemeine Einführung Orate ist ein KI-Toolkit, das sich auf Spracherzeugung und Transkription konzentriert. Es bietet eine einheitliche API, die sich nahtlos mit führenden KI-Anbietern wie OpenAI, ElevenLabs und AssemblyAI integrieren lässt, um Nutzern zu helfen,...
vor 6 Monaten
01.7K
PengChengStarling:对比Whisper-Large v3更小、更快的多语言语音转文字工具

PengChengStarling: Kleineres und schnelleres mehrsprachiges Speech-to-Text-Tool als Whisper-Large v3

Umfassende Einführung PengChengStarling (PengCheng Labs) ist ein mehrsprachiges Tool zur automatischen Spracherkennung (ASR), das Sprache in verschiedenen Sprachen in entsprechenden Text umwandeln kann. Dieses Toolkit wurde auf der Grundlage des icefall-Projekts entwickelt und bietet einen vollständigen Spracherkennungsprozess...
vor 6 Monaten
01.4K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: Echtzeit-Sprache-zu-Text-Tool für Streaming-Spracherkennung mit niedriger Latenzzeit auf der Grundlage von Whisper

Allgemeine Einführung RealtimeSTT ist eine effiziente Echtzeit-Sprache-zu-Text-Bibliothek mit fortschrittlicher Sprachaktivitätserkennung und Wake-Word-Aktivierung mit geringer Latenz. Sie wurde von Kolja Beigel entwickelt, um Anwendungen zu unterstützen, die eine schnelle und genaue Sprache-zu-Text...
vor 7 Monaten
01.8K
Acoust:在线AI语音生成和文本转语音(TTS)服务平台

Acoust: Online-KI-Spracherzeugung und Text-to-Speech (TTS)-Dienstplattformen

Allgemeine Einführung Acoust ist eine Online-KI-Plattform für Spracherzeugung und Text-to-Speech (TTS), die die neueste KI-Technologie nutzt, um realistische Sprache zu erzeugen. Die Plattform bietet außerdem leistungsstarke Videobearbeitungstools, mit denen die Benutzer die Videoproduktion abschließen können, ohne dass sie mehrere Softwareprogramme...
vor 7 Monaten
01.4K
Notta:AI会议记录与音频转录工具,自动转录会议、采访或录音

Notta: KI-Tool zur Aufzeichnung und Transkription von Besprechungen, Interviews oder Aufzeichnungen

Allgemeine Beschreibung Notta ist ein leistungsstarkes KI-Tool für die Aufzeichnung und Transkription von Meetings, Interviews oder Aufzeichnungen, das Benutzern hilft, diese automatisch in durchsuchbaren Text umzuwandeln. Mit Notta können Benutzer einfach transkribieren, bearbeiten, zusammenfassen und zusammenarbeiten, um die Produktivität zu steigern....
vor 7 Monaten
02K
AI no jimaku gumi:借助AI实现视频多语言字幕自动生成和翻译

AI no jimaku gumi: Automatische Generierung und Übersetzung von mehrsprachigen Untertiteln für Videos mit Hilfe von KI

Allgemeine Einführung AI no jimaku gumi (AI no subtitle group) ist ein leistungsstarkes Kommandozeilen-Tool zur Verarbeitung von Videountertiteln, das sich auf die automatische Extraktion, Transkription und Übersetzung von Videountertiteln konzentriert. Das Tool integriert fortschrittliche KI-Technologien, einschließlich Whisper-Sprach...
vor 7 Monaten
01.6K
FunClip:智能剪辑视频内容为短片,轻松实现精准视频片段提取/裁剪

FunClip: Intelligente Bearbeitung von Videoinhalten zu Kurzfilmen, einfaches und genaues Extrahieren/Zuschneiden von Videoclips

Umfassende Einführung FunClip ist ein vollständig quelloffenes, lokalisiertes, automatisiertes Videobearbeitungswerkzeug, das vom TONGYI Speech Lab des Alibaba Dharma Institute entwickelt wurde. Das Tool integriert das industrietaugliche Paraformer-Large-Spracherkennungsmodell, das die Sprache im Video genau identifizieren kann...
vor 7 Monaten
01.9K
Freed:AI医疗抄写助手,准确转录医生和患者对话,减少就诊记录文书工作

Freed: KI-Assistent für die medizinische Transkription, der Arzt-Patienten-Gespräche genau transkribiert und den Papierkram für die Besuchsdokumentation reduziert

Allgemeine Beschreibung Freed ist ein KI-Assistent für die medizinische Transkription, der für medizinisches Fachpersonal entwickelt wurde. Es hilft Ärzten und anderen Fachleuten im Gesundheitswesen, Patientenbesuche automatisch aufzuzeichnen, Papierkram zu reduzieren und die Arbeitseffizienz durch fortschrittliche KI-Technologie zu verbessern....
vor 8 Monaten
01.8K
Voicenotes:AI语音笔记,记录与转录语音,智能管理会议内容

Voicenotes: KI-Sprachnotizen, Aufzeichnung und Transkription von Sprache, intelligente Verwaltung von Meeting-Inhalten

Allgemeine Einführung Voicenotes ist eine intelligente App für Sprachnotizen, die Benutzern hilft, Sprachnotizen und Meetings einfach aufzunehmen und zu verwalten. Die App unterstützt die Sprachtranskription in mehr als 100 Sprachen. Benutzer sprechen einfach ihre Gedanken und Voicenotes transkribiert sie automatisch in Text...
vor 8 Monaten
01.9K
Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装

Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Allgemeine Einführung Voice-Pro ist ein vielseitiges, auf Gradio WebUI basierendes Tool, das Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung, YouTube-Video-Downloads und die Trennung menschlicher Stimmen unterstützt. Es integriert Whisper, Faster-Wh...
vor 9 Monaten
01.9K
Zamzar:多功能在线文件格式转换工具,视频转换|音频转换|图片转换|文档转换

Zamzar: Multifunktionales Online-Dateiformat-Konvertierungstool, Video-Konvertierung | Audio-Konvertierung | Bild-Konvertierung | Dokument-Konvertierung

Allgemeine Einführung Zamzar ist ein leistungsstarkes Online-Dateikonvertierungstool, das über 1200 Dateiformate unterstützt. Egal, ob es sich um Dokumente, Bilder, Videos, Audios oder eBooks handelt, Zamzar kann alles schnell und effizient konvertieren. Die Benutzer müssen keine Software herunterladen...
vor 9 Monaten
03.1K
AI Hear:本地离线运行的实时语音转录与翻译软件

AI Hear: Echtzeit-Sprachtranskriptions- und Übersetzungssoftware, die nativ offline läuft

Allgemeine Beschreibung Wenn Sie ein MacBook verwenden, sollten Sie AI Hear ausprobieren: Sie können Audio aufnehmen, lokale Sprache in Echtzeit in Text umwandeln, übersetzen und schließlich Untertitel exportieren. Sie können es verwenden, um Sie beim Anhören von länderübergreifenden Meetings und englischen Hörbüchern zu unterstützen. AI Hear ist eine lokal ausgeführte Software, die mit einem Klick Echtzeit...
vor 9 Monaten
01.9K
SoniTranslate:开源视频翻译配音解决方案,多人配音、调整语速与模仿原声

SoniTranslate: Open-Source-Videoübersetzungs-Synchronisationslösung, Mehrfachsynchronisation, Geschwindigkeitsanpassung und Nachahmung des Originaltons

Allgemeine Beschreibung SoniTranslate ist ein leistungsstarkes und benutzerfreundliches Tool für die mehrsprachige Synchronisation von Videos, das eine Lösung für die Übersetzung von Videos und die Synchronisierung von Audio bietet. Es nutzt fortschrittliche Spracherkennungs- und maschinelle Übersetzungstechnologien, um Videoinhalte in mehrere Sprachen zu übersetzen und den Ton zu synchronisieren. Das ...
vor 10 Monaten
03.6K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: Open Source Spracherkennungs-Toolkit, Sprechertrennung / Mehr-Personen-Dialog-Spracherkennung

Umfassende Einführung FunASR ist ein Open-Source-Spracherkennungs-Toolkit, das von der Alibaba Dharmo Academy entwickelt wurde, um akademische Forschung und industrielle Anwendungen zu verbinden. Es unterstützt eine breite Palette von Spracherkennungsfunktionen, einschließlich Spracherkennung (ASR), Voice Endpoint Detection (VAD), Interpunktionswiederherstellung, Sprachmodellierung,...
vor 10 Monaten
02.6K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: Werkzeug zur Umwandlung von Sprache in Untertitel, leichtgewichtiger Client mit integrierten Schnittstellen zu Cutscene, Racer und Must-Cut

Umfassende Einführung AsrTools ist ein intelligentes Sprache-zu-Text-Tool mit eingebauten Schnittstellen von großen Herstellern wie Cutscene, Racer, Must Cut, usw. Es erfordert keine GPU oder umständliche Konfiguration und unterstützt effiziente Multi-Thread-Batch-Verarbeitung. Es basiert auf PyQt5 Entwicklung, schöne und benutzerfreundliche Schnittstelle, in der Lage, SRT und TXT-Format Wörter auszugeben...
vor 10 Monaten
02.6K
Happy Scribe:音频转录和视频字幕平台|免费视频字幕编辑软件

Happy Scribe: Plattform für Audiotranskription und Videountertitelung | Kostenlose Software für Videountertitelung

Happy Scribe Allgemeine Beschreibung Happy Scribe bietet automatisierte und manuelle Audiotranskriptionsdienste zur Umwandlung von Audio in Text mit hoher Genauigkeit und Unterstützung für mehrere Sprachen und Formate. Es enthält einen interaktiven Editor, Tools für die Zusammenarbeit, mehrere Exportformate, maschinelle Übersetzung und andere Funktionen...
vor 10 Monaten
02.2K
Murf AI:变声大师|语音转文本|文本生成语音|音频编辑器

Murf AI: Sprachwandler|Sprache zu Text|Text zu Sprache|Audio Editor

Allgemeine Einführung Murf AI ist ein leistungsstarkes Online-Tool zur Erzeugung künstlicher Intelligenz, das Text in nahezu echte menschliche Sprache umwandelt. Es bietet bis zu 120+ KI-Stimmenoptionen, unterstützt mehr als 20 Sprachen und eignet sich für eine Vielzahl von Situationen wie Podcasts, Videos, professionelle Präsentationen usw...
vor 10 Monaten
02.3K
VideoLingo:视频转录单词级时间轴字幕,视频字幕翻译和本地化配音开源工具

VideoLingo: Videotranskription von Untertiteln auf Wortebene, Übersetzung von Videountertiteln und lokalisierte Synchronisation mit Open-Source-Tools

Allgemeine Beschreibung VideoLingo ist ein One-Stop-Videoübersetzungs- und Lokalisierungs-Synchronisationstool, das entwickelt wurde, um qualitativ hochwertige Untertitel in Netflix-Qualität zu generieren, indem es rohe maschinelle Übersetzungen und mehrzeilige Untertitel eliminiert und qualitativ hochwertige Voiceovers hinzufügt, damit globales Wissen über Sprachbarrieren hinweg geteilt werden kann. Durch...
vor 10 Monaten
01.8K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: tragbare KI-Sprachtagebuch-App mit Sprache-zu-Text-Unterstützung.

Allgemeine Einführung ALog ist eine KI-basierte Sprachtagebuchanwendung, die Nutzern helfen soll, ihr tägliches Leben per Sprache aufzuzeichnen. Es wird von duxins entwickelt und ist auf GitHub verfügbar. Benutzer können Tagebucheinträge durch Spracheingabe aufzeichnen, und die App wird die Stimme automatisch in Text umwandeln...
vor 7 Monaten
02.1K
录咖:一站式音视频处理平台|视频生成|AI字幕|提取音频|语音转文字

Record Cafe: Audio-/Videoverarbeitungsplattform aus einer Hand|Videoerzeugung|AI Untertitel|Audioextraktion|Speech to Text

Umfassende Einführung Record Cafe ist eine Audio-/Videoverarbeitungsplattform aus einer Hand, die KI-Videodialoge, KI-Untertitel und KI-Sprache-zu-Text-Dienste anbietet. Zu den Funktionen gehören die Aufnahme von Bildschirmen, die Bearbeitung von Videos, die Konvertierung von GIF/Audio usw. und die Unterstützung von Cloud-Speicherung und -Sharing. Die Schnittstelle ist intuitiv und einfach zu bedienen, und es unterstützt auch Multi-Screen-Aufnahme und mehrsprachige intelligente...
vor 8 Monaten
02K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: AI Voice Toolkit für den lokalen Einsatz

Umfassende Einführung Easy-Voice-Toolkit ist ein multifunktionales Toolkit, das auf dem Open Source Speech Project basiert und eine breite Palette von automatisierten Audiowerkzeugen für die Spracherkennung, Sprachtranskription, Sprachkonvertierung, Datensatzerstellung und Modelltraining bietet. Benutzer können diese Werkzeuge je nach Bedarf selektiv einsetzen...
vor 11 Monaten
02K
DupDub:AI驱动的视频编辑器|配音|视频翻译|照片数字人

DupDub: KI-gesteuerter Video-Editor|Synchronisation|Video-Übersetzung|Foto-Digitalisierer

Allgemeine Beschreibung Dupdub ist eine seitenlastige Plattform zur Erstellung von Podcasts und Videopräsentationen, die eine Reihe von KI-Tools bietet, um die Kreativität der Nutzer zu unterstützen. Die Funktionen umfassen die Erstellung von Text zu Video, das Angebot von KI-Sprach- und Videosynchronisierungsdiensten sowie Videobearbeitung, Transkription und Untertitelung. Dupdub ist auch ...
vor 11 Monaten
01.8K
通义听悟:阿里通义音视频内容转录AI助手

Tongyi Hören und Verstehen: Ali Tongyi KI-Assistent zur Transkription von Audio- und Videoinhalten

Umfassende Einführung Tongyi Listening and Understanding ist ein von Aliyun lancierter KI-Assistent für das Arbeitsstudium, der sich auf die Transkription und Analyse von Audio- und Videoinhalten konzentriert. Er stützt sich auf die leistungsstarken KI-Modelle von AliCloud, um Audio- und Videoinhalte in Echtzeit in Text zu transkribieren, und bietet Übersetzungen, Zusammenfassungen, Positionierungen und andere Funktionen. Tongyi Listening Woo unterstützt mehrere Sprachen und Szenarien...
vor 11 Monaten
01.8K
Memo AI:视频转字幕、转换多语言字幕的本地客户端

Memo AI: Native Client für Video zu Untertitel, Konvertierung mehrsprachiger Untertitel

Allgemeine Beschreibung MemoAI ist ein leistungsstarkes Videoübersetzungsprogramm, das Video- und Audiodateien in Text, Untertitel und Notizen umwandelt. Ob es sich um ein YouTube-Video, einen Podcast oder eine lokale Datei handelt, MemoAI kann es mit Leichtigkeit verarbeiten. Es unterstützt mehr als 90 Sprachen wie Chinesisch, Englisch, Japanisch...
vor 8 Monaten
02.4K