AI Personal Learning
und praktische Anleitung
豆包Marscode1
Insgesamt 45 Artikel

Tags: ai Sprache zu Text Seite 2

BetterWhisperX:自动语音识别与说话人分离,提供高精度单词级时间戳-首席AI分享圈

BetterWhisperX: Automatische, vom Sprecher getrennte Spracherkennung, die hochpräzise Zeitstempel auf Wortebene liefert

Allgemeine Einführung BetterWhisperX ist eine optimierte Version des WhisperX-Projekts, das sich auf die Bereitstellung effizienter und genauer automatischer Spracherkennungsdienste (ASR) konzentriert. Als verbesserter Ableger von WhisperX wird das Projekt von Federico Torrielli betreut, der sich dafür einsetzt, dass das Projekt ständig aktualisiert und die Leistung verbessert wird...

Freed:AI医疗抄写助手,准确转录医生和患者对话,减少就诊记录文书工作-首席AI分享圈

Freed: KI-Assistent für die medizinische Transkription, der Arzt-Patienten-Gespräche genau transkribiert und den Papierkram für die Besuchsdokumentation reduziert

Allgemeine Beschreibung Freed ist ein KI-Assistent für die medizinische Transkription, der für medizinisches Fachpersonal entwickelt wurde. Er hilft Ärzten und anderen Fachkräften im Gesundheitswesen, die Aufzeichnung von Patientenbesuchen zu automatisieren, den Papierkram zu reduzieren und die Produktivität durch fortschrittliche KI-Technologie zu steigern....

Voicenotes:AI语音笔记,记录与转录语音,智能管理会议内容-首席AI分享圈

Voicenotes: KI-Sprachnotizen, Aufzeichnung und Transkription von Sprache, intelligente Verwaltung von Meeting-Inhalten

Allgemeine Einführung Voicenotes ist eine intelligente App für Sprachnotizen, mit der Benutzer Sprachnotizen und Besprechungen einfach aufzeichnen und verwalten können. Die App unterstützt die Sprachtranskription in mehr als 100 Sprachen. Der Benutzer spricht einfach seine Gedanken und Voicenotes transkribiert sie automatisch in Text. Egal, ob Sie Student oder Berufstätiger sind...

Voice-Pro:开源多功能视频翻译工具,语音转录并翻译为多语言,Windows一键安装-首席AI分享圈

Voice-Pro: multifunktionales Open-Source-Videoübersetzungsprogramm, Sprachtranskription und Übersetzung in mehrere Sprachen, Windows-Installation mit einem Klick

Allgemeine Einführung Voice-Pro ist ein vielseitiges, auf Gradio WebUI basierendes Tool, das Sprache-zu-Text, Text-zu-Sprache, Echtzeit-Übersetzung, YouTube-Video-Downloads und die Trennung menschlicher Stimmen unterstützt. Es integriert die Technologien Whisper, Faster-Whisper und Whisper-Timestamped, um eine effiziente...

Zamzar:多功能在线文件格式转换工具,视频转换|音频转换|图片转换|文档转换-首席AI分享圈

Zamzar: Multifunktionales Online-Dateiformat-Konvertierungstool, Video-Konvertierung | Audio-Konvertierung | Bild-Konvertierung | Dokument-Konvertierung

Allgemeine Einführung Zamzar ist ein leistungsstarkes Online-Dateikonvertierungstool, das über 1200 Dateiformate unterstützt. Egal, ob es sich um Dokumente, Bilder, Videos, Audios oder eBooks handelt, Zamzar kann sie schnell und effizient umwandeln. Die Benutzer müssen keine Software herunterladen, sie müssen nur den Text auswählen.

AI Hear:本地离线运行的实时语音转录与翻译软件-首席AI分享圈

AI Hear: Echtzeit-Sprachtranskriptions- und Übersetzungssoftware, die nativ offline läuft

Allgemeine Beschreibung Wenn Sie ein MacBook verwenden, sollten Sie AI Hear ausprobieren: Sie können Audio aufnehmen, lokale Sprache in Echtzeit in Text umwandeln, übersetzen und schließlich Untertitel exportieren. Sie können es verwenden, um Sie beim Anhören von Konferenzen über Ländergrenzen hinweg und bei englischen Hörbüchern zu unterstützen. AI Hear ist eine lokal betriebene Software, die mit einem Klick Echtzeit-Übersetzung und -Transkription bietet, mehrere...

SoniTranslate:开源视频翻译配音解决方案,多人配音、调整语速与模仿原声-首席AI分享圈

SoniTranslate: Open-Source-Videoübersetzungs-Synchronisationslösung, Mehrfachsynchronisation, Geschwindigkeitsanpassung und Nachahmung des Originaltons

Allgemeine Beschreibung SoniTranslate ist ein leistungsstarkes und benutzerfreundliches Tool für die mehrsprachige Synchronisation von Videos, das eine Lösung für die Übersetzung von Videos und die Synchronisierung von Audio bietet. Es verwendet fortschrittliche Spracherkennungs- und maschinelle Übersetzungstechnologien, um Videoinhalte in mehrere Sprachen zu übersetzen und den Ton zu synchronisieren. Das Projekt basiert auf Gradi...

FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别-首席AI分享圈

FunASR: Open Source Spracherkennungs-Toolkit, Sprechertrennung / Mehr-Personen-Dialog-Spracherkennung

Umfassende Einführung FunASR ist ein Open-Source-Spracherkennungs-Toolkit, das vom Dharma Institute von Alibaba entwickelt wurde, um akademische Forschung und industrielle Anwendungen zu verbinden. Es unterstützt eine breite Palette von Spracherkennungsfunktionen, einschließlich Spracherkennung (ASR), Voice Endpoint Detection (VAD), Interpunktionswiederherstellung, Sprachmodellierung, Sprecherverifizierung,...

AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端-首席AI分享圈

AsrTools: Werkzeug zur Umwandlung von Sprache in Untertitel, leichtgewichtiger Client mit integrierten Schnittstellen zu Cutscene, Racer und Must-Cut

Umfassende Einführung AsrTools ist ein intelligentes Sprache-zu-Text-Tool mit eingebauten Schnittstellen von großen Playern wie Cutscene, Racer, Must Cut usw. Es benötigt keine GPU oder umständliche Konfigurationen und unterstützt effiziente Multi-Thread-Stapelverarbeitung. Es wurde auf der Grundlage von PyQt5 entwickelt, mit einer schönen und benutzerfreundlichen Oberfläche, die in der Lage ist, Untertiteldateien im SRT- und TXT-Format auszugeben. Das Tool arbeitet durch Abstimmung...

Happy Scribe:音频转录和视频字幕平台|免费视频字幕编辑软件-首席AI分享圈

Happy Scribe: Plattform für Audiotranskription und Videountertitelung | Kostenlose Software für Videountertitelung

Happy Scribe Allgemeine Beschreibung Happy Scribe bietet automatische und manuelle Audiotranskriptionsdienste zur Umwandlung von Audio in Text mit hoher Genauigkeit und Unterstützung für mehrere Sprachen und Formate. Es umfasst einen interaktiven Editor, Tools für die Zusammenarbeit, mehrere Exportformate, maschinelle Übersetzung und mehr. Die Plattform ist sicher und zuverlässig,...

Whisper GPGPU:运行在Windows的OpenAI Whisper|Whisperdesktop-首席AI分享圈

Whisper GPGPU: OpenAI Whisper läuft unter Windows|Whisperdesktop

Allgemeine Einführung Whisper ist ein Open-Source-Projekt auf GitHub, das von Const-me entwickelt wurde und sich auf die hochleistungsfähige Inferenz des automatischen Spracherkennungsmodells (ASR) Whisper von OpenAI mit GPGPU konzentriert. Dieses Projekt wird unter der MPL-2.0-Lizenz veröffentlicht, wobei die letzte Version 1.12 am 22. Juli 2023 veröffentlicht wurde. Anstelle von ...

Buzz:开源离线音频转写翻译工具|IOS语音转录-首席AI分享圈

Buzz: Open-Source-Offline-Audio-Transkriptionsübersetzungstool | IOS-Sprachübersetzung

Buzz Allgemeine Einführung Buzz ist ein Open-Source-Projekt, das von chidiwilliams entwickelt wurde und die Offline-Transkription und -Übersetzung von Audiodateien auf Personal Computern ermöglicht. Das Projekt basiert auf der Whisper-Technologie von OpenAI, die es Nutzern ermöglicht, an der Transkription und Übersetzung von Audiodateien zu arbeiten, ohne auf eine Internetverbindung angewiesen zu sein. Über GitHub, ...

VideoLingo:视频转录单词级时间轴字幕,视频字幕翻译和本地化配音开源工具-首席AI分享圈

VideoLingo: Videotranskription von Untertiteln auf Wortebene, Übersetzung von Videountertiteln und lokalisierte Synchronisation mit Open-Source-Tools

Allgemeine Beschreibung VideoLingo ist ein One-Stop-Videoübersetzungs- und Lokalisierungs-Synchronisationstool, das entwickelt wurde, um qualitativ hochwertige Untertitel in Netflix-Qualität zu generieren, indem es rohe maschinelle Übersetzungen und mehrzeilige Untertitel eliminiert und qualitativ hochwertige Voiceovers hinzufügt, damit globales Wissen über Sprachbarrieren hinweg geteilt werden kann. Mit dem intuitiven Streamlit ...

录咖:一站式音视频处理平台|视频生成|AI字幕|提取音频|语音转文字-首席AI分享圈

Record Cafe: Audio-/Videoverarbeitungsplattform aus einer Hand|Videoerzeugung|AI Untertitel|Audioextraktion|Speech to Text

Umfassende Einführung Record Cafe ist eine Audio-/Videoverarbeitungsplattform aus einer Hand, die KI-Videodialoge, KI-Untertitel und KI-Sprache-zu-Text-Dienste anbietet. Zu den Funktionen gehören die Aufnahme von Bildschirmen, die Bearbeitung von Videos, die Konvertierung von GIF/Audio usw. und die Unterstützung von Cloud-Speicherung und -Sharing. Die Schnittstelle ist intuitiv und einfach zu bedienen, und es unterstützt auch Multi-Screen-Aufnahme und Multi-Sprache intelligente Lesung...

de_DEDeutsch