Преобразование видео, голоса в субтитры SRT с помощью модели Gimine 2.5 Pro
Уже пробовали. Конвертируйте речь в субтитры для нескольких дикторов с помощью Gemini 2.0 бесплатно! Результаты заслуживают внимания. Воспользовался возможностью попробовать еще раз с Gimine 2.5 pro.
Во-первых, мы находим образец более стандартного субтитра SRT в качестве эталона (преобразование речи в текст происходит заблаговременно, и используется самая распространенная модель на рынке):
00:00:00,000 --> 00:00:01,480 刚出镜不用文案 00:00:01,480 --> 00:00:03,260 单拍产品就有人下单 00:00:03,260 --> 00:00:04,200 你相信吗 00:00:04,200 --> 00:00:07,070 国内的短视频卖货竞争大、成本高 00:00:07,070 --> 00:00:10,660 海外短视频刚起步、容量大、竞争力度小 00:00:10,660 --> 00:00:12,420 是目前的蓝海市场 00:00:12,420 --> 00:00:15,120 而且海外平台用户面向全球 00:00:15,120 --> 00:00:16,760 买家多、卖家少 00:00:16,760 --> 00:00:18,840 做海外账号涨粉引流 00:00:18,840 --> 00:00:20,920 不用开直播就能带货变现 00:00:20,920 --> 00:00:22,000 无需精通外语 00:00:22,000 --> 00:00:23,100 零基础也能做
Давайте сначала попробуем. Конвертируйте речь в субтитры для нескольких дикторов с помощью Gemini 2.0 бесплатно! В статье приводятся слова-подсказки для нескольких говорящих, которые должны отлично работать при использовании для одного человека.

Вывод субтитров:
[00:00] 小美: 不用出境,不用文案,單拍產品就有人下單,你相信嗎?
[00:04] 小美: 國內的短視頻賣貨,競爭大,成本高。
[00:07] 小美: 海外短視頻剛起步,流量大,競爭力度小,是目前的藍海市場。
[00:12] 小美: 而且海外平台用戶面向全球,買家多,賣家少。
[00:16] 小美: 做海外賬號長粉引流,不用開直播就能帶貨變現。
[00:20] 小美: 無需精通外語,零基礎也能做。
[00:23] [END]
Эта реплика лучше подходит для сценариев диалоговых интервью, всегда сохраняя законченные длинные предложения говорящего. Разбиение предложений происходит немного хуже. Ниже мы разработали подсказку, которая больше подходит для создания стандартных субтитров SRT и требует точной разбивки слов и предложений в зависимости от тона.
Новые слова для подсказки
你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT字幕文件。具体要求如下: ## 每个字幕块必须严格按照以下结构输出: [行号] [时间行] [文字行] [空行] **该结构的说明** - [行号] 是字幕块的序号,从 1 开始递增,例如 1、2 等。 - [时间行] 是时间戳,格式为 HH:MM:SS,FFF --> HH:MM:SS,FFF,表示字幕的起始和结束时间(FFF 表示3位毫秒,例如 000 到 999)。如果你无法精确计算时间,可以根据音频内容合理估算,确保时间间隔逻辑合理。 - [文字行] 是转录的文本内容。 - [空行] 是字幕块之间的分隔,确保每个字幕块后有一个空行。 ## 限制 输出时,必须严格遵守上述格式,不要省略任何部分,也不要添加多余的文本或注释。 每块字幕的持续时间尽量控制在 3-15 秒之间,具体根据语速和语义自然分割。 现在,请根据我提供的文件进行转录,并按上述格式输出字幕内容。
Вывод субтитров:
1 00:00:00,327 --> 00:01,187 不用出镜,不用文案, 2 00:01,747 --> 00:03,717 单拍产品就有人下单,你相信吗? 3 00:04,337 --> 00:06,637 国内的短视频卖货竞争大,成本高。 4 00:07,177 --> 00:08,627 海外短视频刚起步, 5 00:09,277 --> 00:10,597 流量大,竞争力度小, 6 00:11,067 --> 00:12,247 是目前的蓝海市场。 7 00:12,707 --> 00:14,637 而且海外平台用户面向全球, 8 00:15,167 --> 00:16,357 买家多,卖家少。 9 00:17,067 --> 00:18,467 做海外账号涨粉引流, 10 00:19,177 --> 00:20,687 不用开直播就能带货变现。 11 00:21,277 --> 00:22,927 无需精通外语,零基础也能做。
О длине видео и аудио, которые могут быть обработаны
Аудио и видео длиной около 15 минут более стабильны. Теоретически, сжатие аудио и видео длиной 1~2 часа соответствует длине входного и выходного сигнала, но фактические результаты несколько хуже (не проверялось подробно). Еще один важный момент - Gimine 2.5 Pro не подходит для преобразования речи в текст, поскольку чем длиннее аудио, тем дольше время "обдумывания" и тем нестабильнее результат.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...