Gimine 2.5 Pro 모델을 사용하여 비디오, 음성을 SRT 자막으로 변환하기

최신 AI 리소스4 개월 전에 게시 됨 AI 공유 서클
1.1K 00

전에 사용해 본 적이 있습니다. Gemini 2.0으로 음성을 멀티 스피커 자막으로 무료로 변환하세요! 결과는 주목할 만합니다. Gimine 2.5 프로로 다시 시도해 볼 기회를 가졌습니다.

먼저, 참조 벤치마크로서 보다 표준적인 SRT 자막 샘플을 찾습니다(음성-텍스트 변환은 미리 수행되며 시장의 주류 모델이 사용됨):

00:00:00,000 --> 00:00:01,480
刚出镜不用文案
00:00:01,480 --> 00:00:03,260
单拍产品就有人下单
00:00:03,260 --> 00:00:04,200
你相信吗
00:00:04,200 --> 00:00:07,070
国内的短视频卖货竞争大、成本高
00:00:07,070 --> 00:00:10,660
海外短视频刚起步、容量大、竞争力度小
00:00:10,660 --> 00:00:12,420
是目前的蓝海市场
00:00:12,420 --> 00:00:15,120
而且海外平台用户面向全球
00:00:15,120 --> 00:00:16,760
买家多、卖家少
00:00:16,760 --> 00:00:18,840
做海外账号涨粉引流
00:00:18,840 --> 00:00:20,920
不用开直播就能带货变现
00:00:20,920 --> 00:00:22,000
无需精通外语
00:00:22,000 --> 00:00:23,100
零基础也能做

 

먼저 시도해 보겠습니다. Gemini 2.0으로 음성을 멀티 스피커 자막으로 무료로 변환하세요! 이 문서에서는 한 명에게 사용할 때 잘 작동하는 여러 명의 화자를 위한 프롬프트 단어를 제공합니다.

使用 Gimine 2.5 Pro 模型将视频、语音转为SRT字幕

자막을 출력합니다:

[00:00] 小美: 不用出境,不用文案,單拍產品就有人下單,你相信嗎?
[00:04] 小美: 國內的短視頻賣貨,競爭大,成本高。
[00:07] 小美: 海外短視頻剛起步,流量大,競爭力度小,是目前的藍海市場。
[00:12] 小美: 而且海外平台用戶面向全球,買家多,賣家少。
[00:16] 小美: 做海外賬號長粉引流,不用開直播就能帶貨變現。
[00:20] 小美: 無需精通外語,零基礎也能做。
[00:23] [END]

이 큐는 대화형 인터뷰 시나리오에 더 적합하며, 항상 화자의 긴 문장을 온전히 유지합니다. 문장 끊김은 약간 더 나쁩니다. 아래는 표준 SRT 자막을 생성하는 데 더 적합하고 어조에 따라 정확한 단어와 문장 나누기가 필요한 큐를 디자인한 것입니다.

 

새로운 큐 워드

你是一个专业的字幕转录助手。你的任务是将我提供的文件转录为文本,并将转录结果格式化为符合 EBU-STL 标准的 SRT字幕文件。具体要求如下:

## 每个字幕块必须严格按照以下结构输出:

[行号]
[时间行]
[文字行]
[空行]

**该结构的说明**
- [行号] 是字幕块的序号,从 1 开始递增,例如  1、2  等。
- [时间行] 是时间戳,格式为 HH:MM:SS,FFF --> HH:MM:SS,FFF,表示字幕的起始和结束时间(FFF 表示3位毫秒,例如 000 到 999)。如果你无法精确计算时间,可以根据音频内容合理估算,确保时间间隔逻辑合理。
- [文字行] 是转录的文本内容。
- [空行] 是字幕块之间的分隔,确保每个字幕块后有一个空行。

## 限制
输出时,必须严格遵守上述格式,不要省略任何部分,也不要添加多余的文本或注释。
每块字幕的持续时间尽量控制在 3-15 秒之间,具体根据语速和语义自然分割。


现在,请根据我提供的文件进行转录,并按上述格式输出字幕内容。

 

자막을 출력합니다:

1
00:00:00,327 --> 00:01,187
不用出镜,不用文案,

2
00:01,747 --> 00:03,717
单拍产品就有人下单,你相信吗?

3
00:04,337 --> 00:06,637
国内的短视频卖货竞争大,成本高。

4
00:07,177 --> 00:08,627
海外短视频刚起步,

5
00:09,277 --> 00:10,597
流量大,竞争力度小,

6
00:11,067 --> 00:12,247
是目前的蓝海市场。

7
00:12,707 --> 00:14,637
而且海外平台用户面向全球,

8
00:15,167 --> 00:16,357
买家多,卖家少。

9
00:17,067 --> 00:18,467
做海外账号涨粉引流,

10
00:19,177 --> 00:20,687
不用开直播就能带货变现。

11
00:21,277 --> 00:22,927
无需精通外语,零基础也能做。

 

처리할 수 있는 비디오 및 오디오 길이 정보

15분 내외의 오디오 및 동영상이 더 안정적입니다. 이론적으로 1~2시간 길이의 오디오 및 비디오 압축은 입력 및 출력 길이와 일치하지만 실제 결과는 약간 더 나쁩니다(심층적으로 테스트되지 않음). 또 다른 중요한 문제는 오디오가 길수록 "생각하는" 시간이 길어지고 불안정해지기 때문에 Gimine 2.5 Pro는 음성-텍스트 변환에 적합하지 않다는 것입니다.

© 저작권 정책
AiPPT

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...