트랜스크립트: Google Gemini 멀티모달 기능을 사용하여 35초 분량의 녹화된 동영상에서 JSON 데이터 추출하기
얼마 전에는 12개의 서로 다른 이메일에 흩어져 있는 값을 합산해야 하는 일이 있었습니다.
모든 숫자를 일일이 복사하여 붙여넣는 것이 싫어서 다른 방법을 시도하기로 했습니다. Gmail 계정을 탐색하는 동안 화면을 녹화한 다음 Google을 사용할 수 있을까요? 쌍둥이자리 동영상에서 숫자를 추출하시나요?
결과적으로 이 메서드 효과는 다음과 같습니다.매우 많이좋아요.
AI Studio 및 QuickTime
저는 Mac에서 QuickTime Player를 사용하여 동영상을 녹화합니다:文件 -> 新屏幕录制
. 화면에 상자를 그려서 Gmail 계정의 일부를 프레임에 넣은 다음 각 이메일을 차례로 클릭하고 몇 초 동안 머물렀습니다.
그런 다음 녹음된 파일을 Google의 AI 스튜디오 도구를 클릭하고 다음 프롬프트를 입력합니다:
将其转换为一个 JSON 数组,每个项目包含 yyyy-mm-dd 格式的日期和该日期的浮点金额
...... 결과는 성공했습니다. 다음과 같은 JSON 배열이 출력됩니다:
[
{
"date": "2023-01-01",
"amount": 2...
},
...
]

Numbers에 붙여넣고 싶어서 입력을 계속했습니다:
将其转换为可复制粘贴的 csv
동일한 데이터를 CSV 형식으로 제공했습니다.
실수하지 않기 위해 이러한 도구를 전적으로 신뢰해서는 안 되기 때문에 35초 분량의 동영상을 다시 보고 모든 숫자를 직접 확인했습니다. 모두 정확했습니다.
원래는 Google의 최고 모델인 Gemini 1.5 Pro(......)를 사용하려고 했는데, 모델 선택을 잊어버려서 실제로는 훨씬 저렴한 Gemini 1.5 Flash 002를 사용했습니다.
비용은 얼마였나요?
ground AI 스튜디오 제 계산으로는 11,018개의 토큰을 사용했고, 그 중 10,326개가 동영상에 사용되었습니다.
제미니 1.5 플래시 관세 $0.075/백만당 토큰 (가격 기준 8월에 감소).
11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635
따라서 이 전체 프로세스의 비용은 1/10도 안 됩니다!
실제로는 다음과 같습니다.무료Google AI 스튜디오 (우리를) 마주보고 과금이 발생하더라도 지원되는 모든 영역에서 "여전히 무료"입니다. 하지만 이는데이터를 학습시킬 수 있습니다.유료 API는 이러한 기능을 제공하지 않습니다.
다른 대안은 그다지 좋지 않습니다.
여기에서 대안을 살펴보세요.
- 이메일을 하나씩 클릭하고 수동으로 데이터를 복사할 수 있습니다. 이 방법은 오류가 발생하기 쉽고 매우 지루합니다. 12개의 이메일을 처리하는 것은 괜찮지만 100개를 처리하는 것은 고통스럽습니다.
- 프로그래밍 방식으로 내 Gmail 데이터에 액세스하기. 매년 이 작업은 점점 더 어려워지고 있습니다. IMAP을 통해 액세스하는 것은 여전히 가능하지만, 전용애플리케이션 비밀번호를 사용할 수 있지만 임시 캡처 작업에는 여전히 많은 작업이 필요합니다.공식 API 전혀 잘 작동하지 않습니다.
- 일종의 브라우저 자동화 도구(예: Playwright 등)를 사용하여 내 Gmail 계정으로 자동 클릭합니다. 코드 작성에 도움이 되는 큰 언어 모델을 사용하더라도 여전히 더 많은 작업이 필요하고 이메일 서식 차이 문제를 해결하지 못하며 이메일 구문 분석 단계를 별도로 해결해야 합니다.
- 기존의 고급 AI 도구를 사용하여 제 이메일에 액세스하고 싶습니다. 다른 Google 제품(Gemini라고도 함)에 액세스 권한을 부여하면 이 작업을 수행할 수 있지만 지금까지는 그 결과가 특별히 만족스럽지 않습니다.AI 도구는 본질적으로 예측할 수 없습니다. 또한 다음과 같은 가능성이 있기 때문에 어떤 도구에도 제 이메일 계정에 대한 전체 액세스 권한을 부여하는 것을 꺼려합니다.큐 인젝션그런 위험이 있습니다.
비디오 캡처 기술은 매우 강력합니다.
이 작품동영상 캡처이 기술의 가장 큰 장점은 화면에 표시되는 모든 것에 적용된다는 것입니다... 그리고 AI 모델에 노출되는 내용을 완벽하게 제어할 수 있습니다.
웹 애플리케이션을 클릭하는 동안 화면 동영상을 녹화하지 못하도록 하는 웹사이트 인증 또는 스크래핑 방지 기술이 없습니다.
화면 캡처 영역과 클릭 동작을 얼마나 신중하게 계획하느냐에 따라 결과가 달라집니다.
이 과정에는 설정 비용이 전혀 들지 않습니다. 사이트에 로그인하여 녹화를 누르고 여유롭게 탐색한 다음 동영상을 Gemini에 넣기만 하면 됩니다.
비용이 너무 낮아서 잘못 계산한 것은 아닌지 확인하기 위해 세 번이나 다시 계산해야 했습니다.
앞으로 이 기법을 더 많이 사용할 것으로 예상됩니다. 또한 원치 않는 출처에서 데이터를 가져와야 하는 데이터 저널리즘 분야에도 응용할 수 있습니다.
장점: 대규모 언어 모델을 위한 가격 계산기
이 실습 보고서를 작성할 당시 저는 토큰 가격을 수동으로 계산하는 데 지쳐 있었습니다. 저는 보통 이 작업을 ChatGPT 코드 인터프리터에서 달러에서 센트로 변환하는 것을 발견했습니다.뭔가 잘못되었습니다.를 사용했기 때문에 항상 결과를 다시 확인해야 했습니다.
그래서 저는 Claude 3.5 Sonnet이 Claude Artifacts를 사용하여 제작했습니다.가격 계산기 도구(소스 코드는 여기에 있습니다.):

입력/출력 토큰의 가격을 수동으로 설정하거나 사전 설정 버튼을 클릭하여 기존 여러 모델의 가격을 자동으로 채울 수 있습니다(2024년 10월 16일 기준 - 앞으로도 계속 업데이트할 것을 약속드리지 않습니다!).
전체 계산기는 Claude가 작성했습니다. 여기 있습니다.대화 전문--19분 동안 10가지 버전을 반복했습니다.
모든 가격을 직접 조회하는 대신 각 모델 제공업체의 가격 페이지를 가로채서 Claude와 직접 대화에 넣었습니다:

© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...