Transcripción: extracción de datos JSON a partir de 35 segundos de vídeo grabado basándose en las capacidades multimodales de Google Gemini.
Tutoriales prácticos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial 1.7K 00
El otro día, me vi en la necesidad de sumar algunos valores dispersos en doce correos electrónicos diferentes.
No quería copiar y pegar todos los números uno por uno, así que decidí probar algo diferente: ¿podría grabar la pantalla mientras navego por mi cuenta de Gmail y luego utilizar Google Géminis ¿Extrayendo números de ese vídeo?
Como resultado, este métodomuchoBien.
AI Studio y QuickTime
Utilizo QuickTime Player en mi Mac para grabar vídeo:文件 -> 新屏幕录制
. Dibujé un recuadro en la pantalla, enmarqué la parte de mi cuenta de Gmail y luego hice clic en cada correo electrónico sucesivamente, deteniéndome en cada uno durante unos segundos.
A continuación, subí el archivo grabado directamente al sitio web de Google Estudio AI e introduzca el siguiente mensaje:
将其转换为一个 JSON 数组,每个项目包含 yyyy-mm-dd 格式的日期和该日期的浮点金额
El resultado de ...... fue satisfactorio. Genera una matriz JSON con el siguiente aspecto:
[
{
"date": "2023-01-01",
"amount": 2...
},
...
]

Quería pegarlo en Numbers, así que procedí a teclearlo:
将其转换为可复制粘贴的 csv
Me dio los mismos datos en formato CSV.
Nunca se debe confiar plenamente en que estas herramientas no cometan errores, así que volví a ver este vídeo de 35 segundos y comprobé manualmente todos los números. Todo estaba correcto.
Originalmente iba a utilizar Gemini 1.5 Pro que es el mejor modelo de Google ...... pero resulta que me olvidé de seleccionar un modelo y en realidad utilicé el mucho más barato Gemini 1.5 Flash 002 para todo el proceso.
¿Cuánto costó?
fundación Estudio AI Según mis cuentas, utilicé 11.018 Token, de los cuales 10.326 eran para vídeo.
Géminis 1.5 Flash tarifa $0,075/por millón Ficha (Precios en Ajuste a la baja en agosto).
11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635
Por lo tanto, ¡todo este proceso debería costar menos de 1/10 de céntimo!
De hecho, esgratisGoogle AI Studio estar de cara (a nosotros) Sigue siendo "gratuito" en todas las zonas admitidas, incluso con facturación. Pero estoy seguro de que eso significa quePuedes entrenar tus datosY eso es algo que sus API de pago no hacen.
Las otras alternativas no son tan buenas
Veamos las alternativas.
- Puedo hacer clic en los correos electrónicos uno por uno y copiar los datos manualmente. Esto es propenso a errores y bastante aburrido. Procesar 12 correos está bien, pero 100 sería un coñazo.
- Acceder de forma programada a mis datos de Gmail. Cada año esto se vuelve más y más difícil - aunque todavía es posible acceder a través de IMAP, siempre y cuando configure un dedicadocontraseña de la aplicaciónpero sigue requiriendo mucho trabajo para una tarea de captura ad hoc.API oficial No funciona nada bien.
- Utilizar algún tipo de herramienta de automatización del navegador (como Playwright o similar) para hacer clic automáticamente en mi cuenta de Gmail. Incluso con un gran modelo de lenguaje para ayudar a escribir el código, esto todavía requiere más trabajo, y no resuelve el problema de las diferencias de formato de correo electrónico - todavía tendría que resolver el paso de análisis de correo electrónico por separado.
- Utilizar algún tipo de herramienta de IA existente más avanzada para acceder a mi correo electrónico. Otro producto de Google (también llamado Gemini) puede hacerlo si le concedes acceso, pero hasta ahora no estoy especialmente contento con los resultados. También soy reacio a dar a cualquier herramienta acceso completo a mi cuenta de correo electrónico debido a la posibilidad de cosas comoInyección de tacosRiesgos así.
La tecnología de captura de vídeo es muy potente
esta obracaptura de vídeoLo bueno de la tecnología es que se aplica a _cualquier cosa_ que veas en tu pantalla... Y tú tienes el control absoluto sobre lo que expones al modelo de IA.
No hay ninguna tecnología de autenticación de sitios web o anti-scraping que me impida grabar vídeo de la pantalla mientras hago clic a través de aplicaciones web.
Los resultados que obtengo dependen totalmente del cuidado con que planifico el área de captura de pantalla y la acción de hacer clic.
No hay ningún coste de configuración para este proceso: sólo tienes que entrar en el sitio, pulsar grabar, navegar a tu antojo y soltar el vídeo en Gemini.
El coste era tan bajo que tuve que recalcularlo tres veces para asegurarme de que no me había equivocado.
Supongo que utilizaré más esta técnica en el futuro. También tiene aplicaciones en el campo del periodismo de datos, donde a menudo es necesario obtener datos de fuentes que no quieren ser obtenidas.
Un plus: una calculadora de precios para un gran modelo lingüístico
En el momento de escribir este informe de laboratorio, estaba cansado de calcular manualmente los precios de las fichas. Suelo subcontratar esta tarea a ChatGPT Code Interpreter, pero me encontré con que estaba convirtiendo de dólares a centavos cuando elAlgo salió mal.por lo que siempre tenía que volver a comprobar sus resultados.
Así que dejé Claude 3.5 Sonnet construyó esto para mí usando Claude Artifacts.Calculadora de precios(El código fuente está aquí):

Puede establecer manualmente el precio de la ficha de entrada/salida, o hacer clic en los botones predefinidos para rellenar automáticamente los precios de los distintos modelos existentes (a 16 de octubre de 2024; no prometo mantenerlos actualizados en el futuro).
Toda la calculadora fue escrita por Claude. Aquí estáTranscripción íntegra del diálogo--Hemos iterado a través de 10 versiones diferentes durante 19 minutos.
En lugar de buscar yo mismo todos los precios, intercepté la página de precios de cada proveedor de modelos y los puse directamente en conversación con Claude:

© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...