Transcription : extraction de données JSON à partir de 35 secondes de vidéo enregistrée en s'appuyant sur les capacités multimodales de Google Gemini
L'autre jour, je me suis retrouvé à devoir additionner des valeurs dispersées dans douze courriels différents.
Je ne voulais pas copier et coller tous les numéros un par un, alors j'ai décidé d'essayer quelque chose de différent : pourrais-je enregistrer l'écran pendant que je navigue sur mon compte Gmail et utiliser ensuite Google Gémeaux Des chiffres sont-ils extraits de cette vidéo ?
Par conséquent, cet effet de méthodebeaucoupBon.
AI Studio et QuickTime
J'utilise QuickTime Player sur mon Mac pour enregistrer des vidéos :文件 -> 新屏幕录制
. J'ai dessiné une boîte sur l'écran, encadré la partie de mon compte Gmail, puis j'ai cliqué sur chaque courriel à tour de rôle, en m'attardant sur chacun d'eux pendant quelques secondes.
Ensuite, j'ai téléchargé le fichier enregistré directement sur le site Web de Google. AI Studio et entrez dans l'invite suivante :
将其转换为一个 JSON 数组,每个项目包含 yyyy-mm-dd 格式的日期和该日期的浮点金额
Le résultat de ...... est positif. Il produit un tableau JSON qui ressemble à ceci :
[
{
"date": "2023-01-01",
"amount": 2...
},
...
]

Je voulais le coller dans Numbers, j'ai donc commencé à le taper :
将其转换为可复制粘贴的 csv
Il m'a fourni les mêmes données au format CSV.
Il ne faut jamais faire entièrement confiance à ces outils pour ne pas commettre d'erreurs. J'ai donc regardé à nouveau cette vidéo de 35 secondes et j'ai vérifié manuellement tous les chiffres. Tout était correct.
A l'origine, je devais utiliser Gemini 1.5 Pro qui est le meilleur modèle de Google ...... mais il s'avère que j'ai oublié de sélectionner un modèle et j'ai en fait utilisé le Gemini 1.5 Flash 002, beaucoup moins cher, pour l'ensemble du processus.
Combien cela a-t-il coûté ?
sol AI Studio J'ai utilisé 11 018 tokens, dont 10 326 pour la vidéo.
Gemini 1.5 Flash tarif pour $0,075 par million Jeton (Prix en Ajustement à la baisse en août).
11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635
L'ensemble du processus devrait donc coûter moins d'un dixième de centime !
En fait, il s'agitgratuitGoogle AI Studio être face à (nous) Il est "toujours gratuit" dans toutes les zones prises en charge, même avec la facturation. Mais je suis sûr que cela signifie qu'ilsVous pouvez former vos donnéesEt c'est quelque chose que leurs API payantes ne font pas.
Les autres alternatives ne sont pas vraiment bonnes
Examinons les alternatives possibles.
- Je peux cliquer sur les courriels un par un et copier les données manuellement. Cette méthode est source d'erreurs et assez ennuyeuse. Traiter 12 courriels, c'est bien, mais 100, c'est pénible.
- Accéder de manière programmée à mes données Gmail. Chaque année, cela devient de plus en plus difficile - bien qu'il soit toujours possible d'y accéder via IMAP, à condition de configurer un serveur de messagerie dédié.mot de passe de l'applicationmais cela demande encore beaucoup de travail pour une tâche de capture ad hoc.API officielle Il ne fonctionne pas bien du tout.
- Utiliser une sorte d'outil d'automatisation du navigateur (comme Playwright ou similaire) pour cliquer automatiquement sur mon compte Gmail. Même avec le grand modèle de langage pour aider à écrire le code, cela demande encore plus de travail, et cela ne résout pas le problème des différences de formatage des e-mails - je devrais toujours résoudre l'étape d'analyse des e-mails séparément.
- Utiliser une sorte d'outil d'IA existant plus avancé pour accéder à mon courrier électronique. Un autre produit Google (également appelé Gemini) peut le faire si vous lui en donnez l'accès, mais jusqu'à présent, je ne suis pas particulièrement satisfait des résultats. Je suis également réticent à l'idée de donner à un outil un accès complet à mon compte de messagerie, car il est possible que des choses telles queInjection de baguettesDes risques de ce type.
La technologie de capture vidéo est très puissante
ce travailcapture vidéoL'avantage de cette technologie est qu'elle s'applique à _tout_ ce que vous voyez sur votre écran... Et vous avez un contrôle total sur ce que vous exposez au modèle d'IA.
Aucune authentification de site web ou technologie anti-scraping ne m'empêche d'enregistrer des vidéos d'écran lorsque je clique sur des applications web.
Les résultats que j'obtiens dépendent entièrement du soin que j'apporte à la planification de la zone de capture d'écran et à l'action de cliquer.
Il n'y a absolument aucun coût d'installation pour ce processus - il suffit de se connecter au site, d'appuyer sur "enregistrer", de naviguer à votre guise et de déposer la vidéo dans le Gemini.
Le coût était si bas que j'ai dû refaire trois fois le calcul pour m'assurer que je ne m'étais pas trompé.
Je pense que j'utiliserai davantage cette technique à l'avenir. Elle trouve également des applications dans le domaine du journalisme de données, où il est souvent nécessaire d'extraire des données de sources qui ne veulent pas l'être.
Un plus : un calculateur de prix pour un grand modèle linguistique
Au moment de rédiger ce rapport de laboratoire, j'étais fatigué de calculer manuellement les prix des tokens. J'ai l'habitude de sous-traiter cette tâche à ChatGPT Code Interpreter, mais j'ai constaté qu'il convertissait les dollars en cents lorsque leQuelque chose n'a pas fonctionné.Je devais donc toujours revérifier ses résultats.
J'ai donc laissé Claude 3.5 Sonnet l'a construit pour moi à l'aide de Claude Artifacts.Outil de calcul des prix(Le code source est ici) :

Vous pouvez définir manuellement le prix du jeton d'entrée/sortie, ou cliquer sur les boutons prédéfinis pour remplir automatiquement les prix des différents modèles existants (en date du 16 octobre 2024 - je ne promets pas de les tenir à jour à l'avenir !)
L'ensemble du calculateur a été rédigé par Claude. VoiciTranscription complète du dialogue--Nous avons itéré sur 10 versions différentes pendant 19 minutes.
Au lieu de rechercher tous les prix moi-même, j'ai intercepté la page de prix de chaque fournisseur de modèles et je les ai placés directement dans une conversation avec Claude :

© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...