Aprendizagem pessoal com IA
e orientação prática

Transcrição: extração de dados JSON de 35 segundos de vídeo gravado com base nos recursos multimodais do Google Gemini

Outro dia, precisei somar alguns valores espalhados em doze e-mails diferentes.

Eu não queria copiar e colar todos os números um por um, então decidi tentar algo diferente: eu poderia gravar a tela enquanto navegava na minha conta do Gmail e depois usar o Google Gêmeos Extraindo números desse vídeo?


Como resultado, o efeito desse métodomuitoBom.

 

AI Studio e QuickTime

Eu uso o QuickTime Player no meu Mac para gravar vídeos:Arquivo -> Nova gravação de tela. Desenhei uma caixa na tela, enquadrei a parte da minha conta do Gmail e, em seguida, cliquei em cada e-mail, demorando em cada um por alguns segundos.

Em seguida, carreguei o arquivo gravado diretamente na página do Google Estúdio de IA e digite o seguinte prompt:

Converte-o em uma matriz JSON, com cada item contendo a data no formato aaaa-mm-dd e o valor em ponto flutuante para essa data

O resultado do ...... foi bem-sucedido. Ele gera uma matriz JSON com a seguinte aparência:

[
  {
    "data": "2023-01-01",
    "amount" (valor): 2...
  },
  ...
]

Transcrição: extração de dados JSON de 35 segundos de captura de tela-1

Eu queria colá-lo no Numbers, então comecei a digitar:

Converta-o em um csv que possa ser copiado e colado

Ele me forneceu os mesmos dados no formato CSV.

Você nunca deve confiar totalmente nessas ferramentas para não cometer erros, então assisti novamente a esse vídeo de 35 segundos e verifiquei manualmente todos os números. Tudo estava correto.

Originalmente, eu usaria o Gemini 1.5 Pro, que é o melhor modelo do Google ......, mas acabei esquecendo de selecionar um modelo e, na verdade, usei o Gemini 1.5 Flash 002, muito mais barato, durante todo o processo.

 

Quanto custou?

solo Estúdio de IA De acordo com minha contagem, usei 11.018 tokens, dos quais 10.326 foram para vídeo.

Gemini 1.5 Flash tarifa $0,075/por milhão Token (Preços em Reduzido em agosto).

11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635

Portanto, todo esse processo deve custar menos de 1/10 de um centavo!

De fato, égratuitoEstúdio de IA do Google estar de frente para (nós) Ele "ainda é gratuito" em todas as áreas com suporte, mesmo com cobrança. Mas tenho certeza de que isso significa que elesVocê pode treinar seus dadosE isso é algo que suas APIs pagas não fazem.

 

As outras alternativas não são realmente tão boas

Vamos dar uma olhada nas alternativas aqui.

  • Posso clicar nos e-mails um a um e copiar os dados manualmente. Isso é propenso a erros e bastante entediante. Processar 12 e-mails é bom, mas 100 seria uma dor de cabeça.
  • Acessar programaticamente meus dados do Gmail. A cada ano, isso fica cada vez mais difícil, embora ainda seja possível acessá-lo via IMAP, desde que você configure um programa dedicado para o Gmail.senha do aplicativomas isso ainda exige muito trabalho para uma tarefa de captura ad hoc.API oficial Não funciona bem de jeito nenhum.
  • Usar algum tipo de ferramenta de automação do navegador (como o Playwright ou similar) para clicar automaticamente na minha conta do Gmail. Mesmo com um grande modelo de linguagem para ajudar a escrever o código, isso ainda exige mais trabalho e não resolve o problema das diferenças de formatação de e-mail - eu ainda teria que resolver a etapa de análise de e-mail separadamente.
  • Usar algum tipo de ferramenta de IA existente mais avançada para acessar meu e-mail. Outro produto do Google (também chamado Gemini) pode fazer isso se você conceder acesso a ele, mas até agora não estou muito satisfeito com os resultados. Também reluto em conceder a qualquer ferramenta acesso total à minha conta de e-mail devido à possibilidade de coisas comoInjeção de tacoRiscos como esse.

 

A tecnologia de captura de vídeo é muito avançada

este trabalhocaptura de vídeoO melhor da tecnologia é que ela se aplica a _qualquer coisa_ que você vê na tela... E você tem controle total sobre o que expõe ao modelo de IA.

Não há nenhuma autenticação de site ou tecnologia antirrastreamento que me impeça de gravar vídeos da tela ao clicar em aplicativos da Web.

Os resultados que obtenho dependem inteiramente do cuidado com que planejo a área de captura de tela e a ação de clicar.

Não há absolutamente nenhum custo de configuração para esse processo - basta fazer login no site, clicar em gravar, navegar à vontade e inserir o vídeo no Gemini.

O custo era tão baixo que tive que recalcular três vezes para ter certeza de que não havia errado o cálculo.

Espero usar essa técnica mais vezes no futuro. Ela também tem aplicações no campo do jornalismo de dados, onde muitas vezes é necessário obter dados de fontes que não querem ser obtidas.

 

Uma vantagem: uma calculadora de preços para um modelo de idioma grande

No momento em que escrevi este relatório de laboratório, estava cansado de calcular manualmente os preços dos tokens. Normalmente, terceirizo esse trabalho para ChatGPT Code Interpreter, mas descobri que ele estava convertendo de dólares para centavos quando oAlgo deu errado.Por isso, sempre tive que verificar novamente seus resultados.

Então eu deixei Claude 3,5 Sonnet criou isso para mim usando o Claude Artifacts.Ferramenta de cálculo de preços(O código-fonte está aqui):

Transcrição: extração de dados JSON de 35 segundos de captura de tela-2

Você pode definir manualmente o preço do token de entrada/saída ou clicar nos botões predefinidos para preencher automaticamente os preços dos diferentes modelos existentes (a partir de 16 de outubro de 2024 - não prometo mantê-los atualizados no futuro!)

A calculadora inteira foi escrita por Claude. Aqui está elaTranscrição completa do diálogo--Fizemos uma iteração de 10 versões diferentes por 19 minutos.

Em vez de pesquisar todos os preços por conta própria, interceptei a página de preços de cada fornecedor de modelos e os coloquei diretamente em uma conversa com Claude:

Transcrição: extração de dados JSON de 35 segundos de captura de tela-3

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Transcrição: extração de dados JSON de 35 segundos de vídeo gravado com base nos recursos multimodais do Google Gemini

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil