Перевод: извлечение JSON-данных из 35 секунд записанного видео с использованием мультимодальных возможностей Google Gemini

На днях я обнаружил, что мне нужно сложить несколько значений, разбросанных по двенадцати разным электронным письмам.

Мне не хотелось копировать и вставлять все номера по одному, поэтому я решил попробовать кое-что другое: можно ли записать экран во время просмотра моего почтового ящика Gmail, а затем использовать Google Близнецы Извлечь цифры из этого видео?

В результате эффект этого методаоченьХорошо.

 

AI Studio и QuickTime

Для записи видео я использую QuickTime Player на моем Mac:文件 -> 新屏幕录制. Я нарисовал на экране рамку, обрамляющую часть моего почтового ящика Gmail, а затем щелкнул по каждому письму по очереди, оставляя каждое на несколько секунд.

Затем я загрузил записанный файл непосредственно в Google AI Studio и введите следующее приглашение:

将其转换为一个 JSON 数组,每个项目包含 yyyy-mm-dd 格式的日期和该日期的浮点金额

Результат ...... был успешным. Он выводит массив JSON, который выглядит следующим образом:

[
  {
    "date": "2023-01-01",
    "amount": 2...
  },
  ...
]
转载:依托 Google Gemini 多模态能力,从35秒的录屏视频中提取JSON数据

Я хотел вставить его в Numbers, поэтому продолжил печатать:

将其转换为可复制粘贴的 csv

Это дало мне те же данные в формате CSV.

Никогда не стоит полностью доверять этим инструментам, чтобы они не делали ошибок, поэтому я повторно просмотрел это 35-секундное видео и вручную проверил все цифры. Все было правильно.

Первоначально я собирался использовать Gemini 1.5 Pro, которая является лучшей моделью Google ......, но оказалось, что я забыл выбрать модель и на самом деле использовал гораздо более дешевую Gemini 1.5 Flash 002 для всего процесса.

 

Сколько это стоило?

земля AI Studio По моим подсчетам, я использовал 11 018 Token, из них 10 326 - для видео.

Gemini 1.5 Flash тариф за $0.075 на миллион Токен (Цены в Корректировка в сторону понижения в августе).

11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635

Таким образом, весь этот процесс должен стоить менее 1/10 цента!

На самом деле, этобесплатноСтудия искусственного интеллекта Google быть лицом к лицу (с нами) Он "по-прежнему бесплатен" во всех поддерживаемых зонах, даже с тарификацией. Но я уверен, что это означает, что ониВы можете обучать свои данныеИ это то, чего не делают их платные API.

 

Другие альтернативы не так уж хороши.

Давайте рассмотрим альтернативные варианты.

  • Я могу нажимать на письма по одному и копировать данные вручную. Это чревато ошибками и довольно скучно. Обработка 12 писем - это хорошо, но 100 - это мучение.
  • Программный доступ к данным Gmail. С каждым годом это становится все труднее и труднее - хотя доступ к ней через IMAP все еще возможен, если только вы настроите специальныйпароль приложенияНо это все равно требует много работы для специальной задачи захвата.Официальный API Это совсем не работает.
  • Используйте какой-нибудь инструмент автоматизации браузера (например, Playwright или аналогичный) для автоматического перехода к моему аккаунту Gmail. Даже с большой языковой моделью, помогающей писать код, это все равно требует больше работы, и это не решает проблему различий в форматировании электронной почты - мне все равно придется отдельно решать задачу разбора электронной почты.
  • Используйте какой-нибудь более продвинутый существующий инструмент искусственного интеллекта для доступа к моей электронной почте. Другой продукт Google (также называемый Gemini) может сделать это, если вы предоставите ему доступ, но пока я не очень доволен результатами. Инструменты ИИ по своей природе непредсказуемы. Я также не хочу предоставлять любому инструменту полный доступ к моему почтовому ящику из-за возможности возникновения таких вещей, какВпрыскивание кияРискнуть.

 

Технология видеозахвата очень мощная

эта работазахват видеоСамое замечательное в этой технологии то, что она применима ко всему, что вы видите на экране... И у вас есть полный контроль над тем, что вы предоставляете модели ИИ.

Не существует никаких технологий проверки подлинности веб-сайтов или защиты от подслушивания, которые не позволяли бы мне записывать видео с экрана во время переходов по веб-приложениям.

Результаты, которые я получаю, полностью зависят от того, насколько тщательно я планирую область захвата экрана и действие щелчка.

Этот процесс не требует никаких затрат - просто зайдите на сайт, нажмите кнопку записи, просмотрите видео в свое удовольствие и закиньте его в Gemini.

Стоимость оказалась настолько низкой, что мне пришлось трижды пересчитывать, чтобы убедиться, что я не ошибся в расчетах.

Думаю, в будущем я буду использовать эту технику чаще. Она также находит применение в области журналистики данных, где часто возникает необходимость получать данные из источников, которые не хотят, чтобы их получали.

 

Плюс: калькулятор цены для большой языковой модели

Во время написания этого отчета о лабораторной работе я устал вручную рассчитывать цены на токены. Обычно я поручаю это ChatGPT Интерпретатор кода, но я обнаружил, что он переводит доллары в центы, когдаЧто-то пошло не так.Поэтому мне всегда приходилось перепроверять результаты.

Поэтому я позволил Клод 3,5 Сонет построил это для меня, используя артефакты Клода.Инструмент для расчета цены(Исходный код находится здесь):

转载:依托 Google Gemini 多模态能力,从35秒的录屏视频中提取JSON数据

Вы можете вручную задать цену входного/выходного Жетона или нажать на кнопки предварительной настройки, чтобы автоматически ввести цены на различные существующие модели (по состоянию на 16 октября 2024 года - я не обещаю обновлять их в будущем!)

Весь калькулятор был написан Клодом. ВотПолная стенограмма диалога--Мы перебирали 10 различных версий в течение 19 минут.

Вместо того чтобы самому искать все цены, я перехватил страницу с ценами каждого поставщика моделей и ввел их непосредственно в разговор с Клодом:

转载:依托 Google Gemini 多模态能力,从35秒的录屏视频中提取JSON数据
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...