AIパーソナル・ラーニング
と実践的なガイダンス
讯飞绘镜

再掲:Google Geminiのマルチモーダル機能を使って35秒間の録画ビデオからJSONデータを抽出する

先日、12通のメールに散らばった値を合計する必要があることに気づいた。

そこで、Gmailのアカウントを閲覧している画面を録画し、その画面をGoogleで表示できないかと考えた。 ジェミニ あのビデオから数字を抽出するのか?


その結果、この方法の効果はむしょうにいいね。

 

AI StudioとQuickTime

私はMacのQuickTime Playerを使ってビデオを録画している:文件 -> 新屏幕录制.私は画面上にボックスを描き、Gmailアカウントの部分を枠で囲み、各メールを順番にクリックし、それぞれに数秒間留まった。

そして、録画したファイルを直接グーグルの AIスタジオ ツールを使い、次のプロンプトを入力する:

将其转换为一个 JSON 数组,每个项目包含 yyyy-mm-dd 格式的日期和该日期的浮点金额

結果は成功した。以下のようなJSON配列が出力される:

[
  {
    "date": "2023-01-01",
    "amount": 2...
  },
  ...
]

转载:从35秒的屏幕捕获中提取JSON数据-1

私はそれをNumbersに貼り付けたかったので、タイピングを進めた:

将其转换为可复制粘贴的 csv

同じデータがCSV形式で送られてきた。

だから、この35秒のビデオを見直して、すべての数字を手動でチェックした。すべて正しかった。

当初は、グーグルの最高機種であるジェミニ1.5プロを使うつもりだったのだが......機種を選択するのを忘れていたことが判明し、実際にはずっと安価なジェミニ1.5フラッシュ002を全工程に使用した。

 

いくらかかったのですか?

基礎 AIスタジオ 数えてみると、11,018トークンを使い、そのうち10,326トークンはビデオ用だった。

ジェミニ1.5フラッシュ 料金表 100万分の$0.075の場合 トークン (価格は以下の通り 8月の下方修正).

11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635

したがって、このプロセス全体のコストは1/10以下であるべきだ!

実際、それは無料グーグルAIスタジオ 対す 課金しても、すべてのサポートエリアでは「まだ無料」だ。しかし、それはきっとデータをトレーニングできるそしてそれは、彼らの有料APIではできないことだ。

 

他の選択肢はあまり良くない。

ここで代替案を見てみよう。

  • メールをひとつひとつクリックして、手動でデータをコピーすることもできる。これはエラーが起きやすいし、かなり退屈だ。12通のメールを処理するのはいいが、100通は面倒だ。
  • Gmailのデータにプログラムでアクセスする。IMAP経由でGmailにアクセスすることは、専用ソフトをセットアップすればまだ可能だが、これは年々難しくなっている。アプリケーションパスワードしかし、アドホックなキャプチャ・タスクにはまだ多くの作業が必要だ。公式API 全然うまくいかない。
  • ある種のブラウザ自動化ツール(Playwrightなど)を使って、自動的にGmailアカウントにクリックスルーする。コードを書くのに役立つ大きな言語モデルを使っても、これにはまだ多くの作業が必要で、メールの書式の違いという問題は解決できない。
  • より高度な既存のAIツールを使って、私のメールにアクセスする。Googleの別の製品(Geminiとも呼ばれる)は、アクセスを許可すればこのようなことが可能だが、今のところその結果には特に満足していない。AIツールは本質的に予測不可能だからだ。キュー・インジェクションそういうリスクがある。

 

ビデオキャプチャ技術は非常に強力

本作ビデオキャプチャこの技術の素晴らしいところは、画面に表示されているものすべてに適用できることだ。 そして、AIモデルに何を見せるかを完全にコントロールできる。

ウェブ・アプリケーションをクリックしながらスクリーン・ビデオを録画することを妨げるような、ウェブサイトの認証やスクレイピング防止技術はない。

私が得られる結果は、スクリーンキャプチャーの領域とクリックの動作をどれだけ注意深く計画するかにかかっている。

サイトにログインして録画ボタンを押し、自由にブラウズしてビデオをジェミニにドロップするだけだ。

あまりの安さに、計算間違いがないか3回も計算し直したほどだ。

今後、このテクニックをもっと使うことになるだろう。また、データ・ジャーナリズムの分野でも応用できる。データ・ジャーナリズムでは、データを取得されたくないソースからデータを取得する必要がしばしばある。

 

プラス:大規模な言語モデルの価格計算機

このラボレポートを書いているとき、私はトークンの価格を手作業で計算するのに疲れていた。いつもは チャットGPT コード・インタープリタが、ドルからセントに変換していることがわかりました。何かが間違っていた。そのため、常に結果を再確認する必要があった。

だから、私はこう言った。 クロード 3.5 ソネットがクロード・アーティファクトを使って作ってくれた価格計算ツール(ソースコードはこちら):

转载:从35秒的屏幕捕获中提取JSON数据-2

入出力トークンの価格を手動で設定することも、プリセット・ボタンをクリックして既存のさまざまなモデルの価格を自動的に入力することもできます(2024年10月16日現在。)

電卓はすべてクロードが書いた。これは対談全文--19分間、10種類のバージョンを繰り返した。

自分ですべての価格を調べる代わりに、各モデルプロバイダーの価格ページを横取りし、直接クロードとの会話に入れた:

转载:从35秒的屏幕捕获中提取JSON数据-3

無断転載を禁じます:チーフAIシェアリングサークル " 再掲:Google Geminiのマルチモーダル機能を使って35秒間の録画ビデオからJSONデータを抽出する
ja日本語