AIパーソナル・ラーニング
と実践的なガイダンス

再掲:Google Geminiのマルチモーダル機能を使って35秒間の録画ビデオからJSONデータを抽出する

先日、12通のメールに散らばった値を合計する必要があることに気づいた。

そこで、Gmailのアカウントを閲覧している画面を録画し、その画面をGoogleで表示できないかと考えた。 ジェミニ あのビデオから数字を抽出するのか?


その結果、この方法の効果はむしょうにいいね。

 

AI StudioとQuickTime

私はMacのQuickTime Playerを使ってビデオを録画している:ファイル」→「新規画面録画.私は画面上にボックスを描き、Gmailアカウントの部分を枠で囲み、各メールを順番にクリックし、それぞれに数秒間留まった。

そして、録画したファイルを直接グーグルの AIスタジオ ツールを使い、次のプロンプトを入力する:

JSON配列に変換し、各項目にはyyyy-mm-dd形式の日付とその日付の浮動小数点数を格納する。

結果は成功した。以下のようなJSON配列が出力される:

[
  {
    日付: "2023-01-01",
    金額: 2...
  },
  ...
]

トランスクリプト:35秒間のスクリーンキャプチャからJSONデータを抽出する-1

私はそれをNumbersに貼り付けたかったので、タイピングを進めた:

コピー&ペースト可能なcsvに変換する。

同じデータがCSV形式で送られてきた。

だから、この35秒のビデオを見直して、すべての数字を手動でチェックした。すべて正しかった。

当初は、グーグルの最高機種であるジェミニ1.5プロを使うつもりだったのだが......機種を選択するのを忘れていたことが判明し、実際にはずっと安価なジェミニ1.5フラッシュ002を全工程に使用した。

 

いくらかかったのですか?

AI Studioによると、私は11,018トークンを使い、そのうち10,326トークンはビデオ用だった。

ジェミニ1.5フラッシュ 料金表 100万分の$0.075の場合 トークン (価格は以下の通り 8月の下方修正).

11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635

したがって、このプロセス全体のコストは1/10以下であるべきだ!

実際、それは無料グーグルAIスタジオ 対す 課金しても、すべてのサポートエリアでは「まだ無料」だ。しかし、それはきっとデータをトレーニングできるそしてそれは、彼らの有料APIではできないことだ。

 

他の選択肢はあまり良くない。

ここで代替案を見てみよう。

  • メールをひとつひとつクリックして、手動でデータをコピーすることもできる。これはエラーが起きやすいし、かなり退屈だ。12通のメールを処理するのはいいが、100通は面倒だ。
  • Gmailのデータにプログラムでアクセスする。IMAP経由でGmailにアクセスすることは、専用ソフトをセットアップすればまだ可能だが、これは年々難しくなっている。アプリケーションパスワードしかし、アドホックなキャプチャ・タスクにはまだ多くの作業が必要だ。公式API 全然うまくいかない。
  • ある種のブラウザ自動化ツール(Playwrightなど)を使って、自動的にGmailアカウントにクリックスルーする。コードを書くのに役立つ大きな言語モデルを使っても、これにはまだ多くの作業が必要で、メールの書式の違いという問題は解決できない。
  • より高度な既存のAIツールを使って、私のメールにアクセスする。Googleの別の製品(Geminiとも呼ばれる)は、アクセスを許可すればこのようなことが可能だが、今のところその結果には特に満足していない。AIツールは本質的に予測不可能だからだ。キュー・インジェクションそういうリスクがある。

 

ビデオキャプチャ技術は非常に強力

本作ビデオキャプチャこの技術の素晴らしいところは、画面に表示されているものすべてに適用できることだ。 そして、AIモデルに何を見せるかを完全にコントロールできる。

ウェブ・アプリケーションをクリックしながらスクリーン・ビデオを録画することを妨げるような、ウェブサイトの認証やスクレイピング防止技術はない。

私が得られる結果は、スクリーンキャプチャーの領域とクリックの動作をどれだけ注意深く計画するかにかかっている。

サイトにログインして録画ボタンを押し、自由にブラウズしてビデオをジェミニにドロップするだけだ。

あまりの安さに、計算間違いがないか3回も計算し直したほどだ。

今後、このテクニックをもっと使うことになるだろう。また、データ・ジャーナリズムの分野でも応用できる。データ・ジャーナリズムでは、データを取得されたくないソースからデータを取得する必要がしばしばある。

 

プラス:大規模な言語モデルの価格計算機

このラボレポートを書いているとき、私はトークンの価格を手作業で計算するのに疲れていた。いつもは チャットGPT コード・インタープリタが、ドルからセントに変換していることがわかりました。何かが間違っていた。そのため、常に結果を再確認する必要があった。

だから、私はこう言った。 クロード 3.5 ソネットがクロード・アーティファクトを使って作ってくれた価格計算ツール(ソースコードはこちら):

トランスクリプト:35秒のスクリーンキャプチャからJSONデータを抽出する-2

入出力トークンの価格を手動で設定することも、プリセット・ボタンをクリックして既存のさまざまなモデルの価格を自動的に入力することもできます(2024年10月16日現在。)

電卓はすべてクロードが書いた。これは対談全文--19分間、10種類のバージョンを繰り返した。

自分ですべての価格を調べる代わりに、各モデルプロバイダーの価格ページを横取りし、直接クロードとの会話に入れた:

トランスクリプト:35秒のスクリーンキャプチャからJSONデータを抽出する-3

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " 再掲:Google Geminiのマルチモーダル機能を使って35秒間の録画ビデオからJSONデータを抽出する

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語