AI Personal Learning
und praktische Anleitung

Transcript: Extrahieren von JSON-Daten aus 35 Sekunden aufgezeichnetem Video unter Verwendung der multimodalen Funktionen von Google Gemini

Neulich musste ich einige Werte addieren, die über zwölf verschiedene E-Mails verstreut waren.

Ich wollte nicht alle Zahlen einzeln kopieren und einfügen, also beschloss ich, etwas anderes zu versuchen: Ich könnte den Bildschirm aufzeichnen, während ich mein Google Mail-Konto durchsuche, und dann Google Zwillinge Zahlen aus diesem Video extrahieren?


Infolgedessen bewirkt diese Methodesehr vielGut.

 

AI Studio und QuickTime

Ich verwende den QuickTime Player auf meinem Mac, um Videos aufzunehmen:Datei -> Neue Bildschirmaufnahme. Ich zeichnete einen Kasten auf den Bildschirm, umrahmte den Teil meines Google Mail-Kontos und klickte dann nacheinander auf jede E-Mail, wobei ich jeweils einige Sekunden lang verweilte.

Dann habe ich die aufgezeichnete Datei direkt auf die Google-Website hochgeladen. AI-Studio und geben Sie die folgende Eingabeaufforderung ein:

Konvertiert es in ein JSON-Array, in dem jedes Element das Datum im Format jjjj-mm-tt und den Gleitkommabetrag für dieses Datum enthält

Das Ergebnis von ...... war erfolgreich. Es gibt ein JSON-Array aus, das wie folgt aussieht:

[
  {
    "Datum": "2023-01-01",
    "Betrag": 2...
  },
  ...
]

Transcript: Extrahieren von JSON-Daten aus 35 Sekunden Bildschirmaufnahme-1

Ich wollte sie in Numbers einfügen, also tippte ich sie ein:

Konvertieren Sie sie in eine csv-Datei, die kopiert und eingefügt werden kann

Ich erhielt die gleichen Daten im CSV-Format.

Man sollte sich nie ganz darauf verlassen, dass diese Tools keine Fehler machen. Deshalb habe ich mir dieses 35-Sekunden-Video noch einmal angesehen und alle Zahlen manuell überprüft. Es war alles richtig.

Ursprünglich wollte ich Gemini 1.5 Pro verwenden, das beste Modell von Google ......, aber es stellte sich heraus, dass ich vergessen hatte, ein Modell auszuwählen, und ich verwendete tatsächlich das viel billigere Gemini 1.5 Flash 002 für den gesamten Prozess.

 

Wie viel hat es gekostet?

Laut AI Studio habe ich 11.018 Token verbraucht, von denen 10.326 für Videos verwendet wurden.

Zwilling 1.5 Blitzlicht Tarif für $0,075 pro Million Token (Preise in Abwärtskorrektur im August).

11018/1000000 = 0.011018
0.011018 * $0.075 = $0.00082635

Daher sollte dieser gesamte Prozess weniger als 1/10 Cent kosten!

In der Tat, es istkostenlosGoogle AI Studio zugewandt sein (uns) Es ist in allen unterstützten Bereichen "immer noch kostenlos", auch mit Abrechnung. Aber ich bin sicher, das bedeutet, dass sieSie können Ihre Daten trainierenUnd das ist etwas, was ihre kostenpflichtigen APIs nicht leisten.

 

Die anderen Alternativen sind nicht wirklich so gut

Schauen wir uns die Alternativen an.

  • Ich kann die E-Mails eine nach der anderen anklicken und die Daten manuell kopieren. Das ist fehleranfällig und ziemlich langweilig. Die Verarbeitung von 12 E-Mails ist in Ordnung, aber 100 wären eine Qual.
  • Programmatisch auf meine Google Mail-Daten zugreifen. Das wird von Jahr zu Jahr schwieriger - obwohl es immer noch möglich ist, über IMAP darauf zuzugreifen, solange man ein spezielles Programm einrichtet.Anwendungskennwortaber für eine Ad-hoc-Erfassungsaufgabe ist das immer noch ein großer Aufwand.Offizielle API Das funktioniert überhaupt nicht gut.
  • Verwendung einer Art von Browser-Automatisierungstool (wie Playwright oder ähnliches), um automatisch auf mein Gmail-Konto zu klicken. Selbst mit dem großen Sprachmodell, das beim Schreiben des Codes hilft, erfordert dies immer noch mehr Arbeit und löst nicht das Problem der unterschiedlichen E-Mail-Formatierung - ich müsste den Schritt des E-Mail-Parsing immer noch separat lösen.
  • Verwenden Sie eine Art fortgeschrittenes KI-Tool, um auf meine E-Mails zuzugreifen. Ein anderes Google-Produkt (auch Gemini genannt) kann dies tun, wenn Sie ihm Zugriff gewähren, aber bisher bin ich mit den Ergebnissen nicht besonders zufrieden.KI-Tools sind von Natur aus unberechenbar. Ich zögere auch, einem Tool vollen Zugriff auf mein E-Mail-Konto zu gewähren, weil es unter anderem folgende Möglichkeiten gibtQueue-InjektionSolche Risiken.

 

Die Videoaufnahmetechnik ist sehr leistungsstark

diese ArbeitVideoaufnahmeDas Tolle an dieser Technologie ist, dass sie für _alles_ gilt, was Sie auf Ihrem Bildschirm sehen... Und Sie haben die vollständige Kontrolle darüber, was Sie dem KI-Modell zur Verfügung stellen.

Es gibt keine Website-Authentifizierung oder Anti-Scraping-Technologie, die mich daran hindert, Bildschirmvideos aufzunehmen, während ich mich durch Webanwendungen klicke.

Die Ergebnisse, die ich erhalte, hängen ganz davon ab, wie sorgfältig ich den Bereich für die Bildschirmaufnahme und den Klickvorgang plane.

Für diesen Vorgang fallen keinerlei Einrichtungskosten an - melden Sie sich einfach auf der Website an, klicken Sie auf Aufnehmen, blättern Sie in aller Ruhe und legen Sie das Video in Gemini ab.

Die Kosten waren so niedrig, dass ich dreimal nachrechnen musste, um sicherzugehen, dass ich mich nicht verrechnet hatte.

Ich gehe davon aus, dass ich diese Technik in Zukunft häufiger verwenden werde. Es gibt auch Anwendungen im Bereich des Datenjournalismus, wo es oft notwendig ist, Daten von Quellen zu erfassen, die nicht erfasst werden wollen.

 

Ein Plus: ein Preisrechner für ein großes Sprachmodell

Als ich diesen Laborbericht schrieb, war ich es leid, die Tokenpreise manuell zu berechnen. Normalerweise lagere ich dies aus an ChatGPT Code Interpreter, aber ich habe festgestellt, dass er von Dollar in Cent umrechnet, wenn dieEtwas ist schief gelaufen.Deshalb musste ich die Ergebnisse immer zweimal überprüfen.

Ich lasse also Claude 3.5 Sonnet hat dies für mich mit Claude Artifacts gebautPreisberechnungs-Tool(Der Quellcode ist hier):

Transcript: Extrahieren von JSON-Daten aus 35 Sekunden Bildschirmaufnahme-2

Sie können den Preis des Ein-/Ausgabe-Tokens manuell festlegen oder auf die voreingestellten Schaltflächen klicken, um die Preise der verschiedenen vorhandenen Modelle automatisch zu übernehmen (Stand: 16. Oktober 2024 - ich verspreche nicht, dass sie in Zukunft auf dem neuesten Stand bleiben!)

Der gesamte Taschenrechner wurde von Claude geschrieben. Hier ist esVollständige Abschrift des Dialogs--Wir haben 19 Minuten lang 10 verschiedene Versionen durchgespielt.

Anstatt alle Preise selbst nachzuschlagen, habe ich die Preisseite jedes Modellanbieters abgefangen und sie direkt in ein Gespräch mit Claude verwickelt:

Transcript: Extrahieren von JSON-Daten aus 35 Sekunden Bildschirmaufnahme-3

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Transcript: Extrahieren von JSON-Daten aus 35 Sekunden aufgezeichnetem Video unter Verwendung der multimodalen Funktionen von Google Gemini

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)