今週、エヌビディアはアマゾンとグーグルの親会社アルファベットを抜き、時価総額1兆8300億ドルという驚異的な世界第3位の企業へと躍進した。Nvidiaが最後にアマゾンを時価総額で上回ったのは2002年のことだった。なんという衝撃的なAIの台頭だろう!
では、重鎮たちを紹介しよう。
OpenAIが映像制作の世界に革命を起こす
ちょうど1年弱前、AIベースのテキスト生成ビデオ技術は例外なくひどいものだった(ウィル・スミスのビデオを覚えているだろうか?).しかしつい昨日、OpenAIは初の動画生成モデルであるSoraをリリースし、たった1日でAI動画に対する世間の認識を覆した。
要するに、Soraはテキストを手がかりに最大60秒の動画を生成できるAIモデルであり、OpenAIのこれまでのDALL-EやGPTモデルの研究をベースにした拡散モデルである。
Soraの特別な点は、既存のビデオジェネレーターの10倍以上の長さのビデオで、非常にリアルで高品質なシーンを作成することです。あらゆるディテールを正確に考慮し、それらが現実世界にどのように存在するかを理解することができる。
さらに、画像を生成したり(ミッドジャーニーに注意)、画像に基づいてビデオを生成したり、テキストプロンプトでビデオを編集したり、2つのビデオを結合したり、無限ループを作成したりすることもできる。
欠点は何か?OpenAIは "研究目的"(あるいは話題作り)でモデルを公開しているが、セキュリティ評価チームがリスク評価を完了するのを待っている。
OpenAIも、このモデルには欠点があることを認めている。Soraは時々、空間的な詳細や物理法則を捉えることに問題がある。たとえば、トレッドミルの上を後ろ向きに走るジョガーのビデオを生成するような、まったく非論理的な結果を出すこともある。
試してみてください:今すぐSoraを直接体験する方法はありませんが、OpenAIの研究論文にあるビデオ生成シミュレーターを体験することができます。あるいは、Platform Xでサム・アルトマンにプロンプトリクエストを送り続けている人たちに混じって、このテクノロジーで遊んでみるのもいい(個人的にお気に入りの例はこちら)。
細部から全体まで:OpenAIのAIビデオにおけるブレークスルーは驚異的としか言いようがない。たった1年でこれほどの進歩を遂げたのだから、2025年までにビデオ生成技術が到達する高みを誰が想像できただろうか?
グーグル、バージョンアップしたジェミニ1.5を発表
ジェミニ 1.5 プロは、402ページに及ぶ記録を分析し、推論を実証する。
グーグルがよりパワフルなジェミニ・ウルトラを発表した1週間後、同社は新たなスタンダードとなるマルチモデルのジェミニ、ジェミニ1.5を発表した。
Gemini 1.5が非常に効率的なのは、エキスパート・ハイブリッド・アーキテクチャのおかげである:各クエリに対して、モデル全体ではなく、モデルの特定の部分のみをアクティブにする。
Gemini 1.5は、一度に大量の情報を処理することができる。正確には、最大100万トークンのコンテキストウィンドウを持つ。つまり、75万語の入力、11時間のオーディオ、1時間のビデオ、数万行のコードを処理できる。
実際の性能:ジェミニ1.5は、アポロ11号の月面着陸の記録文書402ページを理解し推論すること、44分の無声映画の多数の筋書きや出来事を正確に分析すること、最大10万行のコードを修正し解釈することが示されている。
免責事項:まだ一般には公開されていないが、グーグルは間もなく128,000トークンの標準コンテキスト・ウィンドウを持つ1.5 Proを導入し、最終的には100万トークンの処理能力まで拡張する予定だ。
ChatGPTがようやく思い出した
ChatGPTとチャットをしていて、いつも「Wait, who are you?という無限ループにはまった経験はありませんか?ChatGPTには記憶機能があります。
OpenAIのイノベーション:メモリー機能(まだベータ版)の追加により、ChatGPTは以前のチャットで共有された情報を保存し、呼び出すことができるようになりました。
仕組み: ChatGPTに特定の詳細情報を記憶するよう明示的に依頼するか、自動的に情報を取得し記憶させることができます。例
ChatGPTに小麦不使用のベーカリーを登録し、ブラウニーのレシピをリクエストすると、小麦不使用のレシピだけを紹介してくれます。
ChatGPTに、議事録を箇条書きのカラムポイントと太字の見出しで表示するように指示すると、今後のすべての会議要約にこの形式が適用されます。
プライバシーの問題についてはどうですか?OpenAIは、ユーザーが記憶の保存をコントロールできるように、さまざまなオプションを提供しています:
ユーザーはChatGPTに保存されたメモリーの内容を閲覧し、一部の情報を選択的に削除することができる。
ステルスモードを使えば、ユーザーは過去の記憶に頼ることなくクエリーを開始できる。
細部から全体へ:ChatGPTの新しいメモリー機能は、同じことを何度も入力する手間を減らし、ユーザーの時間を節約し、フラストレーションを回避します。しかし、この新機能は利便性以上のものであり、人間味のある対話に向けたAIの大きな飛躍なのだ。
イレブンラボのサウンドで現金化
イレブンラボは、誰でもAIでお金を稼ぐことができる全く新しい機会である「声優支払いプラン」を開始しました。
詳細:サウンド・アクター・ペイメント・プランは、サウンド・プロフェッショナル(本当に誰でも)が自分の声のデジタル・クローン・バージョンを生成し、共有することを可能にする。
ユーザーは、30分の音声サンプルをアップロードし、(アクセントや性別などの)詳細情報を入力するだけでよい。
イレブンラボのサウンドライブラリにアップロードされたあなたの声は、ナレーションや吹き替えのプロジェクトで世界中で使用することができます。
不正使用を防ぐため、イレブンラボの管理者はあなたの音声を使用するプロジェクトを追跡し、不適切な使用にはフラグを立てます。また、自動フィルターを有効にして、さらに保護することもできます。
ミクロからマクロへ:AIがクリエイティブな仕事を奪うという懸念は多い。しかし、イレブンラボは、クリエイターやクリエーターに新たな、金銭的に有利な機会を提供するAIの可能性を示す一例である。
- メタ社は、ビデオを通じて現実世界に関するAIモデルのトレーニングを支援する方法であるV-JEPAを紹介した。
- サム・アルトマンは、新たなAIチップ・プロジェクトのために7兆ドル(そう、"t "付き)を探している。
- パキスタンのある政治家候補が、刑務所の中からAIを使って選挙キャンペーンを行った。
- Nvidiaは、PC上でローカルに動作するパーソナライズされたチャットボットを発表した。
- アップルはキーフレーマーという新しい画像アニメーションツールを発表した。
- AIは今年のスーパーボウルでメインストリームとなった
- アマゾンの研究者たちは、これまでで最大の音声合成モデルを開発した。
- マイクロソフトは、2024年に注目すべき3つの主要なAIトレンドを概説した。