2024年、最も人気のあるAI製品は次のようになるだろう。 ノートブックLM .月からのヒットで、年末まで暑さが続いた。
12月、NotebookLMに新機能が追加された。ユーザーもポッドキャストに参加できるようになりました。
この機能は新しいものではなく、NotebookLMチームはずっと前にGoogle Developer Conferenceで披露していたが、最近になってようやくBETAで利用できるようになった。
注目してほしい:
地域によっては強力な制限が適用されるので、ネットワーク設定を確認してください!
Join "機能は不安定です!
Join "機能は現在、英語の音声のみをサポートしていますが、アップロードされたテキストの言語は制限されていません。
現在はウェブのみで、モバイルはない
ワンクリックでポッドキャストを作成できるだけでなく、次のような機能にも参加できます。
NotebookLMが最初に注目したのは、ファイルをアップロードすると概要が自動的に生成されるスマートノートだ。ユーザーは、アップロードされたテキストの内容に基づいて、ダイアログボックスで直接テキストで質問することができる。
これは実際にいい機能だが、もちろん、会話のポッドキャスト形式である音声概要でこそ真価を発揮する。オーディオ概要には「参加」機能も追加され、これをクリックすれば会話に直接参加できる。
質問することは、この商品のハイライトである。授業に参加したことのある人なら、この奥深さを知っているはずだ。質問するためには、内容を理解している必要があるだけでなく、より重要なのは、参加し、講義に加わるためには、積極的に講義のペースについて行き、頭を使う必要があるということだ。これにより、テキストや教材の理解が効果的に促進される。
NotebookLMの「参加」は、テンセントのカンファレンスの挙手機能のようなものだ。質問をクリックして直接話すと、1秒半ほど遅れて、AIキャスターが「リスナーが何か言いたいことがあるようです」などと言いながら応答する。
今のところ反応に時間がかかるようだが、ごく自然に会話を拾ってくれる。言語は英語しか対応していないので、英語で質問する必要があるが、中国語で質問しても、言葉を床に落とすことなく、参加に感謝してくれるのはとても親切だ。
NotebookLMの長文テキストのサポートは素晴らしく、『戦争と平和』のような大きなセクションもアップロードできる。生成された音声からは、分析のために一部の章だけが抽出され、合計の長さがわずか11分であることが感じられる。
この本を読むのに何時間もかかる。
戦争と平和』は中国語でテストされ、返却された音声概要は英語だったが、冒頭で2人の「司会者」が中国語訳であることを指摘し、次のように述べた。異なる言語から、物語に対する異なる視点を提供することができる。-その通りだ!
具体的にどの章を分析に使ったのかと尋ねると、相手は少し曖昧で、いくつかの重要なエピソードを選んだと答えた。また、音声はストーリーの流れよりも登場人物の順番を追うことを基本としている。
ただし、音声の概要を生成する前に、下のカスタマイズをクリックし、要件を入力することで、分析をカスタマイズすることができます。例えば、別の小説をアップロードした後、ストーリー展開のプロットをメインにするようお願いしたところ、その後に生成される音声は、ストーリーのプロット通りの順序で表示されました。
質問会では、その音声認識にいくつか問題があることがわかった。例えば、以下の質問では、本来はこの小説『NOVEL』の登場人物はどのように描かれているのか、という質問だったのですが、高貴な『NOBEL』の登場人物はどのように描かれているのか、と認識されてしまいました。
私への確認もなく、大物モデルのいつものスタイルである、フェンスの反対側を真剣に走るという怠慢が続いた。理解がズレているのは明らかだったが、議論は真摯に続けられた。
もう一つの問題はインタラクションのデザインで、NotebookLMは良い意図を持っている:各プロジェクトは複数の素材を含むことができ、異なる素材を組み合わせてノートを生成することができる。しかし、インターフェイスのデザインは明確さに欠ける。「すべての項目に戻る」のような凡例があれば、もっといい。
もうひとつうまく機能していないのは、インタラクティブ・モードに入った後にオーディオにはプログレスバーがない。第一に、番組が今どこにいるのか分かりにくいこと、第二に、質問が終わった後に巻き戻して聞くことができないこと、そして質問自体が音声ファイルに含まれていないことだ。これはまだBETAバージョンとしか言いようがないので、その後のアップグレードに期待したい。
今のところ、長い記事が一番うまくいっているようだ。生成時間が友好的で、全文を読むことができる。例えば、『戦争と平和』のような大きな本は、読み込むことはできても、生成に本当に時間がかかり、一時は詰まったかと思った。
そして、モデルたちが長文を食いつぶすだけでなく、この相互作用を最大限に利用することもできる。
長文コーナーでは、AIチャットボットの潜在的な問題について議論するというテーマで2-3,000字の記事を掲載した。音声はフルで22分あるが、すでにいくつかの質問が含まれている。
これより短いと、あまり有益ではないかもしれないし、これより長いと、人々はどうしてもせっかちになる。
このやりとりの自然さは、やはりすごいと言わざるを得ない。声だけでなく内容においても、2人の「アンカー」は質問を非常に正確に、そして包括的に理解していた。
しかし、これらの質問が元記事の中にあるということは、直接的な答えはない。元の内容との関連で質問されているのであれば、「この記事の中で」と明示的に表現した方が明確だろう。
一方で、モデルは質問を理解し、次にそれが原文でサポートされているかどうかを判断し、それがない場合は適切な応答を生成して音声に変換し、さらにそれを自然でスムーズな音声対話にパッケージ化しなければならない。
チャットボットがそこまでエミュレートされているかどうかは何とも言えないが、私はこの2つのアンカーが実に強力だと見ている。
ペインレス学習はどのように機能するのか?
NotebookLMのプロダクト・マネージャーであるライザ・マーティンは、インタビューに答えて、NotebookLMがこれほど注目されるようになったことに少し驚いていると語った。当初は一般向けではなく、読書愛好家向けのツールでした。
ここには本物の科学がある。
医学雑誌『Neuroimaging』に掲載された最近の研究は、それがなぜホットなのかを説明するかもしれない:読書好きな人は音にも敏感だ。
読書とは「見る」こと、つまり視覚のことではないのか?
そうだが、すべてではない。文字を読む能力は、脳の左半球にある側頭葉の前部に関係しており、この部分も音声を処理する。音声を処理するという意識は、言語の音について学び、単語と音声を対にする幼少期から芽生える。
1,000人以上のボランティアをテストした結果、研究者たちは、左半球にある脳回路のひとつが、スピーキングとリーディングのスキルが高いほど厚みを増すことを発見した。この脳回路は、聴覚野を含んでいる。
つまり、聴覚野が厚いほど、読解力が高いということになる。私たちの脳は常に環境によって変化しているのだ。読書という行為が増えれば増えるほど、脳の大脳皮質の形が少しずつ変わっていく。
もちろん、NotebookLMが音とテキストという2つのモダリティを鈍感にならずに融合させ、ポッドキャスティングのフォーマットとしての楽しさと活気が、大衆的でわかりやすいという重要な理由もある。テキストを分析するために使うだけでなく、ネットユーザーはNotebookLMの驚くべき使い方をいろいろ開発している。履歴書を書き換えたり、お互いの小論文を評価したり、グループ課題のディスカッションをシミュレーションしたりするのに使われている。読書は、単にプロセスの最も些細な部分である。しかし、現段階では、NotebookLMはまだ改善の余地が多く、例えば、音声が時々ラグったり、生成時間が長かったり、時々読み込みに失敗したりする。みんなの期待に応えられず、早急に最適化してほしい。