今年最もホットなAIノートが更新され、知識が魔法のように脳に入り込む

AIニュース更新：1年前 AIシェアリングサークル

34.2K 00

2024年、最も人気のあるAI製品は次のようになるだろう。ノートブックLM .月からのヒットで、年末まで暑さが続いた。

12月、NotebookLMに新機能が追加された。ユーザーもポッドキャストに参加できるようになりました。

この機能は新しいものではなく、NotebookLMチームはずっと前にGoogle Developer Conferenceで披露していたが、最近になってようやくBETAで利用できるようになった。

注目してほしい：

地域によっては強力な制限が適用されるので、ネットワーク設定を確認してください！

Join "機能は不安定です！

Join "機能は現在、英語の音声のみをサポートしていますが、アップロードされたテキストの言語は制限されていません。

現在はウェブのみで、モバイルはない

ワンクリックでポッドキャストを作成できるだけでなく、次のような機能にも参加できます。

NotebookLMが最初に注目したのは、ファイルをアップロードすると概要が自動的に生成されるスマートノートだ。ユーザーは、アップロードされたテキストの内容に基づいて、ダイアログボックスで直接テキストで質問することができる。

これは実際にいい機能だが、もちろん、会話のポッドキャスト形式である音声概要でこそ真価を発揮する。オーディオ概要には「参加」機能も追加され、これをクリックすれば会話に直接参加できる。

質問することは、この商品のハイライトである。授業に参加したことのある人なら、この奥深さを知っているはずだ。質問するためには、内容を理解している必要があるだけでなく、より重要なのは、参加し、講義に加わるためには、積極的に講義のペースについて行き、頭を使う必要があるということだ。これにより、テキストや教材の理解が効果的に促進される。

‍

NotebookLMの「参加」は、テンセントのカンファレンスの挙手機能のようなものだ。質問をクリックして直接話すと、1秒半ほど遅れて、AIキャスターが「リスナーが何か言いたいことがあるようです」などと言いながら応答する。

今のところ反応に時間がかかるようだが、ごく自然に会話を拾ってくれる。言語は英語しか対応していないので、英語で質問する必要があるが、中国語で質問しても、言葉を床に落とすことなく、参加に感謝してくれるのはとても親切だ。

NotebookLMの長文テキストのサポートは素晴らしく、『戦争と平和』のような大きなセクションもアップロードできる。生成された音声からは、分析のために一部の章だけが抽出され、合計の長さがわずか11分であることが感じられる。

この本を読むのに何時間もかかる。

戦争と平和』は中国語でテストされ、返却された音声概要は英語だったが、冒頭で2人の「司会者」が中国語訳であることを指摘し、次のように述べた。異なる言語から、物語に対する異なる視点を提供することができる。-その通りだ！

具体的にどの章を分析に使ったのかと尋ねると、相手は少し曖昧で、いくつかの重要なエピソードを選んだと答えた。また、音声はストーリーの流れよりも登場人物の順番を追うことを基本としている。

ただし、音声の概要を生成する前に、下のカスタマイズをクリックし、要件を入力することで、分析をカスタマイズすることができます。例えば、別の小説をアップロードした後、ストーリー展開のプロットをメインにするようお願いしたところ、その後に生成される音声は、ストーリーのプロット通りの順序で表示されました。

質問会では、その音声認識にいくつか問題があることがわかった。例えば、以下の質問では、本来はこの小説『NOVEL』の登場人物はどのように描かれているのか、という質問だったのですが、高貴な『NOBEL』の登場人物はどのように描かれているのか、と認識されてしまいました。

私への確認もなく、大物モデルのいつものスタイルである、フェンスの反対側を真剣に走るという怠慢が続いた。理解がズレているのは明らかだったが、議論は真摯に続けられた。

もう一つの問題はインタラクションのデザインで、NotebookLMは良い意図を持っている：各プロジェクトは複数の素材を含むことができ、異なる素材を組み合わせてノートを生成することができる。しかし、インターフェイスのデザインは明確さに欠ける。「すべての項目に戻る」のような凡例があれば、もっといい。

もうひとつうまく機能していないのは、インタラクティブ・モードに入った後にオーディオにはプログレスバーがない。第一に、番組が今どこにいるのか分かりにくいこと、第二に、質問が終わった後に巻き戻して聞くことができないこと、そして質問自体が音声ファイルに含まれていないことだ。これはまだBETAバージョンとしか言いようがないので、その後のアップグレードに期待したい。

今のところ、長い記事が一番うまくいっているようだ。生成時間が友好的で、全文を読むことができる。例えば、『戦争と平和』のような大きな本は、読み込むことはできても、生成に本当に時間がかかり、一時は詰まったかと思った。

そして、モデルたちが長文を食いつぶすだけでなく、この相互作用を最大限に利用することもできる。

長文コーナーでは、AIチャットボットの潜在的な問題について議論するというテーマで2-3,000字の記事を掲載した。音声はフルで22分あるが、すでにいくつかの質問が含まれている。

これより短いと、あまり有益ではないかもしれないし、これより長いと、人々はどうしてもせっかちになる。

このやりとりの自然さは、やはりすごいと言わざるを得ない。声だけでなく内容においても、2人の「アンカー」は質問を非常に正確に、そして包括的に理解していた。

しかし、これらの質問が元記事の中にあるということは、直接的な答えはない。元の内容との関連で質問されているのであれば、「この記事の中で」と明示的に表現した方が明確だろう。

一方で、モデルは質問を理解し、次にそれが原文でサポートされているかどうかを判断し、それがない場合は適切な応答を生成して音声に変換し、さらにそれを自然でスムーズな音声対話にパッケージ化しなければならない。

チャットボットがそこまでエミュレートされているかどうかは何とも言えないが、私はこの2つのアンカーが実に強力だと見ている。

ペインレス学習はどのように機能するのか？

ライザ、NotebookLMプロダクトマネージャーマーティンインタビューの中で、彼女は今の熱気に少し驚いていると語った。当初は、一般向けではなく、読書愛好家向けのツールでした。

ここには本物の科学がある。

医学雑誌『Neuroimaging』に掲載された最近の研究は、それがなぜホットなのかを説明するかもしれない：読書好きな人は音にも敏感だ。

読書とは「見る」こと、つまり視覚のことではないのか？

そうだが、すべてではない。文字を読む能力は、脳の左半球にある側頭葉の前部に関係しており、この部分も音声を処理する。音声を処理するという意識は、言語の音について学び、単語と音声を対にする幼少期から芽生える。

1,000人以上のボランティアをテストした結果、研究者たちは、左半球にある脳回路のひとつが、スピーキングとリーディングのスキルが高いほど厚みを増すことを発見した。この脳回路は、聴覚野を含んでいる。

つまり、聴覚野が厚いほど、読解力が高いということになる。私たちの脳は常に環境によって変化しているのだ。読書という行為が増えれば増えるほど、脳の大脳皮質の形が少しずつ変わっていく。

もちろん、NotebookLMが音とテキストという2つのモダリティを鈍感にならずに融合させ、ポッドキャスティングのフォーマットとしての楽しさと活気が、大衆的でわかりやすいという重要な理由もある。テキストを分析するために使うだけでなく、ネットユーザーはNotebookLMの驚くべき使い方をいろいろ開発している。履歴書を書き換えたり、お互いの小論文を評価したり、グループ課題のディスカッションをシミュレーションしたりするのに使われている。読書は、単にプロセスの最も些細な部分である。しかし、現段階では、NotebookLMはまだ改善の余地が多く、例えば、音声が時々ラグったり、生成時間が長かったり、時々読み込みに失敗したりする。みんなの期待に応えられず、早急に最適化してほしい。