Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

Noticias AIActualizado hace 1 año Círculo de intercambio de inteligencia artificial

36.7K 00

El producto de IA más popular en 2024 será el CuadernoLM . Ha sido un éxito desde septiembre, y el calor fue alto hasta finales de año.

En diciembre, NotebookLM se actualizó con una nueva función: unirse. Ahora los usuarios también pueden formar parte del podcast.

Esta función no es nueva, el equipo de NotebookLM la mostró en la Conferencia de Desarrolladores de Google hace mucho tiempo, pero no ha sido hasta hace poco que por fin está disponible en BETA.

Atención:

En algunas zonas se aplican fuertes restricciones a los usuarios, así que comprueba la configuración de tu red.

La función "Unir" es inestable, ¡ten paciencia!

Actualmente, la función "Unir" sólo admite el habla inglesa, pero el idioma del texto cargado no está restringido.

Actualmente sólo web, no móvil

No sólo genera podcasts con un clic, sino que también puede unirse a la

El primer objetivo de NotebookLM fueron las notas inteligentes, en las que se genera automáticamente un resumen general tras cargar un archivo. Los usuarios pueden hacer preguntas directamente en texto en un cuadro de diálogo basado en el contenido del texto cargado.

Es una buena función, pero, por supuesto, no tiene nada que ver con el formato podcast de la conversación, que es el resumen de audio. El resumen de audio ahora también ofrece una función de "unirse", en la que puedes hacer clic para unirte directamente a esta conversación.

El cuestionario es el punto culminante de este producto. Cualquiera que haya asistido a una clase sabe hasta qué punto llega esto: el cuestionamiento no sólo requiere que se comprenda el contenido, sino que, lo que es más importante, para participar e intervenir hay que seguir activamente el ritmo de la clase y utilizar el cerebro. De este modo se fomenta la comprensión del texto y el material.

‍

El "Join" de NotebookLM es como la función de levantar la mano en la conferencia de Tencent. Tras hacer clic y pronunciar directamente la pregunta, con un retardo de aproximadamente un segundo y medio, el presentador de IA responderá diciendo algo así como "Nuestros oyentes tienen algo que decir" a modo de transición.

De momento parece que tarda un poco en responder, pero retoma la conversación con mucha naturalidad. El idioma sólo se admite en inglés, así que hay que preguntar en inglés, pero aunque preguntes en chino, es muy amable agradeciendo tu participación sin dejar que las palabras caigan al suelo.

La compatibilidad de NotebookLM con textos largos es asombrosa, y se pueden cargar grandes secciones como Guerra y Paz. Aunque por el audio generado, se puede intuir que sólo hay que extraer algunos capítulos para analizarlos, y la duración total es de sólo 11 minutos.

Es comprensible. El libro entero podría llevar horas.

Guerra y Paz se probó en chino, y el resumen de audio devuelto estaba en inglés, pero al principio, los dos "anfitriones" hicieron hincapié en señalar que se trataba de una traducción al chino, y afirmaron queDesde distintos idiomas, puede ofrecer diferentes perspectivas de la historia-¡Muy cierto!

Cuando se le preguntó exactamente qué capítulos se habían utilizado para el análisis, la parte contraria se mostró un poco ambigua, afirmando que habían elegido algunos episodios clave. El audio también se basa en seguir el orden de los personajes, más que el argumento.

Sin embargo, el análisis puede personalizarse haciendo clic en Personalizar e introduciendo sus requisitos antes de generar el resumen de audio. Por ejemplo, después de subir otra novela, pedí que la trama del desarrollo de la historia fuera el foco principal, y el audio posterior generado estaba en el orden exacto de la trama de la historia.

En la sesión de preguntas, descubrí que hay algunos problemas con su reconocimiento de voz. Por ejemplo, en la siguiente pregunta, originalmente mi pregunta era cómo estaban retratados los personajes de esta novela "NOVELA", pero fue reconocida como ¿cómo estaban retratados los personajes de la noble "NOBEL"?

Tampoco hubo comprobación conmigo, un lapsus que continúa el estilo habitual de los grandes modelos: una carrera seria en el lado equivocado de la valla. Estaba claro que no había entendimiento, pero la discusión continuó en serio y al grano.

Otro problema es el diseño de la interacción, NotebookLM tiene una buena intención: cada proyecto puede contener más de un material, de forma que se pueden combinar diferentes materiales para generar notas. Sin embargo, el diseño de la interfaz no es lo suficientemente claro, incluso una leyenda como "Volver a todos los elementos" sería mucho mejor.

Otra interacción que no está funcionando bien es que después de entrar en el modo interactivo, elNo hay barra de progreso para el audio.En primer lugar, es difícil saber en qué punto se encuentra el programa en este momento y, en segundo lugar, no se puede rebobinar y escuchar las preguntas una vez formuladas, y las propias preguntas no están incluidas en el archivo de audio. Sólo puedo decir que aún se trata de una versión BETA, y que espero con impaciencia las actualizaciones posteriores.

Los artículos más largos parecen funcionar mejor hasta ahora. El tiempo de generación es más amigable y puedes leer todo el texto. Por ejemplo, un libro grande como Guerra y paz, aunque se puede pasar, la generación tardaba muchísimo y en un momento pensé que estaba atascado.

Y las modelos no sólo se comen los artículos largos, sino que son las que mejor aprovechan esta interacción.

Para la sección de artículos largos, publiqué un artículo de entre 2.000 y 3.000 palabras sobre el tema de los posibles problemas de los chatbots de IA. El audio completo dura 22 minutos, pero eso es con varias preguntas ya incluidas.

Todo lo que sea más breve puede no ser muy informativo, y todo lo que sea más largo impacientará inevitablemente a la gente. 20 minutos con interacción es posiblemente una duración más adecuada.

Tengo que decir que la naturalidad de esta interacción sigue siendo asombrosa. No sólo en la voz, sino también en el contenido, los dos "presentadores" entendieron las preguntas con mucha precisión y amplitud.

Sin embargo, al estar estas preguntas en el artículo original, no hay respuestas directas. Si las preguntas se formularan en relación con el contenido original, quedaría más claro si se redactaran explícitamente como "en este artículo".

Pero es el juego más allá del texto original lo que demuestra la fuerza del modelo que hay detrás: por un lado, el modelo tiene que ser capaz de entender la pregunta y, por otro, determinar si se apoya en el texto original y, en su defecto, generar una respuesta adecuada y traducirla al habla, además de empaquetarla en una interacción de voz natural y fluida.

Es difícil decir si los chatbots son tan emulados, veo estos dos anclajes realmente muy fuertes.

¿Cómo funciona el aprendizaje sin dolor?

Raiza, Product Manager de NotebookLM Martin. En una entrevista, dijo que le sorprendía un poco lo de moda que está ahora. Al principio, no era una herramienta pensada para el gran público, sino más bien para los aficionados a la lectura.

Aquí hay ciencia de verdad.

Un estudio reciente publicado en la revista médica Neuroimaging podría explicar por qué está de moda:Las personas aficionadas a la lectura también son más sensibles al sonido.

Puede que le resulte un poco confuso: ¿la lectura no debería consistir en "ver", en la vista?

Sí, pero no toda. La capacidad de leer tiene que ver con la parte anterior del lóbulo temporal del hemisferio izquierdo del cerebro, y esta parte también procesa sonidos. La conciencia de procesar los sonidos del habla aparece ya en la infancia, cuando aprendemos los sonidos del lenguaje y luego emparejamos las palabras con el habla.

Tras realizar pruebas a más de 1.000 voluntarios, los investigadores descubrieron que uno de los circuitos cerebrales del hemisferio izquierdo aumentaba de grosor cuanto mejores eran las habilidades de habla y lectura. Este circuito cerebral, a su vez, contiene la corteza auditiva.

Esto significa que un córtex auditivo más grueso se asocia a una mayor capacidad de lectura. Esto no es del todo innato; nuestro cerebro se ve constantemente alterado por nuestro entorno.Cuanto más se prolonga el acto de leer, más se modifica lentamente la forma de la corteza cerebral.

Por supuesto, la naturaleza divertida y animada del podcasting como formato es una razón importante por la que NotebookLM combina las dos modalidades de sonido y texto sin ser obtuso y popular y fácil de entender. Además de utilizarlo para analizar texto, los internautas han desarrollado todo tipo de usos sorprendentes para NotebookLM: se usa para cambiar CV, para evaluar las redacciones de los demás y para simular discusiones sobre trabajos en grupo. La lectura es simplemente la parte más trivial del proceso. Sin embargo, en esta etapa, NotebookLM todavía tiene mucho margen de mejora, por ejemplo, la voz todavía se retrasa a veces, el tiempo de generación es largo, y falla al cargar de vez en cuando. Espero que no deje de estar a la altura de las expectativas de todos y que lo optimicen urgentemente.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Noticias AI

hace 1 año

045.4K

Cloudflare lanza AI Maze: contra los rastreadores maliciosos con IA generativa

Noticias AI

hace 1 año

045K

Refly abre oficialmente el plazo de inscripción, la mejor plataforma de trabajo para creadores de palabras

Noticias AI

hace 1 año

048.3K

Jina AI 推出革命性小型语言模型 Reader-LM，高效提取HTML网页主要内容

Jina AI presenta Reader-LM, un revolucionario modelo de lenguaje reducido para extraer eficazmente el contenido principal de las páginas web HTML

Noticias AI

hace 1 año

053.1K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

No sólo genera podcasts con un clic, sino que también puede unirse a la

¿Cómo funciona el aprendizaje sin dolor?

¿Será 2025 la era de los agentes de IA y la IA sustituirá a las plataformas sin código?

2024 Los 10 mejores frameworks RAG de Github

Artículos relacionados

Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Cloudflare lanza AI Maze: contra los rastreadores maliciosos con IA generativa

Refly abre oficialmente el plazo de inscripción, la mejor plataforma de trabajo para creadores de palabras

Jina AI presenta Reader-LM, un revolucionario modelo de lenguaje reducido para extraer eficazmente el contenido principal de las páginas web HTML

Sin comentarios

Últimas colecciones

Últimos artículos

Las notas más calientes del año sobre IA se han actualizado, y el conocimiento entra en el cerebro de forma mágica

No sólo genera podcasts con un clic, sino que también puede unirse a la

¿Cómo funciona el aprendizaje sin dolor?

¿Será 2025 la era de los agentes de IA y la IA sustituirá a las plataformas sin código?

2024 Los 10 mejores frameworks RAG de Github

Artículos relacionados

Hugging Face presenta SmolVLM, un pequeño modelo multimodal que puede ejecutarse en dispositivos finales

Cloudflare lanza AI Maze: contra los rastreadores maliciosos con IA generativa

Refly abre oficialmente el plazo de inscripción, la mejor plataforma de trabajo para creadores de palabras

Jina AI presenta Reader-LM, un revolucionario modelo de lenguaje reducido para extraer eficazmente el contenido principal de las páginas web HTML

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos