SAM Audio - Modelo de segmentación de audio multimodal de código abierto de Meta

Últimos recursos sobre IAPublicado hace 3 meses Círculo de intercambio de inteligencia artificial

31.6K 00

Qué es SAM Audio

SAM Audio es un código abierto de MetaModelos de segmentación de audio multimodalsepara con precisión sonidos arbitrarios de mezclas de audio complejas. Al combinar pistas textuales, visuales y temporales para un procesamiento de audio flexible y eficaz, ofrece una nueva solución para la edición de audio, la eliminación de ruido, la extracción de sonido y otras tareas. Los usuarios pueden utilizar SAM Audio con simples descripciones de texto (por ejemplo, "sonido de guitarra"), haciendo clic en un objeto sonoro de un vídeo o marcando un intervalo de tiempo en el que aparece el sonido.

SAM Audio Características

Soporte multimodal::
- alerta de textoLos usuarios pueden extraer los sonidos correspondientes a partir de descripciones en lenguaje natural (por ejemplo, "perro ladrando", "voz humana").
- señal visualHaz clic en un objeto vocal (por ejemplo, un instrumento musical, un altavoz) en un vídeo para separar automáticamente su audio.
- Consejos: Marca el periodo de tiempo en el que se produce el sonido objetivo, lo que permite localizar con precisión la separación.
Arquitectura del modelo unificadoNo es necesario entrenar por separado para diferentes categorías de sonidos, puede aplicarse directamente a nuevas tareas basadas en pistas, con una gran versatilidad y extensibilidad.
Alto rendimiento y eficaciaEl sistema de separación de audio: supera a los modelos existentes en una amplia gama de tareas de separación de audio, funciona a velocidades de procesamiento cercanas al tiempo real (factor de tiempo real de ~0,7) y admite el procesamiento de audio a gran escala.
Amplia gama de aplicaciones: Para limpieza de audio, eliminación de ruido de fondo, producción musical, postprocesamiento de vídeo, tecnología de accesibilidad y otras áreas que bajan el listón del procesamiento de audio profesional.

Puntos fuertes de SAM Audio

interacción multimodalAdmite diversos métodos de cueing, como texto, visual y clips de tiempo, que los usuarios pueden elegir de forma flexible según sus necesidades, y se acerca más a la forma en que el audio se entiende y procesa de forma natural.
rendimiento líder en el sector: Consigue un rendimiento líder en una amplia gama de tareas de separación de audio, incluida la separación de voz, música y sonido de uso general, capaz de manejar mezclas de audio complejas.
No Reference Audio ReviewSAM Audio Judge proporciona una evaluación objetiva de la calidad de audio sin necesidad de una pista de referencia, lo que la acerca más a la experiencia auditiva humana.
Procesamiento eficaz en tiempo real: Funciona más rápido que el procesamiento en tiempo real (factor de tiempo real de aproximadamente 0,7), lo que resulta adecuado para el procesamiento de audio a gran escala y mejora la eficacia del trabajo.
Evaluación comparativa del entorno realEvaluado por SAM Audio-Bench, que cubre una amplia gama de tareas de audio en escenarios reales, para garantizar la fiabilidad y validez del modelo en aplicaciones del mundo real.
Código abierto y apoyo comunitarioEl código es de código abierto para facilitar su exploración y aplicación por parte de desarrolladores e investigadores y promover el desarrollo de la tecnología de procesamiento de audio.

¿Cuál es la página web oficial de SAM Audio?

Página web del proyecto:: https://ai.meta.com/samaudio/
Repositorio Github:: https://github.com/facebookresearch/sam-audio

A quién va dirigido SAM Audio

Editores de audio: Editores de audio profesionales que necesitan limpiar audio, eliminar ruido de fondo o realizar restauraciones de audio.
Creadores de medios creativos: Incluye productores musicales, editores de vídeo y creadores de contenidos para la creatividad sonora y la remezcla.
investigador: Investigadores que trabajan en los campos del análisis de audio, la ecología del sonido o la recuperación de información musical.
Desarrolladores de audífonos: Colaborar con los fabricantes de audífonos para desarrollar una tecnología de asistencia auditiva más eficaz para los discapacitados auditivos.
usuario habitual: Usuarios que desean mejorar la calidad de su contenido de audio personal o que necesitan un procesamiento de audio sencillo en su vida cotidiana.