Audio-Reasoner: un modelo lingüístico a gran escala para el razonamiento profundo de audio

Últimos recursos sobre IAPublicado hace 10 meses Círculo de intercambio de inteligencia artificial

35.1K 00

Introducción general

Audio-Reasoner es un proyecto de código abierto desarrollado por un equipo de la Universidad de Tsinghua y alojado en GitHub, centrado en la construcción de modelos lingüísticos a gran escala que soporten el razonamiento profundo en audio. El modelo se basa en Qwen2-Audio-Instruct, que permite el razonamiento complejo y la comprensión multimodal del contenido de audio mediante la introducción de la tecnología estructurada Chain-of-Thought (CoT). El proyecto incluye el modelo Audio-Reasoner-7B y el próximo conjunto de datos CoTA (con 1,2 millones de muestras de alta calidad), que ha logrado una mejora de rendimiento líder de 25,42% y 14,57% en las pruebas comparativas MMAU-mini y AIR-Bench-Chat, respectivamente.Audio-Reasoner Audio-Reasoner es una herramienta ideal para investigadores y desarrolladores, ya que admite el procesamiento de sonido, música, voz y otros tipos de audio, y es adecuada para escenarios de análisis de audio y comprensión de contenidos.

Lista de funciones

Razonamiento profundo de audio: Analizar audio y generar procesos de razonamiento y resultados detallados utilizando el pensamiento en cadena estructurado.
Apoyo multimodal a las tareasCombinación de audio y texto para tareas de comprensión y razonamiento multimodal.
Procesamiento múltiple de audio: Admite el reconocimiento y análisis de múltiples tipos de audio, como voz, música, habla, etc.
Modelos preentrenados de alto rendimiento: Proporciona el modelo Audio-Reasoner-7B, que destaca en varias pruebas de referencia.
Conjunto de datos CoTAContiene 1,2 millones de muestras que permiten entrenar la inferencia estructurada y mejorar la capacidad de los modelos.
Código de razonamiento y demostración: Proporciona código de inferencia completo y ejemplos de demostración para pruebas y desarrollo por parte del usuario.
programa de código abiertoEn el futuro, el proceso de síntesis de datos y el código de entrenamiento se abrirán para facilitar la colaboración de la comunidad.

Utilizar la ayuda

Proceso de instalación

La instalación de Audio-Reasoner requiere la configuración del entorno Python y la descarga de los pesos del modelo, a continuación se detallan los pasos para garantizar que los usuarios puedan completar con éxito la compilación:

1. Clonación de un repositorio GitHub

Comienza clonando el proyecto Audio-Reasoner localmente. Abre un terminal y ejecuta el siguiente comando:

git clone https://github.com/xzf-thu/Audio-Reasoner.git
cd Audio-Reasoner

Esto descargará los archivos del proyecto localmente y en el directorio del proyecto.

2. Crear y activar un entorno virtual

Para evitar conflictos de dependencias, se recomienda crear un entorno Python separado utilizando Conda:

conda create -n Audio-Reasoner python=3.10
conda activate Audio-Reasoner

Este comando crea y activa un entorno basado en Python 3.10 llamado "Audio-Reasoner".

3. Instalación de paquetes de dependencia

El proyecto prevé requirements.txt que contiene las dependencias necesarias. Los pasos de instalación son los siguientes:

pip install -r requirements.txt
pip install transformers==4.48.0

Atención:transformers Es necesario instalar la versión 4.48.0 para garantizar un rendimiento estable del modelo. Instale primero las demás dependencias y, a continuación, especifique la opción transformers para evitar conflictos.

4. Descarga de las ponderaciones de los modelos

El modelo Audio-Reasoner-7B se ha publicado en HuggingFace y debe descargarse y configurarse manualmente:

entrevistas HuggingFace Audio-Reasoner-7BDescargue el archivo del modelo.
Rellene la ruta de punto de control descargada en el código del archivo last_model_checkpoint variables, por ejemplo:

last_model_checkpoint = "/path/to/Audio-Reasoner-7B"

Cómo utilizarlo

Tras la instalación, los usuarios pueden ejecutar Audio-Reasoner mediante código para gestionar las tareas de audio. A continuación se muestra la guía de funcionamiento detallada:

Inicio rápido: Ejecute el código de ejemplo

El proyecto proporciona un ejemplo de inicio rápido para ayudar a los usuarios a probar la funcionalidad del modelo:

Preparación de archivos de audio
Por defecto, utiliza el propio proyecto assets/test.wav o puedes sustituirlo por tu propio audio con formato WAV. Asegúrese de que la ruta es correcta.
Rutas de audio y problemas al editar el código
espectáculo (una entrada) inference.py O simplemente utilice el siguiente código para establecer la ruta de audio y hacer preguntas:
```
audiopath = "assets/test.wav"
prompt = "这段音频的节奏感和拍子是怎样的？"
audioreasoner_gen(audiopath, prompt)
```
programa de carrera
Ejecútelo en el terminal:
```
conda activate Audio-Reasoner
cd Audio-Reasoner
python inference.py
```
El modelo producirá resultados de inferencia estructurados, incluyendo <THINK>(planificar, describir, razonar, resumir) y <RESPONSE>(Respuesta final).

Funciones básicas: razonamiento profundo de audio

En el corazón de Audio-Reasoner está el razonamiento de audio basado en el pensamiento en cadena, y así es como funciona:

Audio de entrada y problemas
- utilizar audioreasoner_gen introduciendo la ruta de audio y una pregunta concreta. Ejemplo:
```
audiopath = "your_audio.wav"
prompt = "音频中是否有鸟叫声？"
audioreasoner_gen(audiopath, prompt)
```

Ver el resultado de la inferencia
El modelo devuelve procesos de razonamiento detallados, por ejemplo:

<THINK>
<PLANNING>: 检查音频中的声音特征，识别是否有鸟叫声。
<CAPTION>: 音频包含自然环境音，可能有风声和动物叫声。
<REASONING>: 分析高频声音特征，与鸟类叫声模式匹配。
<SUMMARY>: 音频中可能存在鸟叫声。
</THINK>
<RESPONSE>: 是的，音频中有鸟叫声。

Ajuste de los parámetros de salida (opcional)
Si se necesita una respuesta más larga o flexible, puede modificarse RequestConfig Parámetros:
```
request_config = RequestConfig(max_tokens=4096, temperature=0.5, stream=True)
```

Pruebas locales de muestras preestablecidas

El proyecto incorpora audio de prueba y preguntas para una verificación rápida:

conda activate Audio-Reasoner
cd Audio-Reasoner
python inference.py

Tras la ejecución, el terminal muestra una descripción del assets/test.wav Los resultados de los análisis son adecuados para la primera experiencia.

Función: comprensión multimodal

Audio-Reasoner permite el análisis conjunto de audio y texto. Por ejemplo:

prompt = "这段音乐的情绪是否与‘悲伤’描述相符？"
audioreasoner_gen("sad_music.wav", prompt)

El modelo combinará las características del audio y la semántica del texto para producir resultados de inferencia.

Precauciones y preguntas frecuentes

formato de audioFormato WAV recomendado, frecuencia de muestreo 16 kHz, mono.
lentoSi va lento, compruebe que la GPU está activada (requiere PyTorch para CUDA).
El modelo no respondeVerifica que la ruta del modelo es correcta y que las dependencias están completamente instaladas.
Conflicto de dependenciaSi la instalación falla, intente crear un nuevo entorno e instalar las dependencias en orden estricto.

Uso avanzado

Lógica de razonamiento personalizada:: Modificación system Palabras clave para ajustar el estilo de razonamiento del modelo.
archivo por lotes:: Will max_batch_size Establezca un valor más alto (por ejemplo, 128) para admitir la inferencia simultánea de varios audios.
Combinado con el conjunto de datos CoTAEl futuro conjunto de datos del CoTA podrá utilizarse para seguir entrenando o afinando el modelo cuando se publiquen.