ImBD: detección de contenidos generados por IA, que detecta si el contenido está generado por IA o no.

Últimos recursos sobre IAActualizado hace 1 año Círculo de intercambio de inteligencia artificial

78.7K 00

Introducción general

ImBD (Imitate Before Detect) es un proyecto pionero de detección de texto generado por máquinas presentado en la AAAI 2025. Con el uso generalizado de grandes modelos lingüísticos (LLM) como ChatGPT, reconocer el contenido de texto generado por IA se ha convertido en un reto cada vez mayor, y el proyecto ImBD propone un novedoso enfoque "Imitar antes de detectar" que mejora la detección a través de una comprensión más profunda de las características estilísticas del texto de la máquina y su imitación. Este método es el primero en proponer la preferencia de estilo del texto de máquina alineado, y establece un marco integral de detección de texto, que puede identificar eficazmente el texto generado por máquina que ha sido modificado por seres humanos. El proyecto adopta la licencia Apache 2.0 de código abierto, y proporciona una implementación completa del código, modelos preentrenados y documentación detallada, lo que facilita a investigadores y desarrolladores la realización de nuevas investigaciones y el desarrollo de aplicaciones sobre esta base.

Dirección de demostración: https://ai-detector.fenz.ai/ai-detector

Lista de funciones

Admite la detección de alta precisión de texto generado por máquina
Proporcionar modelos preentrenados para su despliegue y uso directos
Implementación de un nuevo algoritmo de alineación de características de estilo textual
Incluye conjuntos de datos experimentales detallados y parámetros de evaluación
Proporcionar un código completo de formación e inferencia
Admite datos de entrenamiento personalizados para afinar el modelo
Incluye documentación detallada de la API y ejemplos de uso.
Proporciona herramientas de línea de comandos para pruebas y evaluaciones rápidas
Admite el procesamiento de texto por lotes
Incluye herramientas de visualización para mostrar los resultados de las pruebas

Utilizar la ayuda

1. Configuración medioambiental

Primero tienes que configurar tu entorno Python e instalar las dependencias necesarias:

git clone https://github.com/Jiaqi-Chen-00/ImBD
cd ImBD
pip install -r requirements.txt

2. Preparación de los datos

Antes de empezar a utilizar ImBD, es necesario preparar los datos de entrenamiento y de prueba. Los datos deben contener las dos categorías siguientes:

Texto original preparado manualmente
Texto generado o modificado automáticamente

Requisitos de formato de los datos:

Los archivos de texto deben estar codificados en UTF-8
Cada muestra ocupa una fila
Se propone dividir el conjunto de datos en conjunto de entrenamiento, conjunto de validación y conjunto de prueba en la proporción de 8:1:1

3. Formación de modelos

Ejecute el siguiente comando para iniciar el entrenamiento:

python train.py \
--train_data path/to/train.txt \
--val_data path/to/val.txt \
--model_output_dir path/to/save/model \
--batch_size 32 \
--learning_rate 2e-5 \
--num_epochs 5

4. Evaluación del modelo

Evaluar el rendimiento del modelo mediante conjuntos de pruebas:

python evaluate.py \
--model_path path/to/saved/model \
--test_data path/to/test.txt \
--output_file evaluation_results.txt

5. Detección de texto

Detección de textos individuales:

python detect.py \
--model_path path/to/saved/model \
--input_text "要检测的文本内容" \
--output_format json

Detección de texto por lotes:

python batch_detect.py \
--model_path path/to/saved/model \
--input_file input.txt \
--output_file results.json

6. Funciones avanzadas

6.1 Ajuste del modelo

El modelo puede ajustarse utilizando su propio conjunto de datos si necesita optimizarlo para un texto específico:

python finetune.py \
--pretrained_model_path path/to/pretrained/model \
--train_data path/to/domain/data \
--output_dir path/to/finetuned/model

6.2 Análisis de visualización

Analice los resultados de las pruebas con la herramienta de visualización integrada:

python visualize.py \
--results_file path/to/results.json \
--output_dir path/to/visualizations

6.3 Despliegue de servicios API

Despliegue el modelo como un servicio API REST:

python serve.py \
--model_path path/to/saved/model \
--host 0.0.0.0 \
--port 8000

7. Precauciones

Se recomiendan las GPU para el entrenamiento de modelos a fin de mejorar la eficiencia
La calidad de los datos de entrenamiento influye significativamente en el rendimiento del modelo
Actualizar periódicamente el modelo para adaptarlo a las nuevas características de los textos generados por la IA.
Atención al versionado de modelos al desplegar en entornos de producción
Se recomienda guardar los resultados de las pruebas para posteriores análisis y optimización del modelo.

8. Preguntas más frecuentes

P: ¿Qué idiomas admite el modelo?
R: En la actualidad, trabajamos principalmente con el inglés, pero otros idiomas deben entrenarse con los conjuntos de datos correspondientes.

P: ¿Cómo puedo mejorar la precisión de mis pruebas?
R: El rendimiento puede mejorarse añadiendo datos de entrenamiento, ajustando los parámetros del modelo y utilizando datos específicos del dominio.

P: ¿Cómo se puede optimizar la velocidad de detección?
R: La velocidad de detección puede mejorarse mediante el procesamiento por lotes, la cuantificación de modelos y el uso de la aceleración de la GPU.