ImBD : détection de contenu généré par l'IA, permettant de déterminer si le contenu est généré par l'IA ou non.

Dernières ressources sur l'IAMise à jour il y a 8 mois Cercle de partage de l'IA

Introduction générale

ImBD (Imitate Before Detect) est un projet pionnier de détection de textes générés par des machines, présenté à AAAI 2025. Avec l'utilisation généralisée de grands modèles de langage (LLM) tels que ChatGPT, la reconnaissance du contenu textuel généré par l'IA est devenue de plus en plus difficile. Le projet ImBD propose une nouvelle approche "Imitate Before Detect" qui améliore la détection grâce à une meilleure compréhension des caractéristiques stylistiques du texte machine et de son imitation. Cette méthode est la première à proposer la préférence stylistique d'un texte machine aligné, et établit un cadre complet de détection de texte, qui peut identifier efficacement un texte généré par une machine qui a été modifié par des êtres humains. Le projet adopte la licence open source Apache 2.0 et fournit une implémentation complète du code, des modèles pré-entraînés et une documentation détaillée, ce qui permet aux chercheurs et aux développeurs de poursuivre la recherche et le développement d'applications sur cette base.

Adresse de démonstration : https://ai-detector.fenz.ai/ai-detector

Liste des fonctions

Permet de détecter avec une grande précision les textes générés par des machines.
Fournir des modèles pré-entraînés pour un déploiement et une utilisation directs
Mise en œuvre d'un nouvel algorithme d'alignement des caractéristiques de style textuel
Comprend des ensembles de données expérimentales détaillées et des critères d'évaluation.
Fournir un code de formation et d'inférence complet
Prise en charge des données d'entraînement personnalisées pour l'affinement du modèle
Comprend une documentation détaillée sur l'API et des exemples d'utilisation.
Fournit des outils en ligne de commande pour des tests et des évaluations rapides.
Prise en charge du traitement de texte par lots
Comprend des outils de visualisation pour afficher les résultats des tests

Utiliser l'aide

1. configuration de l'environnement

Vous devez d'abord configurer votre environnement Python et installer les dépendances nécessaires :

git clone https://github.com/Jiaqi-Chen-00/ImBD
cd ImBD
pip install -r requirements.txt

2. la préparation des données

Avant de commencer à utiliser ImBD, des données de formation et de test doivent être préparées. Les données doivent contenir les deux catégories suivantes :

Texte original préparé manuellement
Texte généré ou modifié par une machine

Exigences en matière de format de données :

Les fichiers texte doivent être encodés en UTF-8
Chaque échantillon occupe une ligne
Il est proposé de diviser l'ensemble de données en un ensemble de formation, un ensemble de validation et un ensemble de test dans un rapport de 8:1:1.

3. formation au modèle

Exécutez la commande suivante pour démarrer la formation :

python train.py \
--train_data path/to/train.txt \
--val_data path/to/val.txt \
--model_output_dir path/to/save/model \
--batch_size 32 \
--learning_rate 2e-5 \
--num_epochs 5

4. évaluation du modèle

Évaluer les performances du modèle à l'aide de jeux d'essai :

python evaluate.py \
--model_path path/to/saved/model \
--test_data path/to/test.txt \
--output_file evaluation_results.txt

5. détection de texte

Détection de textes individuels :

python detect.py \
--model_path path/to/saved/model \
--input_text "要检测的文本内容" \
--output_format json

Détection de texte par lots :

python batch_detect.py \
--model_path path/to/saved/model \
--input_file input.txt \
--output_file results.json

6. fonctions avancées

6.1 Mise au point du modèle

Le modèle peut être affiné à l'aide de votre propre ensemble de données si vous devez l'optimiser pour un texte spécifique à un domaine :

python finetune.py \
--pretrained_model_path path/to/pretrained/model \
--train_data path/to/domain/data \
--output_dir path/to/finetuned/model

6.2 Analyse de la visualisation

Analyser les résultats des tests à l'aide de l'outil de visualisation intégré :

python visualize.py \
--results_file path/to/results.json \
--output_dir path/to/visualizations

6.3 Déploiement des services API

Déployer le modèle en tant que service API REST :

python serve.py \
--model_path path/to/saved/model \
--host 0.0.0.0 \
--port 8000

7. mises en garde

Les GPU sont recommandés pour l'apprentissage des modèles afin d'améliorer l'efficacité.
La qualité des données d'entraînement a un impact significatif sur la performance des modèles
Mettre régulièrement à jour le modèle pour prendre en compte les nouvelles caractéristiques des textes générés par l'IA.
Attention à la version du modèle lors du déploiement dans des environnements de production
Il est recommandé de sauvegarder les résultats des tests pour une analyse ultérieure et l'optimisation du modèle.

8. questions fréquemment posées

Q : Quelles sont les langues prises en charge par le modèle ?
R : Actuellement, nous prenons principalement en charge l'anglais. Les autres langues doivent être formées à l'aide des ensembles de données correspondants.

Q : Comment puis-je améliorer la précision de mes tests ?
R : Les performances peuvent être améliorées en ajoutant des données d'entraînement, en ajustant les paramètres du modèle et en affinant les réglages à l'aide de données spécifiques au domaine.

Q : Comment optimiser la vitesse de détection ?
R : La vitesse de détection peut être améliorée par le traitement par lots, la quantification des modèles et l'utilisation de l'accélération GPU.