ImBD: AI 생성 콘텐츠 감지, 콘텐츠가 AI에 의해 생성되었는지 여부를 감지합니다.

최신 AI 리소스8개월 전 업데이트 AI 공유 서클
11.7K 00

일반 소개

ImBD(Imitate Before Detect)는 AAAI 2025에서 발표된 선구적인 기계 생성 텍스트 감지 프로젝트입니다. ChatGPT와 같은 대규모 언어 모델(LLM)이 널리 사용됨에 따라 AI가 생성한 텍스트 콘텐츠를 인식하는 것이 점점 더 어려워지고 있으며, ImBD 프로젝트는 기계 텍스트의 문체 특징과 모방에 대한 심층적인 이해를 통해 감지를 개선하는 새로운 "감지 전 모방" 접근 방식을 제안합니다. 이 방법은 정렬된 기계 텍스트의 스타일 선호도를 최초로 제안한 것으로, 사람이 수정한 기계 생성 텍스트를 효과적으로 식별할 수 있는 포괄적인 텍스트 감지 프레임워크를 구축합니다. 이 프로젝트는 Apache 2.0 오픈 소스 라이선스를 채택하여 완전한 코드 구현, 사전 학습된 모델 및 상세한 문서를 제공함으로써 연구자와 개발자가 이 기반을 바탕으로 추가 연구 및 애플리케이션 개발을 용이하게 할 수 있도록 합니다.

ImBD:AI生成内容检测,检测内容是否由人工智能生成

데모 주소: https://ai-detector.fenz.ai/ai-detector

 

기능 목록

  • 기계 생성 텍스트의 고정밀 감지 지원
  • 직접 배포 및 사용을 위해 사전 교육된 모델 제공
  • 새로운 텍스트 스타일 기능 정렬 알고리즘 구현
  • 자세한 실험 데이터 세트 및 평가 벤치마크 포함
  • 완전한 교육 및 추론 코드 제공
  • 모델 미세 조정을 위한 맞춤형 학습 데이터 지원
  • 자세한 API 문서와 사용 예제가 포함되어 있습니다.
  • 빠른 테스트 및 평가를 위한 명령줄 도구 제공
  • 일괄 텍스트 처리 지원
  • 테스트 결과를 표시하는 시각화 도구 포함

 

도움말 사용

1. 환경 설정

먼저 Python 환경을 구성하고 필요한 종속성을 설치해야 합니다:

git clone https://github.com/Jiaqi-Chen-00/ImBD
cd ImBD
pip install -r requirements.txt

2. 데이터 준비

ImBD 사용을 시작하기 전에 교육 및 테스트 데이터를 준비해야 합니다. 데이터에는 다음 두 가지 범주가 포함되어야 합니다:

  • 수동으로 작성한 원본 텍스트
  • 기계 생성 또는 기계 수정 텍스트

데이터 형식 요구 사항:

  • 텍스트 파일은 UTF-8로 인코딩해야 합니다.
  • 각 샘플은 한 행을 차지합니다.
  • 데이터셋을 8:1:1의 비율로 훈련셋, 검증셋, 테스트셋으로 나누는 것을 제안합니다.

3. 모델 교육

다음 명령을 실행하여 교육을 시작하세요:

python train.py \
--train_data path/to/train.txt \
--val_data path/to/val.txt \
--model_output_dir path/to/save/model \
--batch_size 32 \
--learning_rate 2e-5 \
--num_epochs 5

4. 모델 평가

테스트 세트를 사용하여 모델 성능을 평가합니다:

python evaluate.py \
--model_path path/to/saved/model \
--test_data path/to/test.txt \
--output_file evaluation_results.txt

5. 텍스트 감지

개별 텍스트 감지:

python detect.py \
--model_path path/to/saved/model \
--input_text "要检测的文本内容" \
--output_format json

텍스트 일괄 감지:

python batch_detect.py \
--model_path path/to/saved/model \
--input_file input.txt \
--output_file results.json

6. 고급 기능

6.1 모델 미세 조정

도메인별 텍스트에 맞게 최적화해야 하는 경우 자체 데이터 세트를 사용하여 모델을 미세 조정할 수 있습니다:

python finetune.py \
--pretrained_model_path path/to/pretrained/model \
--train_data path/to/domain/data \
--output_dir path/to/finetuned/model

6.2 시각화 분석

기본 제공 시각화 도구를 사용하여 테스트 결과를 분석하세요:

python visualize.py \
--results_file path/to/results.json \
--output_dir path/to/visualizations

6.3 API 서비스 배포

모델을 REST API 서비스로 배포합니다:

python serve.py \
--model_path path/to/saved/model \
--host 0.0.0.0 \
--port 8000

7. 주의 사항

  • 효율성을 높이기 위해 모델 트레이닝에 GPU를 권장합니다.
  • 학습 데이터 품질은 모델 성능에 큰 영향을 미칩니다.
  • 새로운 AI 생성 텍스트 기능을 수용하도록 모델을 정기적으로 업데이트합니다.
  • 프로덕션 환경에 배포할 때 모델 버전 관리에 주의하세요.
  • 테스트 결과는 후속 분석 및 모델 최적화를 위해 저장하는 것이 좋습니다.

자주 묻는 질문 8.

질문: 이 모델은 어떤 언어를 지원하나요?
A: 현재 영어를 주로 지원하며, 다른 언어는 해당 데이터 세트를 통해 학습해야 합니다.

질문: 테스트의 정확도를 높이려면 어떻게 해야 하나요?
A: 학습 데이터를 추가하고, 모델 파라미터를 조정하고, 도메인별 데이터를 사용하여 미세 조정함으로써 성능을 개선할 수 있습니다.

Q: 탐지 속도를 최적화하려면 어떻게 해야 하나요?
A: 일괄 처리, 모델 정량화, GPU 가속을 사용하면 감지 속도를 향상시킬 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...