ImBD：AIによって生成されたコンテンツの検出。

76.4K 00

はじめに

ImBD (Imitate Before Detect) は、AAAI 2025で発表された機械生成テキスト検出の先駆的プロジェクトです。ChatGPTのような大規模言語モデル(LLM)の普及に伴い、AIが生成したテキストコンテンツの認識はますます困難になってきており、ImBDプロジェクトは、機械テキストとその模倣の文体の特徴をより深く理解することで検出を改善する、新しい「Imitate Before Detect」アプローチを提案する。この方法は、整列された機械テキストの文体嗜好を初めて提案し、人間によって修正された機械生成テキストを効果的に識別できる包括的なテキスト検出フレームワークを確立します。このプロジェクトはApache 2.0のオープンソースライセンスを採用し、完全なコード実装、事前学習済みモデル、詳細なドキュメントを提供することで、研究者や開発者がこれに基づいてさらなる研究やアプリケーション開発を行うことを容易にしている。

デモアドレス：https://ai-detector.fenz.ai/ai-detector

機能一覧

機械生成テキストの高精度検出をサポート
訓練済みのモデルを提供し、直接配備して使用できるようにする。
新しいテキストスタイル特徴アライメントアルゴリズムの実装
詳細な実験データセットと評価ベンチマークを含む
完全なトレーニングと推論コードを提供する
モデルの微調整のためのカスタムトレーニングデータをサポート
詳細なAPIドキュメントと使用例が含まれています。
迅速なテストと評価のためのコマンドラインツールを提供
テキスト一括処理に対応
テスト結果を表示する視覚化ツールを含む

ヘルプの使用

1.環境構成

まずPythonの環境を設定し、必要な依存関係をインストールする必要がある：

git clone https://github.com/Jiaqi-Chen-00/ImBD
cd ImBD
pip install -r requirements.txt

2.データの準備

ImBDを使い始める前に、トレーニングデータとテストデータを準備する必要がある。データは以下の2つのカテゴリーを含む必要がある：

手作業で作成された原文
機械生成または機械修正されたテキスト

データフォーマットの要件：

テキストファイルはUTF-8でエンコードする必要があります。
各サンプルは1行を占める
データセットを訓練セット、検証セット、テストセットに8:1:1の割合で分割することが提案されている。

3.モデルトレーニング

以下のコマンドを実行してトレーニングを開始する：

python train.py \
--train_data path/to/train.txt \
--val_data path/to/val.txt \
--model_output_dir path/to/save/model \
--batch_size 32 \
--learning_rate 2e-5 \
--num_epochs 5

4.モデル評価

テストセットを使ってモデルの性能を評価する：

python evaluate.py \
--model_path path/to/saved/model \
--test_data path/to/test.txt \
--output_file evaluation_results.txt

5.テキスト検出

個々のテキストの検出：

python detect.py \
--model_path path/to/saved/model \
--input_text "要检测的文本内容" \
--output_format json

テキストの一括検出：

python batch_detect.py \
--model_path path/to/saved/model \
--input_file input.txt \
--output_file results.json

6.高度な機能

6.1 モデルの微調整

ドメイン固有のテキストに最適化する必要がある場合は、独自のデータセットを使ってモデルを微調整できる：

python finetune.py \
--pretrained_model_path path/to/pretrained/model \
--train_data path/to/domain/data \
--output_dir path/to/finetuned/model

6.2 視覚化分析

内蔵の可視化ツールを使って試験結果を分析：

python visualize.py \
--results_file path/to/results.json \
--output_dir path/to/visualizations

6.3 APIサービスの配置

モデルをREST APIサービスとしてデプロイする：

python serve.py \
--model_path path/to/saved/model \
--host 0.0.0.0 \
--port 8000

7.注意事項

GPUはモデルトレーニングの効率化のために推奨される
トレーニングデータの質はモデルの性能に大きな影響を与える
定期的にモデルを更新し、AIが生成した新しいテキストの特徴に対応する。
本番環境にデプロイする際のモデルのバージョン管理への注意
テスト結果は、その後の分析やモデルの最適化のために保存しておくことを推奨する。

8.よくある質問

Q: どの言語に対応していますか？
A: 現在、主に英語をサポートしています。他の言語は対応するデータセットでトレーニングする必要があります。

Q: 検査の精度を上げるにはどうしたらいいですか？
A: パフォーマンスは、トレーニングデータの追加、モデルパラメータの調整、ドメイン固有のデータを使用した微調整によって向上させることができます。

Q: 検出速度はどのように最適化できますか？
A: 検出速度は、バッチ処理、モデルの定量化、GPUアクセラレーションの使用によって向上させることができます。

Klic Studio - AI音声・動画翻訳・ダビングツール、全プロセスをワンクリックで展開

最新のAIリソース

9ヶ月前

041.7K

aiCarousels: 回転画像ジェネレーター, ソーシャルメディア回転画像作成ツール

最新のAIリソース # AIソーシャルメディア

1年前

053K

AIテストキッチン：グーグルのアイデア創出とAI技術の実験プラットフォーム

2年前

061.2K

星流：Star-3 Alpha图像生成模型，LiblibAI发布的新一代AI图像创作平台

Starflow：Star-3アルファ画像生成モデル、LiblibAIがリリースした次世代AI画像生成プラットフォーム

最新のAIリソース # AIオンライン画像生成

1年前

076.2K

コメントなし

コメントに参加するにはログインが必要です！

今すぐログイン

コメントはありません

ImBD：AIによって生成されたコンテンツの検出。

はじめに

機能一覧

ヘルプの使用

1.環境構成

2.データの準備

3.モデルトレーニング

4.モデル評価

5.テキスト検出

6.高度な機能

6.1 モデルの微調整

6.2 視覚化分析

6.3 APIサービスの配置

7.注意事項

8.よくある質問

Trellis: 構造化されていないドキュメントを構造化されたEXCEL形式のデータ、PDFに高速変換（有料）

STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

関連記事

Klic Studio - AI音声・動画翻訳・ダビングツール、全プロセスをワンクリックで展開

aiCarousels: 回転画像ジェネレーター, ソーシャルメディア回転画像作成ツール

AIテストキッチン：グーグルのアイデア創出とAI技術の実験プラットフォーム

Starflow：Star-3アルファ画像生成モデル、LiblibAIがリリースした次世代AI画像生成プラットフォーム

コメントなし

最新コレクション

最新記事

ImBD：AIによって生成されたコンテンツの検出。

はじめに

機能一覧

ヘルプの使用

1.環境構成

2.データの準備

3.モデルトレーニング

4.モデル評価

5.テキスト検出

6.高度な機能

6.1 モデルの微調整

6.2 視覚化分析

6.3 APIサービスの配置

7.注意事項

8.よくある質問

Trellis: 構造化されていないドキュメントを構造化されたEXCEL形式のデータ、PDFに高速変換（有料）

STAR：映像解像度の鮮明度を向上させる空間タイミング拡張AIモデル

関連記事

Klic Studio - AI音声・動画翻訳・ダビングツール、全プロセスをワンクリックで展開

aiCarousels: 回転画像ジェネレーター, ソーシャルメディア回転画像作成ツール

AIテストキッチン：グーグルのアイデア創出とAI技術の実験プラットフォーム

Starflow：Star-3アルファ画像生成モデル、LiblibAIがリリースした次世代AI画像生成プラットフォーム

コメントなし

厳選されたAIツール

最新コレクション

最新記事