Crawl4AI：LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラーツール

DeepSeekのラグ？このサイトは無料です！全血DeepSeek-R1スムーズでネットワーク対応！無制限の使用！

はじめに

Crawl4AIは、大規模言語モデル（LLM）と人工知能（AI）アプリケーションのために設計されたオープンソースの非同期ウェブクローラツールです。Crawl4AIは、ウェブクローリングとデータ抽出プロセスを簡素化し、効率的なウェブクローリングをサポートし、JSON、クリーンHTML、MarkdownなどのLLMに適した出力フォーマットを提供します。

公式ヘルプ・ドキュメント

オンライン体験

機能一覧

非同期アーキテクチャ：複数のウェブページの効率的な処理、高速なデータクローリング
複数の出力形式：JSON、HTML、Markdownをサポート
マルチURLクロール：複数のウェブページを同時にクロールします。
メディアタグ抽出：画像、音声、動画タグの抽出
リンク抽出：すべての外部リンクと内部リンクを抽出
メタデータ抽出：ページからのメタデータ抽出
カスタム・フック：認証、リクエスト・ヘッダ、ページ修正のサポート
ユーザーエージェントのカスタマイズ：ユーザーエージェントのカスタマイズ
ページスクリーンショット：クロールページのスクリーンショット
カスタムJavaScriptの実行：クロール前に複数のカスタムJavaScriptを実行する。
プロキシのサポート：プライバシーとアクセスの強化
セッション管理：複雑な複数ページのクローリングシナリオの処理

ヘルプの使用

設置プロセス

Crawl4AIは、様々な利用シーンに対応できる柔軟なインストールオプションを提供している。Pythonパッケージとしてインストールすることも、Dockerを使用することもできる。

pipによるインストール

基本インストール
```
pip install crawl4ai
```
Crawl4AIの非同期バージョンがデフォルトでインストールされ、Playwrightを使ってウェブクローリングが行われる。

Playwrightの手動インストール（必要な場合）

劇作家インストール

または

python -m playwright install chromium

Dockerを使ったインストール

Dockerイメージのプル
```
docker pull unclecode/crawl4ai
```
Dockerコンテナの実行
```
docker run -it unclecode/crawl4ai
```

使用ガイドライン

基本的な使い方

より クロール4アイ インポート 非同期ウェブクローラー

クローラー = AsyncWebCrawler()
results = crawler.crawl([)"https://example.com"])
プリント(結果)

カスタマイズされた設定

より クロール4アイ インポート 非同期ウェブクローラー

クローラー = AsyncWebCrawler(
    ユーザーエージェント「CustomUserAgent",
    headers={"認可": 「ベアラー トークン"},
    custom_js=["console.log('ハロー、ワールド！')"]
)
results = crawler.crawl(["https://example.com"])
プリント(結果)

特定のデータの抽出

より クロール4アイ インポート 非同期ウェブクローラー

クローラー = AsyncWebCrawler()
results = crawler.crawl([)"https://example.com"], extract_media=真extract_links=真)
プリント(結果)

セッション管理

より クロール4アイ インポート 非同期ウェブクローラー

クローラー = AsyncWebCrawler()
session = crawler.create_session()
session_results = session.crawl([)"https://example.com"])
プリント(セッション_結果)

Crawl4AIは、様々なウェブクローリングやデータクローリングのニーズに対応する豊富な機能と柔軟な設定オプションを提供しています。詳細なインストールガイドと使用ガイドにより、ユーザーは簡単に使い始めることができ、ツールの強力な機能をフルに活用することができます。

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ

Crawl4AI：LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラツール

はじめに

機能一覧

ヘルプの使用

設置プロセス

pipによるインストール

Dockerを使ったインストール

使用ガイドライン

おすすめ

AIツールが見つからない？こちらをお試しください！

FLUX.1イメージジェネレーター（中国語入力対応）

新着情報

人気記事

ホットタグ

チーフAIシェアリングサークル