AIパーソナル・ラーニング
と実践的なガイダンス

Crawl4AI:LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラツール

はじめに

Crawl4AIは、大規模言語モデル(LLM)と人工知能(AI)アプリケーションのために設計されたオープンソースの非同期ウェブクローラツールです。Crawl4AIは、ウェブクローリングとデータ抽出プロセスを簡素化し、効率的なウェブクローリングをサポートし、JSON、クリーンHTML、MarkdownなどのLLMに適した出力フォーマットを提供します。

公式ヘルプ・ドキュメント


オンライン体験

イメージ

 

機能一覧

  • 非同期アーキテクチャ:複数のウェブページの効率的な処理、高速なデータクローリング
  • 複数の出力形式:JSON、HTML、Markdownをサポート
  • マルチURLクロール:複数のウェブページを同時にクロールします。
  • メディアタグ抽出:画像、音声、動画タグの抽出
  • リンク抽出: すべての外部リンクと内部リンクを抽出
  • メタデータ抽出:ページからのメタデータ抽出
  • カスタム・フック:認証、リクエスト・ヘッダ、ページ修正のサポート
  • ユーザーエージェントのカスタマイズ:ユーザーエージェントのカスタマイズ
  • ページスクリーンショット:クロールページのスクリーンショット
  • カスタムJavaScriptの実行:クロール前に複数のカスタムJavaScriptを実行する。
  • プロキシのサポート:プライバシーとアクセスの強化
  • セッション管理:複雑な複数ページのクローリングシナリオの処理

 

ヘルプの使用

設置プロセス

Crawl4AIは、様々な利用シーンに対応できる柔軟なインストールオプションを提供している。Pythonパッケージとしてインストールすることも、Dockerを使用することもできる。

pipによるインストール

  1. 基本インストール
    pip install crawl4ai
    

    Crawl4AIの非同期バージョンがデフォルトでインストールされ、Playwrightを使ってウェブクローリングが行われる。

  2. Playwrightの手動インストール(必要な場合)
    劇作家インストール
    

    または

    python -m playwright install chromium
    

Dockerを使ったインストール

  1. Dockerイメージのプル
    docker pull unclecode/crawl4ai
    
  2. Dockerコンテナの実行
    docker run -it unclecode/crawl4ai
    

使用ガイドライン

  1. 基本的な使い方
    より クロール4アイ インポート 非同期ウェブクローラー
    
    クローラー = AsyncWebCrawler()
    results = crawler.crawl([)"https://example.com"])
    プリント(結果)
    
  2. カスタマイズされた設定
    より クロール4アイ インポート 非同期ウェブクローラー
    
    クローラー = AsyncWebCrawler(
        ユーザーエージェント「CustomUserAgent",
        headers={"認可": 「ベアラー トークン"},
        custom_js=["console.log('ハロー、ワールド!')"]
    )
    results = crawler.crawl(["https://example.com"])
    プリント(結果)
    
  3. 特定のデータの抽出
    より クロール4アイ インポート 非同期ウェブクローラー
    
    クローラー = AsyncWebCrawler()
    results = crawler.crawl([)"https://example.com"], extract_media=extract_links=)
    プリント(結果)
    
  4. セッション管理
    より クロール4アイ インポート 非同期ウェブクローラー
    
    クローラー = AsyncWebCrawler()
    session = crawler.create_session()
    session_results = session.crawl([)"https://example.com"])
    プリント(セッション_結果)
    

Crawl4AIは、様々なウェブクローリングやデータクローリングのニーズに対応する豊富な機能と柔軟な設定オプションを提供しています。詳細なインストールガイドと使用ガイドにより、ユーザーは簡単に使い始めることができ、ツールの強力な機能をフルに活用することができます。

AIイージー・ラーニング

AIを始めるための素人ガイド

AIツールの活用方法を、低コスト・ゼロベースから学ぶことができます。AIはオフィスソフトと同様、誰にとっても必須のスキルです。 AIをマスターすれば、就職活動で有利になり、今後の仕事や勉強の労力も半減します。

詳細を見る
無断転載を禁じます:チーフAIシェアリングサークル " Crawl4AI:LLMなしで構造化データを抽出するオープンソースの非同期ウェブクローラツール

チーフAIシェアリングサークル

チーフAIシェアリングサークルは、AI学習に焦点を当て、包括的なAI学習コンテンツ、AIツール、実践指導を提供しています。私たちの目標は、高品質のコンテンツと実践的な経験の共有を通じて、ユーザーがAI技術を習得し、AIの無限の可能性を一緒に探求することです。AI初心者でも上級者でも、知識を得てスキルを向上させ、イノベーションを実現するための理想的な場所です。

お問い合わせ
ja日本語