Генератор llms.txt: быстрый захват содержимого веб-сайта и создание наборов учебных текстовых данных LLM.

Общее введение

llmstxt-generator - это профессиональный инструмент для извлечения и интеграции веб-контента, специализирующийся на подготовке высококачественных текстовых наборов данных для обучения и вывода больших языковых моделей (LLM). Разработанный компанией Mendable AI, инструмент использует технологию веб-краулинга, предоставленную @firecrawl_dev, и GPT-4-mini для обработки текста. Он автоматически просматривает содержимое заданного веб-сайта и объединяет его в стандартизированный текстовый файл. Инструмент предоставляет удобный веб-интерфейс и интерфейс API, позволяя пользователям легко генерировать обучающие наборы данных, особенно подходящие для исследователей и разработчиков ИИ, которым необходимо получить текстовые данные с веб-сайтов в большом количестве.

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

 

Список функций

  • Автоматическое сканирование всех релевантных страниц целевого веб-сайта
  • Предоставляет два формата вывода текста: стандартный (llms.txt) и полный (llms-full.txt).
  • Поддерживает интуитивное управление через веб-интерфейс
  • Обеспечьте RESTful API-интерфейс для программных вызовов
  • Поддержка специальной обработки содержимого репозитория GitHub
  • Возможность интеллектуального извлечения и обработки веб-контента
  • Поддержка пользовательских API-ключей Firecrawl для увеличения лимитов охвата
  • Включает механизм веб-кэширования для повышения эффективности сбора данных
  • Поддержка преобразования различных форматов контента (например, Markdown)

 

Использование помощи

1. Использование веб-интерфейса

  1. Посетите официальный сайт: https://llmstxt.firecrawl.dev.
  2. Введите URL-адрес целевого веб-сайта в поле ввода
  3. Нажмите на кнопку "Generate", чтобы начать генерировать текст.
  4. Дождитесь завершения обработки, чтобы получить сгенерированный текстовый файл

2. использование API

Основные вызовы API:

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
  • Получите стандартную версию текста: перейдите по указанному выше URL-адресу.
  • Чтобы получить полную версию текста, добавьте "/full" в конец URL-адреса.

Используйте пользовательский ключ API:

Если вам нужен более высокий предел ползания, вы можете использовать свой собственный, используя Ключ API Firecrawl::

GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY

3. Руководство по локальному развертыванию

Если вам нужно запустить его в локальной среде, выполните следующие действия:

  1. Конфигурация среды:
    создать .env файл и настройте следующие необходимые параметры:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
  1. Установка и эксплуатация:
npm install
npm run dev

4. Меры предосторожности при использовании

  • Время обработки: может занять несколько минут из-за необходимости выполнения операций по просмотру сайта и обработке LLM.
  • Ограничение бесплатной версии: до 10 страниц на сайт без пользовательского ключа API
  • Расширенная версия: ограничение до 100 страниц с помощью пользовательского ключа API Firecrawl
  • Механизм кэширования: система будет кэшировать результаты, повторные запросы к одному и тому же URL в течение 3 дней будут возвращаться непосредственно в кэш.
  • Поддержка репозиториев GitHub: URL-адреса репозиториев GitHub обрабатываются специальным образом для извлечения связанного с репозиторием содержимого.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...