Генератор llms.txt: быстрый захват содержимого веб-сайта и создание наборов учебных текстовых данных LLM.
Общее введение
llmstxt-generator - это профессиональный инструмент для извлечения и интеграции веб-контента, специализирующийся на подготовке высококачественных текстовых наборов данных для обучения и вывода больших языковых моделей (LLM). Разработанный компанией Mendable AI, инструмент использует технологию веб-краулинга, предоставленную @firecrawl_dev, и GPT-4-mini для обработки текста. Он автоматически просматривает содержимое заданного веб-сайта и объединяет его в стандартизированный текстовый файл. Инструмент предоставляет удобный веб-интерфейс и интерфейс API, позволяя пользователям легко генерировать обучающие наборы данных, особенно подходящие для исследователей и разработчиков ИИ, которым необходимо получить текстовые данные с веб-сайтов в большом количестве.

Список функций
- Автоматическое сканирование всех релевантных страниц целевого веб-сайта
- Предоставляет два формата вывода текста: стандартный (llms.txt) и полный (llms-full.txt).
- Поддерживает интуитивное управление через веб-интерфейс
- Обеспечьте RESTful API-интерфейс для программных вызовов
- Поддержка специальной обработки содержимого репозитория GitHub
- Возможность интеллектуального извлечения и обработки веб-контента
- Поддержка пользовательских API-ключей Firecrawl для увеличения лимитов охвата
- Включает механизм веб-кэширования для повышения эффективности сбора данных
- Поддержка преобразования различных форматов контента (например, Markdown)
Использование помощи
1. Использование веб-интерфейса
- Посетите официальный сайт: https://llmstxt.firecrawl.dev.
- Введите URL-адрес целевого веб-сайта в поле ввода
- Нажмите на кнопку "Generate", чтобы начать генерировать текст.
- Дождитесь завершения обработки, чтобы получить сгенерированный текстовый файл
2. использование API
Основные вызовы API:
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]
- Получите стандартную версию текста: перейдите по указанному выше URL-адресу.
- Чтобы получить полную версию текста, добавьте "/full" в конец URL-адреса.
Используйте пользовательский ключ API:
Если вам нужен более высокий предел ползания, вы можете использовать свой собственный, используя Ключ API Firecrawl::
GET https://llmstxt.firecrawl.dev/[YOUR_URL_HERE]?FIRECRAWL_API_KEY=YOUR_API_KEY
3. Руководство по локальному развертыванию
Если вам нужно запустить его в локальной среде, выполните следующие действия:
- Конфигурация среды:
создать.env
файл и настройте следующие необходимые параметры:
FIRECRAWL_API_KEY=你的key
SUPABASE_URL=你的supabase URL
SUPABASE_KEY=你的supabase key
OPENAI_API_KEY=你的OpenAI key
- Установка и эксплуатация:
npm install
npm run dev
4. Меры предосторожности при использовании
- Время обработки: может занять несколько минут из-за необходимости выполнения операций по просмотру сайта и обработке LLM.
- Ограничение бесплатной версии: до 10 страниц на сайт без пользовательского ключа API
- Расширенная версия: ограничение до 100 страниц с помощью пользовательского ключа API Firecrawl
- Механизм кэширования: система будет кэшировать результаты, повторные запросы к одному и тому же URL в течение 3 дней будут возвращаться непосредственно в кэш.
- Поддержка репозиториев GitHub: URL-адреса репозиториев GitHub обрабатываются специальным образом для извлечения связанного с репозиторием содержимого.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...