pure.md : insérer "pure.md/" devant l'URL pour extraire le texte propre.
Introduction générale
pure.md est un outil conçu pour les agents d'intelligence artificielle et les développeurs qui se concentre sur la conversion rapide de contenus ou de fichiers web au format Markdown. Il contourne les restrictions anti-crawler par le biais de services proxy, extrait les données essentielles d'une page web et produit un fichier Markdown propre. Qu'il s'agisse d'une page web dynamique, d'un fichier PDF ou d'un contenu de média social, pure.md peut le traiter efficacement. L'outil est alimenté par Cloudflare et AWS et fournit une interface API REST. Sa meilleure caractéristique est qu'il est simple à utiliser, peut réduire considérablement le temps d'extraction et d'organisation du contenu, particulièrement adapté au besoin de données en temps réel ou de scénarios de sortie structurés.

Liste des fonctions
- Quick to Markdown : Extraire le contenu d'une page web ou d'un document dans un format Markdown propre.
- Contournement de la détection anti-crawler : simulation du comportement d'un utilisateur réel et filature des adresses IP pour accéder à des sites web restreints.
- Rendu JavaScript : analyse complète du contenu dynamique pour les applications à page unique (SPA).
- Conversion de PDF et de fichiers : prise en charge des fichiers PDF, Excel et autres en Markdown.
- Recherche dans les moteurs de recherche : recherche dans les résultats de recherche et intégration dans le format Markdown.
- Extraction de données : Extraction de JSON ou de digest via une requête POST, prise en charge des commandes en langage naturel.
- Prise en charge des médias sociaux : extraction de données à partir de plateformes telles que LinkedIn, Twitter, etc.
Utiliser l'aide
pure.md ne nécessite pas d'installation compliquée et peut être utilisé directement via le web ou l'API. Vous trouverez ci-dessous des instructions détaillées étape par étape et des descriptions de fonctionnalités pour vous permettre de démarrer rapidement.
Utilisation de base
- Visiter le site officiel
Tapez dans votre navigateurhttps://pure.md/
La page principale du site sera affichée sur la page principale. Il n'est pas nécessaire de télécharger le logiciel, l'opération se fait directement en ligne. - Saisir le lien cible
Faire précéder le lien dehttps://pure.md/
Par exemple, il s'agirait dehttps://example.com
se transformer enhttps://pure.md/https://example.com
. - Obtenir la démarque
Après soumission, pure.md renvoie le contenu extrait, qui est édité au format Markdown par défaut. Vous pouvez copier le résultat ou télécharger le fichier.
Fonctions vedettes Procédure d'utilisation
1. conversion rapide en Markdown
- procédure: :
- Saisissez la page web cible, par exemple
https://pure.md/https://wikipedia.org
. - Lorsque vous cliquez sur soumettre, pure.md supprime les publicités et les éléments superflus et génère un fichier Markdown contenant le titre, le corps du texte et les métadonnées.
- Saisissez la page web cible, par exemple
- effet: :
Le résultat n'est que de 28K caractères, ce qui est plus concis que des outils similaires (par exemple, r.jina.ai 143K) et convient au traitement de l'IA. Référence :Reader API : outil d'extraction de contenu web, conversion de HTML en Markdown
2) Contournement de la détection anti-crawler
- procédure: :
- Saisissez un lien vers une page web à accès restreint, telle que
https://pure.md/https://science.org/article
. - pure.md utilise des agents de centres de données, des agents résidentiels ou des données historiques (Common Crawl, Wayback Machine) pour obtenir du contenu.
- Si vous devez vous connecter, ajoutez un cookie à l'en-tête de la requête (voir
https://pure.md/docs
).
- Saisissez un lien vers une page web à accès restreint, telle que
- effet: :
Extrait avec succès le contenu et le convertit en Markdown, en contournant les restrictions telles que "Verify you're human".
3. support de rendu JavaScript
- procédure: :
- Saisir un lien vers une page web dynamique, par exemple
https://pure.md/https://react-app.com
. - pure.md effectue le rendu DOM en arrière-plan pour générer le contenu complet.
- Le résultat est renvoyé en Markdown.
- Saisir un lien vers une page web dynamique, par exemple
- effet: :
Les données dynamiques (telles que les commentaires ou les formulaires) des applications à page unique sont extraites dans leur intégralité, ce qui évite d'obtenir du HTML vide.
4. conversion de PDF et de documents
- procédure: :
- Saisissez le lien PDF, par exemple
https://pure.md/https://example.com/file.pdf
. - Après soumission, pure.md analyse le fichier et le convertit en Markdown.
- Pour les fichiers Excel, le format Markdown vers tableau est également pris en charge.
- Saisissez le lien PDF, par exemple
- effet: :
Le contenu du document est organisé en Markdown clair avec des titres et des paragraphes hiérarchisés.
5. l'exploration des moteurs de recherche
- procédure: :
- Saisissez un lien vers le terme recherché, par exemple
https://pure.md/https://google.com/search?q=AI
. - pure.md explore les résultats de recherche et les consolide en chaînes de Markdown.
- Saisissez un lien vers le terme recherché, par exemple
- effet: :
Les derniers événements ou connaissances sont rapidement rassemblés et permettent de mettre à jour les données de l'IA en temps réel.
6. extraction des données (requête POST)
- procédure: :
- Utiliser une requête POST pour l'accès, par exemple
POST https://pure.md/https://reuters.com
Exemple de corps de requête :
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- Renvoie des résultats JSON ou Markdown.
- Utiliser une requête POST pour l'accès, par exemple
- effet: :
L'extraction de données structurées sur la base d'instructions en langage naturel est adaptée aux tâches complexes.
7. soutien aux médias sociaux (en cours de développement)
- procédure: :
- Saisissez un lien LinkedIn ou Twitter, tel que
https://pure.md/https://twitter.com/user/tweet
. - pure.md extrait du contenu par l'intermédiaire d'un fournisseur de données.
- Saisissez un lien LinkedIn ou Twitter, tel que
- effet: :
Sortie de Markdown pour les messages ou les profils, avec prise en charge d'autres plates-formes à l'avenir.
Tarification et comptes
- inscription: Accès
https://pure.md/login
Obtenez gratuitement le crédit $1. - fixer un prix: :
- Démarrage : 60 requêtes par minute, $0.001/extraction, $0.005/recherche.
- Croissance : $19/mois, 600 requêtes/minute avec $20 de crédit gratuit.
- Entreprises : $99/mois, 3000 requêtes/minute avec $100 de crédit gratuit.
- payer (argent)Les frais d'inscription sont payés par l'intermédiaire de Stripe, avec possibilité d'annulation à tout moment.
mise en garde
- La version gratuite comporte des limitations strictes et il est recommandé de souscrire un abonnement pour bénéficier de toutes les fonctionnalités.
- Le traitement des pages ou des fichiers volumineux prend un peu plus de temps, généralement de 5 à 30 secondes.
- Les fonctionnalités relatives aux médias sociaux ne sont pas encore totalement opérationnelles, restez à l'écoute.
Grâce à ces étapes, vous pouvez facilement extraire du contenu et le convertir en Markdown à l'aide de pure.md, ce qui est simple et efficace.
scénario d'application
- Acquisition de données AI
Les développeurs d'IA ont besoin de données web pour former des modèles. pure.md extrait et convertit rapidement en Markdown, réduisant ainsi le prétraitement. - Recherche et étude
Les étudiants convertissent des PDF ou des pages web en Markdown pour faciliter l'organisation de notes ou la citation d'informations. - suivi de l'actualité
Enterprise explore les nouvelles en direct. pure.md explore les résultats de recherche et produit du Markdown pour maintenir les informations à jour.
QA
- Vous avez besoin d'une carte de crédit pour vous inscrire ?
Pas besoin, inscrivez-vous et obtenez $1 de crédit gratuit. - Quels sont les types de fichiers pris en charge ?
Il prend actuellement en charge les formats HTML, PDF et Excel, et les images peuvent être converties en descriptions par l'intermédiaire de l'IA. - Puis-je accéder au contenu de la session ?
Oui, mais vous devez fournir un cookie, voir la documentation.
© déclaration de droits d'auteur
Article copyright Cercle de partage de l'IA Tous, prière de ne pas reproduire sans autorisation.
Articles connexes
Pas de commentaires...