Datalab : modèle d'IA dédié à la reconnaissance OCR, PDF to Markdown (open source/API)

Introduction générale

Datalab propose une gamme de modèles d'IA avancés axés sur l'OCR, l'analyse de la mise en page, la conversion de PDF en Markdown et bien plus encore. Ces modèles sont non seulement très performants, mais aussi faciles à utiliser et open source. Le modèle Marker de la plateforme peut convertir rapidement et précisément des PDF en Markdown, y compris des tableaux et des formules.Le modèle Surya prend en charge l'OCR dans plus de 90 langues, détecte les lignes de texte dans une variété de langues et reconnaît les blocs de mise en page tels que les en-têtes, les images et les formules dans un document.Le modèle Texify convertit les formules reconnues par l'OCR au format LaTeX. Les utilisateurs peuvent utiliser ces outils en toute sécurité dans leur propre environnement.

Déposée Projet d'analyse de données en source ouverte marqueur et les auteurs open-source de surya pour la détection et l'extraction de formes.

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

 

Liste des fonctions

  • MarqueurConversion de PDF en Markdown : Conversion rapide et précise de PDF en Markdown, y compris pour les tableaux et les formules.
  • SuryaLa reconnaissance optique des caractères (OCR) : prise en charge de plus de 90 langues, détection des lignes de texte et reconnaissance des blocs de mise en page des documents.
  • Texify: Convertir les formules reconnues par l'OCR au format LaTeX.
  • Utilisation sûreLes utilisateurs peuvent utiliser ces outils en toute sécurité dans leur propre environnement.

 

Utiliser l'aide

Marqueur

  1. montageTélécharger et installer les dépendances pertinentes pour le modèle Marker.
  2. utiliserTéléchargez des fichiers PDF dans Marker, cliquez sur le bouton Convertir et attendez quelques secondes pour obtenir les fichiers au format Markdown.
  3. mise en gardeLes fichiers PDF doivent être clairs afin d'améliorer la précision de la conversion.

Surya

  1. montageTélécharger et installer les dépendances nécessaires pour le modèle Surya.
  2. utiliserPour cela, il suffit de télécharger le document à océriser, de sélectionner la langue, de cliquer sur le bouton Démarrer et d'attendre le résultat de l'océrisation.
  3. FonctionnalitéLes fonctionnalités suivantes sont disponibles : prise en charge de l'OCR multilingue, détection des lignes de texte, reconnaissance de la mise en page des documents.
  4. mise en garde: Pour les documents complexes, la segmentation est recommandée afin d'améliorer la précision de la reconnaissance.

Texify

  1. montageTélécharger et installer les dépendances nécessaires au modèle Texify.
  2. utiliserPour cela, il suffit de télécharger un document contenant des formules, de cliquer sur le bouton Convertir et d'attendre quelques secondes pour obtenir les formules au format LaTeX.
  3. mise en gardeLes formules sont claires afin d'améliorer la précision des conversions.
© déclaration de droits d'auteur

Articles connexes

Pas de commentaires

Vous devez être connecté pour participer aux commentaires !
S'inscrire maintenant
aucun
Pas de commentaires...