MarkItDown: Инструмент интеллектуального преобразования документов Microsoft для конвертации различных файлов в формат Markdown

Общее введение

MarkItDown - это Python-инструмент, разработанный компанией Microsoft и предназначенный для преобразования различных файлов и офисных документов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая PDF, PowerPoint, Word, Excel, изображения (метаданные EXIF и OCR), аудио (метаданные EXIF и транскрипция голоса), HTML (специальная обработка Wikipedia и т.д.), а также другие текстовые форматы (например, CSV, JSON, XML и т.д.).MarkItDown's API разработан с учетом простоты, пользователи могут легко преобразовать содержимое файла в текст в формате Markdown, удобный для индексирования, анализа текста и других операций.

Опыт работы Адрес:Turn2Markdown

MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

 

Список функций

  • Поддерживает преобразование файлов различных форматов: PDF, PowerPoint, Word, Excel, изображений, аудио, HTML, CSV, JSON, XML и т. д.
  • Простой в использовании API: преобразование файлов возможно с помощью простого кода.
  • Поддерживает метаданные EXIF и обработку OCR: извлечение метаданных и оптическое распознавание символов для изображений и аудиофайлов.
  • Специальная обработка HTML-файлов: включая обработку специальных HTML-файлов, таких как Wikipedia.
  • Проекты с открытым исходным кодом: приветствуется вклад сообщества и предложения в соответствии с Кодексом поведения Microsoft с открытым исходным кодом.

 

Использование помощи

Второй инструмент командной строки для привода: https://github.com/john88188/CTM

Процесс установки

  1. Убедитесь, что среда Python установлена (рекомендуется Python 3.6 и выше).
  2. Установите библиотеку MarkItDown с помощью pip:
   pip install markitdown

Использование

  1. Импортируйте библиотеку MarkItDown:
   from markitdown import MarkItDown
  1. Создает объект MarkItDown:
   markitdown = MarkItDown()
  1. Преобразуйте файл:
   result = markitdown.convert("test.xlsx")
print(result.text_content)

Подробный порядок работы функций

Преобразование файлов PDF

  1. Подготовьте путь к PDF-файлу, который нужно преобразовать.
  2. пользоватьсяconvertметод преобразования:
   result = markitdown.convert("example.pdf")
print(result.text_content)

Преобразование документов Word

  1. Подготовьте путь к документу Word, который нужно преобразовать.
  2. пользоватьсяconvertметод преобразования:
   result = markitdown.convert("example.docx")
print(result.text_content)

Обработка файлов изображений

  1. Подготовьте путь к файлу изображения для обработки.
  2. пользоватьсяconvertметод извлечения метаданных EXIF и обработки OCR:
   result = markitdown.convert("example.jpg")
print(result.text_content)

Обработка аудиофайлов

  1. Укажите путь к обрабатываемому аудиофайлу.
  2. пользоватьсяconvertметод извлечения метаданных EXIF и транскрипции речи:
   result = markitdown.convert("example.mp3")
print(result.text_content)

Специальная обработка файлов HTML

  1. Укажите путь к обрабатываемому HTML-файлу.
  2. пользоватьсяconvertметод преобразования:
   result = markitdown.convert("example.html")
print(result.text_content)
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...