MarkItDown: Инструмент интеллектуального преобразования документов Microsoft для конвертации различных файлов в формат Markdown
Общее введение
MarkItDown - это Python-инструмент, разработанный компанией Microsoft и предназначенный для преобразования различных файлов и офисных документов в формат Markdown. Инструмент поддерживает широкий спектр типов файлов, включая PDF, PowerPoint, Word, Excel, изображения (метаданные EXIF и OCR), аудио (метаданные EXIF и транскрипция голоса), HTML (специальная обработка Wikipedia и т.д.), а также другие текстовые форматы (например, CSV, JSON, XML и т.д.).MarkItDown's API разработан с учетом простоты, пользователи могут легко преобразовать содержимое файла в текст в формате Markdown, удобный для индексирования, анализа текста и других операций.
Опыт работы Адрес:Turn2Markdown

Список функций
- Поддерживает преобразование файлов различных форматов: PDF, PowerPoint, Word, Excel, изображений, аудио, HTML, CSV, JSON, XML и т. д.
- Простой в использовании API: преобразование файлов возможно с помощью простого кода.
- Поддерживает метаданные EXIF и обработку OCR: извлечение метаданных и оптическое распознавание символов для изображений и аудиофайлов.
- Специальная обработка HTML-файлов: включая обработку специальных HTML-файлов, таких как Wikipedia.
- Проекты с открытым исходным кодом: приветствуется вклад сообщества и предложения в соответствии с Кодексом поведения Microsoft с открытым исходным кодом.
Использование помощи
Второй инструмент командной строки для привода: https://github.com/john88188/CTM
Процесс установки
- Убедитесь, что среда Python установлена (рекомендуется Python 3.6 и выше).
- Установите библиотеку MarkItDown с помощью pip:
pip install markitdown
Использование
- Импортируйте библиотеку MarkItDown:
from markitdown import MarkItDown
- Создает объект MarkItDown:
markitdown = MarkItDown()
- Преобразуйте файл:
result = markitdown.convert("test.xlsx")
print(result.text_content)
Подробный порядок работы функций
Преобразование файлов PDF
- Подготовьте путь к PDF-файлу, который нужно преобразовать.
- пользоваться
convert
метод преобразования:
result = markitdown.convert("example.pdf")
print(result.text_content)
Преобразование документов Word
- Подготовьте путь к документу Word, который нужно преобразовать.
- пользоваться
convert
метод преобразования:
result = markitdown.convert("example.docx")
print(result.text_content)
Обработка файлов изображений
- Подготовьте путь к файлу изображения для обработки.
- пользоваться
convert
метод извлечения метаданных EXIF и обработки OCR:
result = markitdown.convert("example.jpg")
print(result.text_content)
Обработка аудиофайлов
- Укажите путь к обрабатываемому аудиофайлу.
- пользоваться
convert
метод извлечения метаданных EXIF и транскрипции речи:
result = markitdown.convert("example.mp3")
print(result.text_content)
Специальная обработка файлов HTML
- Укажите путь к обрабатываемому HTML-файлу.
- пользоваться
convert
метод преобразования:
result = markitdown.convert("example.html")
print(result.text_content)
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...