Из бумаги в подкаст: превращение академических статей в подкасты для бесед с несколькими людьми

Последние ресурсы по искусственному интеллектуОпубликовано 1 год назад Круг обмена ИИ

49.1K 00

Общее введение

Paper to Podcast - это инструмент с открытым исходным кодом, специализирующийся на превращении академических научных работ в живые и увлекательные подкасты. Он делает сложный академический контент легким для понимания, используя технологию искусственного интеллекта, чтобы превратить статью в формате PDF в диалог между тремя персонажами - ведущим, учеником и экспертом. Проект, опубликованный на GitHub разработчиком Azzedde, предназначен для людей, которые любят слушать подкасты, особенно для тех, кто хочет изучать документы во время поездок или путешествий. Он использует API OpenAI для генерации диалогов и аудио по низкой цене, например, около 0,16 доллара за 9-минутный подкаст 19-страничной статьи. Проект прост в использовании, а примеры подкастов предоставляются для ознакомления.

Список функций

Преобразование научных работ в формате PDF в подкасты в виде диалогов из трех человек.
Создайте интерактивный диалог между тремя ролями - фасилитатора, ученика и эксперта.
Используйте API OpenAI для преобразования бумажных материалов в аудио на естественном языке.
предложение ./sample_podcasts Образцы подкастов в папке.
Поддержка оптимизации кода, например, сокращение времени генерации или использование локальных моделей.

Использование помощи

Процесс установки

Чтобы использовать Paper to Podcast, необходимо локально настроить среду. Ниже приведены подробные шаги:

склад клонов
Выполните следующую команду в терминале, чтобы загрузить файл проекта локально:

git clone https://github.com/Azzedde/paper_to_podcast.git

Перейдите в каталог проекта
Введите команду для перехода в папку проекта:

cd paper_to_podcast

Установка ключа API OpenAI

Вам нужно будет зарегистрироваться и получить API-ключ на официальном сайте OpenAI.
В папке проекта создайте новый .env Документация.
Добавьте строку в файл:

OPENAI_API_KEY=你的密钥

Сохраните файл и убедитесь, что ключ введен правильно.

Установка зависимостей

Убедитесь, что на вашем компьютере установлен Python (рекомендуется версия 3.10 или выше).
Запускается в терминале:

pip install -r requirements.txt

Это позволит установить необходимые библиотеки, такие как PyPDF2, pydub, LangChain и так далее.

Подготовка документов для диссертации

Поместите исследовательскую работу в формате PDF в папку проекта, например, с именем research_paper.pdf.
Примечание: файлы должны быть в формате PDF с читаемым текстом, отсканированные изображения не принимаются.

Выполнение сценариев

Введите его в терминал:

python paper_to_podcast.py path/to/your/research_paper.pdf

взаимозаменяемость path/to/your/research_paper.pdf для пути к вашему файлу. Скрипт начнет обработку.

Функции Поток операций

Создание подкастов

входной файл: Укажите путь к PDF-файлу при запуске скрипта, и инструмент прочитает содержимое документа.
Создание диалога::
Система работает следующим образом Planning Chain Создайте подробный план для каждой части работы, чтобы обеспечить точность содержания.
пользоваться Discussion ChainВ сочетании с генеративными моделями, улучшающими поиск, статья превращается в диалог трех человек. Модератор представляет тему, ученик задает вопросы, а эксперт подробно объясняет.
Enhancement Chain Оптимизируйте сценарии, удаляя дублирующий контент, и настраивайте переходы для обеспечения плавного диалога.
выходной аудиосигнал::
После создания сценария OpenAI API преобразует текст в аудиозапись с реалистичными голосами для каждого персонажа.
По умолчанию выходной файл сохраняется в папке проекта, а образец находится в папке ./sample_podcasts Средний.

Посмотреть образец

Проект содержит примеры подкастов, сгенерированных по пути ./sample_podcasts. Вы можете сначала прослушать образцы, чтобы получить представление о стиле диалогов и звуковых эффектах.

Технические детали

структура кода::
Planning Chain: Планируйте содержание вашей работы, чтобы уменьшить количество ошибок.
Discussion Chain: Создавайте диалоги, которые соответствуют оригинальному тексту.
Enhancement Chain: приукрасьте сценарий, чтобы улучшить впечатления от прослушивания.
Text-to-Speech: к аудио с помощью OpenAI API.
(производство, изготовление и т.д.) затраты: Создание 9-минутного подкаста из 19-страничной статьи стоит около 0,16 доллара, в зависимости от длины контента.

Меры предосторожности при использовании

сетевые требования: Процесс генерации требует сетевых обращений к API OpenAI.
формат файла: Поддерживается только PDF, убедитесь, что текст можно извлечь.
обнаружение ошибок::
Если появится запрос ModuleNotFoundErrorБег pip list Убедитесь, что все зависимости установлены.
Если ключ недействителен, проверьте .env файл правильно настроен.
Рекомендации по оптимизации: В настоящее время генерация занимает много времени, разработчик планирует улучшить скорость, мы рекомендуем следить за обновлениями на GitHub.

планы на будущее

Сократите время создания подкастов и повысьте эффективность.
Поддержка собственных моделей (например, Ollama) и синтеза речи с открытым исходным кодом, что снижает зависимость от OpenAI.
Пользователи могут вносить предложения по оптимизации или участвовать в разработке через GitHub.

Выполнив эти действия, вы сможете превратить свой доклад в подкаст с помощью Paper to Podcast и учиться в любое время и в любом месте.

сценарий применения

Пригородное обучение
Слушайте подкасты, чтобы узнать о содержании газеты, не глядя на экран во время вождения или поездки в общественном транспорте.
академический обмен
Исследователь преобразует документ в аудиозапись и передает ее команде или студентам для обсуждения.
любитель
Люди, которые интересуются научными дисциплинами, но у которых нет времени читать статьи, используют подкасты для быстрого изучения основ.

QA

Сколько стоит создание подкаста?
С помощью API OpenAI статья на 19 страницах генерирует 9-минутный подкаст примерно за 0,16 доллара, в зависимости от длины статьи.
Поддерживает ли он файлы, отличные от PDF?
Не поддерживается, в настоящее время принимается только формат PDF, необходимо сначала преобразовать другие форматы в PDF.
Как определяется длина подкаста?
В зависимости от количества страниц и сложности документа, 19-страничный документ создает около 9 минут аудиозаписи.
Могу ли я изменить свою роль?
В настоящее время фиксированы Host, Learner и Expert, если вы хотите сменить роль, вам нужно самостоятельно изменить код, подробности см. на GitHub.