Reflexões sobre o uso do Devin após um mês de execução de mais de 20 tarefas com o Devin

Notícias sobre IAAtualizado há 7 meses Círculo de compartilhamento de IA

1.8K 00

Em março de 2024, uma nova empresa de IA entrou no centro das atenções com um apoio impressionante: uma Série A de US$ 21 milhões liderada pelo Founders Fund e apoiada por líderes do setor, incluindo os irmãos Collison, Elad Gil e outros luminares da tecnologia. A equipe por trás disso? Medalhistas de ouro da Olimpíada Internacional de Informática - eles são o tipo de pessoa que consegue resolver problemas de programação que a maioria de nós não consegue nem começar a compreender. O produto deles, Devin, promete ser um engenheiro de software totalmente autônomo que pode conversar com você como um colega humano, capaz de fazer tudo, desde aprender novas tecnologias e depurar bases de código maduras até implantar aplicativos completos e até mesmo treinar modelos de IA.

As primeiras demonstrações foram convincentes. Mostra como o Devin concluiu de forma independente uma tarefa de recompensa no Upwork, instalando e executando um projeto PyTorch sem intervenção humana. A empresa afirma que o Devin conseguiu resolver o problema do GitHub do mundo real 13.86% de ponta a ponta no benchmark SWE-bench - cerca de três vezes melhor do que o sistema anterior. Inicialmente, ele era acessível apenas a um pequeno grupo de usuários, o que levou a tweets empolgantes sobre como ele revolucionaria o desenvolvimento de software.

atuar como Answer.AI Como fazemos parte de uma equipe que frequentemente experimenta ferramentas de desenvolvimento de IA, sentimos que havia algo diferente no Devin. Se ele cumprir metade do que promete, poderá mudar a forma como trabalhamos. Mas, apesar de todo o entusiasmo no Twitter, não conseguimos encontrar muitos relatos detalhados de pessoas que realmente o utilizam. Por isso, decidimos testá-lo exaustivamente em uma variedade de tarefas do mundo real. Esta é a nossa história - uma tentativa completa e real de trabalhar com um dos produtos de IA mais badalados de 2024.

O que é Devin?

O que torna o Devin único é sua infraestrutura. Diferentemente dos assistentes de IA típicos, o Devin executa e inicia seu próprio ambiente de computação por meio do Slack. Quando você fala com o Devin, está falando com uma IA que tem acesso a um ambiente de computação completo - com navegador da Web, editor de código e shell - que pode instalar dependências, ler documentação e até mesmo visualizar os aplicativos da Web que ele cria. Aqui está uma captura de tela de uma maneira de iniciar o Devin para executar uma tarefa:

Uma maneira de iniciar o Devin em uma tarefa via Slack

Essa experiência foi projetada para que você se sinta como se estivesse conversando com um colega. Você descreve o que deseja e, em seguida, o Devin começa a trabalhar. Por meio do Slack, você pode vê-lo pensar nos problemas, solicitar credenciais quando necessário e compartilhar links para trabalhos concluídos. Nos bastidores, ele é executado em um contêiner do Docker, o que lhe dá o isolamento necessário para fazer experimentos com segurança e, ao mesmo tempo, proteger seu sistema. O Devin também fornece uma interface da Web, que também permite acessar seu ambiente e vê-lo trabalhar em tempo real usando um IDE, um navegador da Web e muito mais. Veja abaixo uma captura de tela da interface da Web:

Sucesso inicial

Nossa primeira tarefa foi simples, mas verdadeira: mover os dados do Noção O banco de dados foi extraído para o Google Sheets.Devin resolveu esse problema com uma competência incrível. Ele navegou até a documentação da API do Notion, entendeu o que precisava e me guiou pelo processo de configuração das credenciais necessárias no Google Cloud Console. Em vez de simplesmente lançar comandos da API, ele me orientou em cada menu e clique de botão, economizando o tempo que normalmente exigiria uma tediosa pesquisa na documentação. Todo o processo levou cerca de uma hora (mas apenas alguns minutos de interação humana). No final, Devin compartilhou um link para uma planilha do Google perfeitamente formatada contendo nossos dados.

O código que ele gera é um pouco longo, mas funciona. Isso parece um vislumbre do futuro - uma IA que pode lidar com as tarefas de "código de cola" que tomam tanto tempo de um desenvolvedor. Johno teve sucesso semelhante ao de Devin ao criar um rastreador de planetas para desmentir afirmações sobre as localizações históricas de Júpiter e Saturno. O que é particularmente impressionante é que ele fez isso inteiramente de seu telefone celular, com Devin cuidando de todo o trabalho pesado de configurar o ambiente e escrever o código.

Expandindo nossos testes

Com base em nosso sucesso inicial, aproveitamos os recursos assíncronos do Devin. Imaginávamos ter o Devin escrevendo documentação durante as reuniões ou depurando problemas enquanto nos concentrávamos no trabalho de design. Mas, à medida que aumentávamos nossos testes, surgiram rachaduras. Tarefas aparentemente simples muitas vezes levavam dias em vez de horas, e o Devin chegava a becos sem saída técnicos ou produzia soluções complexas demais para serem usadas.

Ainda mais preocupante é a tendência de Devin de insistir em tarefas que são praticamente impossíveis. Quando lhe pediram para implantar vários aplicativos em uma única implantação do Railway (um recurso não suportado pelo Railway), em vez de reconhecer essa limitação, Devin passou mais de um dia tentando várias abordagens e falsificando recursos que não existiam.

O que é mais frustrante não são as falhas em si - todas as ferramentas têm limitações - mas o tempo que gastamos tentando salvar essas tentativas.

Obter informações sobre o que deu errado

Em nossa jornada, estávamos confusos. Vimos que o Devin era capaz de integrar APIs com competência e criar aplicativos funcionais, mas tinha dificuldades com tarefas aparentemente mais simples. Será que isso foi apenas má sorte? Estávamos usando-o de forma errada?

Ao longo de um mês, registramos sistematicamente nossas tentativas nas seguintes categorias:

Criação de um novo projeto do zero
Implementação do mandato de pesquisa
Analisar e modificar projetos existentes

Os resultados foram desanimadores. Das 20 tarefas, tivemos 14 fracassos, 3 sucessos (incluindo nossos 2 iniciais) e 3 resultados inconclusivos. O mais revelador é que não conseguimos discernir nenhum padrão para prever quais tarefas seriam bem-sucedidas. Tarefas semelhantes aos nossos primeiros sucessos falharam de maneiras inesperadas.Fornecemos informações mais detalhadas sobre essas tarefas no apêndice abaixo. Abaixo está um resumo de nossa experiência em cada categoria durante o processo:

1. criar um novo projeto do zero

Essa categoria deve ser o forte de Devin. Afinal de contas, o vídeo de demonstração da empresa mostra como ele conclui de forma autônoma tarefas de recompensa no Upwork, e nossos próprios sucessos iniciais sugerem que ele pode lidar com novos desenvolvimentos. Mas a realidade se mostrou mais complicada.

Veja, por exemplo, nossa tentativa de integração com uma plataforma de observabilidade de Modelo de Linguagem Grande (LLM) chamada Braintrust. A tarefa era clara: gerar dados sintéticos e carregá-los. Em vez de fornecer uma solução claramente focada, Devin gerou o que só pode ser descrito como uma sopa de código - várias camadas de abstração que complicam desnecessariamente operações simples. Por fim, abandonamos as tentativas de Devin e usamos o Cursor Criar a integração passo a passo provou ser mais eficiente. Da mesma forma, quando solicitado a criar uma integração entre nosso anotador de IA e o Spiral.computer, Devin produziu o que um membro da equipe descreveu como "código espaguete que era mais difícil de ler do que o código que eu havia escrito do zero". Apesar de ter acesso à documentação de ambos os sistemas, Devin parecia complicar demais todos os aspectos da integração.

Talvez o mais revelador seja nossa tentativa de rastreamento na Web. Pedimos a Devin que rastreasse os links do Google Scholar e os 25 artigos mais recentes dos autores - uma tarefa simples para uma ferramenta como o Playwright. Dada a capacidade do Devin de navegar na Web e escrever código, isso deveria ter sido particularmente fácil de fazer. Em vez disso, ele ficou preso em um loop infinito de tentativas de analisar HTML e não conseguiu sair do seu próprio caminho.

2) Mandato de pesquisa

Se o Devin tiver dificuldades com tarefas específicas de codificação, é provável que ele se saia melhor em um empreendimento orientado para a pesquisa? Os resultados são mistos, na melhor das hipóteses. Embora ele possa lidar com pesquisas básicas de documentos (como vimos na integração inicial do Notion/Google Sheets), tarefas de pesquisa mais complexas se mostraram desafiadoras.

Quando pedimos ao Devin para examinar os resumos de transcrição com registros de data e hora precisos (um desafio técnico específico que enfrentamos), ele apenas repetiu informações técnicas superficialmente relevantes em vez de abordar o problema central. Em vez de explorar possíveis soluções ou identificar os principais desafios técnicos, ele forneceu exemplos genéricos de código que não abordavam o problema subjacente. Mesmo quando Devin parece progredir, os resultados geralmente não são o que parecem. Por exemplo, quando solicitado a criar um tema DaisyUI mínimo como exemplo, ele gerou uma solução que parecia funcionar. No entanto, após uma inspeção mais detalhada, descobrimos que o tema não fazia nada - as cores que víamos eram do tema padrão, não de nossas personalizações.

3. análise e modificação do código existente

Talvez as falhas mais preocupantes de Devin ocorram ao trabalhar com bases de código existentes. Essas tarefas exigem a compreensão do contexto e a manutenção da consistência com padrões estabelecidos - habilidades que devem estar no centro das capacidades de um engenheiro de software de IA.

Nossas tentativas de fazer com que Devin lidasse com projetos do nbdev foram particularmente esclarecedoras. Quando solicitado a migrar um projeto Python para o nbdev, Devin não conseguiu entender a configuração básica do nbdev, mesmo quando fornecemos a ele uma documentação abrangente. Ainda mais desconcertante foi a maneira como ele lidou com os notebooks - em vez de editá-los diretamente, ele criou scripts Python para modificá-los, acrescentando complexidade desnecessária a uma tarefa simples. Embora ocasionalmente ele forneça comentários ou ideias úteis, o código real que ele gera é sempre problemático.

A análise de segurança revelou problemas semelhantes. Quando pedimos ao Devin que avaliasse um repositório do GitHub (menos de 700 linhas de código) em busca de vulnerabilidades de segurança, ele exagerou, sinalizando muitos falsos positivos e falsificando problemas que não existiam. Provavelmente, esse tipo de análise é mais bem gerenciado por uma chamada direcionada do Large Language Model (LLM) em vez da abordagem mais sofisticada do Devin.

Esse padrão continuou durante as tarefas de depuração. Ao investigar por que o encaminhamento de chaves SSH não funcionava no script de configuração, Devin se concentrou no script em si e nunca considerou que o problema poderia estar em outro lugar. Esse efeito "peek-a-boo" fez com que ele não nos ajudasse a descobrir a verdadeira causa raiz. Da mesma forma, quando solicitado a adicionar uma verificação de conflito entre a entrada do usuário e os valores do banco de dados, um membro da equipe passou horas estudando as tentativas de Devin antes de desistir e escrever ele mesmo o recurso em cerca de 90 minutos.

Reflexões como uma equipe

Depois de um mês de testes intensivos, nossa equipe se reuniu para analisar nossa experiência. Estas citações expressam melhor nossos sentimentos:

As tarefas que ele pode realizar são tão pequenas e bem definidas que é melhor fazê-las do meu jeito mais rapidamente. Acho que é provável que ele falhe em tarefas maiores e que economizam tempo que eu possa ver. Como resultado, não há casos de uso reais em que eu realmente queira usá-lo.- Johno Whitaker

Inicialmente, fiquei muito empolgado porque estava muito próximo e senti que poderia ajustar as coisas. Depois, aos poucos, fui ficando frustrado, pois tinha que mudar cada vez mais e, por fim, cheguei a um ponto em que era melhor fazer tudo do zero, de forma incremental.- Isaac Flath

Devin teve dificuldade em usar as ferramentas internas do AnswerAI, o que, entre outros problemas, dificultou seu uso. Apesar da extensa documentação e dos exemplos que fornecemos a Devin, isso ainda é um problema. Descobri que esse não é um problema com ferramentas como o Cursor, em que há mais oportunidades de orientar as coisas na direção certa de forma mais incremental.- Hamel Husain

Em comparação com o Devin, descobrimos que mais processos orientados pelo desenvolvedor (como o Cursor) evitaram a maioria dos problemas que encontramos no Devin.

chegar a um veredicto

A colaboração com Devin demonstra a visão do desenvolvimento autônomo de IA. A experiência do usuário é excelente: conversando pelo Slack, observando-o trabalhar de forma assíncrona, vendo-o configurar ambientes e lidar com dependências. Quando funciona, é impressionante.

Mas é aí que está o problema - raramente funciona. Das 20 tarefas que tentamos realizar, registramos 14 falhas, 3 resultados incertos e apenas 3 sucessos. Ainda mais preocupante foi nossa incapacidade de prever quais tarefas seriam bem-sucedidas. Mesmo as tarefas semelhantes aos nossos primeiros sucessos falharam de maneiras complexas e demoradas. O que parecia ser uma autonomia promissora tornou-se um fardo - Devin passava dias buscando soluções impossíveis em vez de identificar os obstáculos subjacentes.

Isso reflete um padrão que observamos repetidamente nas ferramentas de IA. O entusiasmo da mídia social e as avaliações das empresas têm pouco a ver com a utilidade no mundo real. Os sinais mais confiáveis que encontramos vêm de histórias detalhadas de usuários que fornecem produtos e serviços. Por enquanto, estamos nos limitando a ferramentas que nos permitem conduzir o processo de desenvolvimento e, ao mesmo tempo, fornecer assistência de IA.

Apêndice: A tentativa de missão de Devin

A tabela a seguir lista os projetos que demos ao Devin, categorizados pelos seguintes tópicos: (1) criação de novos projetos, (2) pesquisa, (3) análise de bases de código existentes e (4) modificação de bases de código.

1. criação de novos projetos

Nome do projeto	estado das coisas	descrições	reavaliação

rastreador planetário	sucessos	Gostaria de desmentir algumas das afirmações sobre as posições históricas de Júpiter e Saturno.	Devin fez um ótimo trabalho. Na verdade, conversei com Devin pelo Slack no meu telefone e tudo foi feito.

Migração de dados do Notion para o Planilhas Google	sucessos	Eu disse ao Devin para extrair programaticamente as informações do documento do Notion em uma planilha do Google. Esse foi o primeiro projeto que executei usando o Devin, e foi bem feito; o Devin leu a documentação do Notion e da API do Google pessoalmente; o Devin também me guiou até o console do Google Cloud e me forneceu instruções sobre todos os diferentes menus para clicar, o que teria me tomado bastante tempo! No final, obtive um script Python razoável que executou a tarefa.	Essa foi minha primeira interação com o Devin e ele funcionou exatamente como eu queria, o que foi uma experiência nova para mim. Neste momento, estou muito entusiasmado com o Devin.
Implementação de vários aplicativos no Railway	inconclusivo	Pedi a Devin que implantasse vários aplicativos em uma única implantação do Railway para que eu pudesse ter aplicativos diferentes compartilhando o mesmo banco de dados local para testes.	A tarefa se mostrou mal definida, pois era praticamente impossível fazer isso se eu a entendesse corretamente. No entanto, Devin foi em frente e tentou fazer isso, e distorceu parte do conteúdo sobre como interagir com a Railway.
Gerar dados sintéticos e carregá-los na Braintrust	falhar (por exemplo, experimentos)	Pedi a Devin que criasse dados sintéticos para uma plataforma de observabilidade de modelo de linguagem grande (LLM) chamada Braintrust que eu queria testar.	Devin criou um código excessivamente complexo, difícil de entender e que se tornou um obstáculo na tentativa de corrigir bugs. Acabamos iterando essa etapa usando o Cursor.
Criar integração entre dois aplicativos	falhar (por exemplo, experimentos)	Pedi a Devin que criasse uma integração entre meu anotador de IA, o Circleback, e o Spiral.computer com ponteiros para cada documento.	Obtive um código muito ruim no estilo espaguete que era mais difícil de ler do que o código que eu estava tentando escrever do zero. Por isso, decidi não gastar mais tempo usando o Devin para essa tarefa específica.
Documentos de rastreamento da Web por meio do rastreamento de links do Google Scholar	falhar (por exemplo, experimentos)	Pedi a Devin que usasse o playwright para rastrear programaticamente os últimos 25 artigos de autores no Google Scholar e ignorar esse documento específico se ele atingir um acesso pago.	O Devin caiu em uma toca de coelho ao tentar analisar o HTML, da qual parece não conseguir sair. Ele fica preso e adormecido.
Criação de um aplicativo de amostra de upload em lote HTMX mínimo	falhar (por exemplo, experimentos)	Pedi a Devin que lesse o exemplo de edição em massa na página de documentação do HTMX e usasse esse exemplo e o código do pseudo-servidor para criar uma versão FastHTML mínima do exemplo para a Galeria FastHTML.	O exemplo não funciona e não é mínimo. Devin usa objetos que não existem no objeto de solicitação e acrescenta muitas coisas desnecessárias, como toasts (que também não funcionam) e estilos CSS em linha.
Crie um tema DaisyUI que corresponda ao tema FrankenUI.	falhar (por exemplo, experimentos)	Pedi a Devin que criasse os temas DaisyUI e highlight.js para que correspondessem ao tema frankenui e pudessem ser usados sem problemas no mesmo aplicativo!	Devin mapeou os temas pré-existentes da daisyUI para os temas da frankenui, mas em muitos casos eles não combinavam bem. Ele também fez muitas alterações no código que eu não conseguia entender e acabei não usando nenhum código porque estava muito confuso para saber o que fazer com ele.

2. estudos de implementação

Nome do projeto	estado das coisas	descrições	reavaliação

Pesquisando como fazer um robô do Discord	sucessos	Pedi a Devin que estudasse a criação de um bot do Discord usando Python para resumir as mensagens diárias e enviar e-mails. Também disse a ele para usar a Claudette para fazer isso sempre que possível. Por fim, pedi que ele anotasse suas descobertas em um caderno com pequenos trechos de código que ele poderia usar para testes.	O Devin gera notas de pesquisa na forma de arquivos markdown como uma etapa intermediária na criação de um bloco de notas, o que eu não pedi que ele fizesse. No entanto, é útil ver um plano passo a passo sobre como fazer isso. O código que ele fornece no notebook não é 100% correto, mas como pseudocódigo ele me ajuda a entender como juntar tudo isso. Considerando que este é mais um projeto de pesquisa e que eu só quero conhecer a ideia geral, considero-o um sucesso.

Estudo de resumos de transcrições com registros de data e hora precisos	falhar (por exemplo, experimentos)	Um dos problemas que enfrento ao resumir transcrições é que quero ter o registro de data e hora exato associado às anotações para que eu possa usá-lo em resumos de capítulos do YouTube ou similares. Especificamente, obter carimbos de data e hora precisos das transcrições não é um problema, mas é difícil correlacionar os carimbos de data e hora com os resumos, porque os carimbos de data e hora geralmente estão bagunçados. Portanto, é uma espécie de tarefa de pesquisa de engenharia de IA.	Devin repete o que é relevante para o meu problema, mas não faz um bom trabalho de pesquisa nem tenta resolver o problema que estou tentando resolver, e me fornece códigos e exemplos inúteis.
Criando um tema DaisyUI mínimo como exemplo	falhar (por exemplo, experimentos)	Pedi a Devin que criasse um tema DaisyUI mínimo como exemplo. Meu objetivo era começar de um ponto de partida, já que pedir que fosse feito de uma forma mais completa não foi bem-sucedido.	Devin ignorou as solicitações para transformá-lo em um aplicativo FastHTML, e foi necessário um pouco de comunicação para que ele seguisse esse caminho. Por fim, ele criou um aplicativo que parecia funcionar com diferentes tipos de botões. Embora o link fornecido parecesse bom, quando tentei modificar o tema, ficou claro que o tema não fazia nada. As outras cores do aplicativo vêm do tema padrão. Esse não é um ponto de partida útil.

3. análise do código existente

Nome do projeto	estado das coisas	descrições	reavaliação

Realizar uma análise de segurança da base de código	inconclusivo	Para essa tarefa, indiquei ao Devin um repositório do GitHub e disse a ele para avaliar as vulnerabilidades de segurança. O repositório tem menos de 700 linhas de código. Eu disse a Devin para documentar seus comentários em um arquivo markdown e fornecer exemplos de código, se necessário.	O Devin identificou algumas brechas de segurança, mas foi excessivamente zeloso e falsificou alguns problemas que não existiam. Talvez essa não seja a tarefa ideal para o Devin, pois ela funciona muito bem com uma única chamada para o meu Large Language Model (LLM).

Solicitações pull para revisar postagens de blog e sugerir melhorias	falhar (por exemplo, experimentos)	Pedi ao Devin que revisasse uma publicação de blog com uma solicitação de alterações sugeridas. No final das contas, o Devin falhou porque não conseguiu descobrir como funcionava o Quarto, o gerador de sites estáticos que eu estava usando.	Acho que essa tarefa seria bem-sucedida em uma ferramenta como o Cursor. Parece que o Devin não aprendeu muito bem com a estrutura do projeto e com a documentação existente, de modo que ele errou em coisas como o preâmbulo e outras convenções necessárias para editar corretamente uma postagem de blog.
Analisar o aplicativo e identificar possíveis áreas de melhoria	falhar (por exemplo, experimentos)	Pedi a Devin que desse uma olhada no aplicativo de gerenciamento de tempo que mencionei anteriormente e criei uma tarefa aberta para pedir que ele sugerisse melhorias.	O conselho que ele oferece não faz sentido.
Depuração do motivo pelo qual o encaminhamento de chaves SSH não funciona em scripts de configuração	inconclusivo	Pedi a Devin que descobrisse por que o encaminhamento de chaves SSH não funciona quando eu o configuro com um script no servidor.	No final das contas, o problema não tinha nada a ver com o script, que eu achava que era o problema, mas Devin nunca deu a entender ou indicou que o problema poderia estar em outro lugar. Isso não ajudou porque não me ajudou a descobrir a causa principal.

4. modificação de projetos existentes

Nome do projeto	estado das coisas	descrições	reavaliação

Fazendo alterações no projeto nbdev	falhar (por exemplo, experimentos)	Tenho um aplicativo simples para controle de tempo criado com FastHTML e nbdev que gostaria de integrar com o Apple Shortcuts por meio de roteamento de API.	Mesmo com o progresso impressionante, o Devin não conseguiu ser executado com sucesso nesse ambiente. Uma curiosidade que notei foi que o Devin criou scripts Python para editar os notebooks, em vez de tentar editar os próprios notebooks. No entanto, o Devin me deu alguns comentários e ideias úteis que eu não havia considerado. Entretanto, o código que ele tentou escrever não fazia sentido. No final, usei o modelo de outra pessoa em vez de qualquer uma das sugestões do Devin.

Migração de projetos Python para o nbdev	falhar (por exemplo, experimentos)	Pedi a Devin que migrasse um projeto para o nbdev [detalhes do prompt omitidos por brevidade].	Ele ficou atolado e não conseguiu entender a configuração básica do nbdev. Parece que ele não leu muito bem a documentação do nbdev.
Integração de pacotes de estilos ao FastHTML	falhar (por exemplo, experimentos)	Pedi a Devin que integrasse o MonsterUI em um de meus aplicativos.	Devin não conseguiu descobrir como lidar com o repositório nbdev.
Adicionar funcionalidade para verificar se há conflitos entre a entrada do usuário e o banco de dados	falhar (por exemplo, experimentos)	Pedi a Devin que adicionasse um recurso ao aplicativo para comparar os valores de entrada do usuário com os valores de um banco de dados executado anteriormente e fornecer uma interface de usuário se eles não corresponderem.	Passei horas tentando descobrir como fazê-lo funcionar corretamente antes de desistir. Eu mesmo escrevi o recurso em cerca de 90 minutos.
Gerar arquivos de contexto de LLMs (Large Language Models) usando o conteúdo de cada exemplo de galeria fasthtml	falhar (por exemplo, experimentos)	Pedi a Devin que criasse arquivos de texto de LLMs (Large Language Models) para a galeria fasthtml.	Fiquei satisfeito ao ver que ele cria um arquivo markdown separado para cada exemplo e, inicialmente, tenta resumi-los no arquivo de contexto do LLM. Eu não havia pensado em fazer isso e, a princípio, tudo parecia estar lá. Ao fazer o download e começar a pesquisar, comecei a notar algo que não me agradava: os LLMs não estavam formatados corretamente. Mesmo quando dei a ele as informações sobre o uso de tags XML para separar os exemplos, ele não as usou. Ele adicionou e corrigiu uma versão específica do pacote markdown como uma dependência e usou essa versão em vez de usar o pacote markdown2 que já estava em uso e já era uma dependência. Ele faz um monte de coisas do pytest e adiciona uma dependência, mesmo que o projeto não use o pytest.