한 달 동안 Devin으로 20개 이상의 작업을 실행한 후 Devin 사용에 대한 소감

57.7K 00

2024년 3월, 파운더스 펀드가 주도하고 콜리슨 형제, 엘라드 길 등 업계 리더와 기타 기술 분야의 저명인사들이 후원하는 2,100만 달러 규모의 시리즈 A 투자를 유치한 새로운 AI 회사가 주목받기 시작했습니다. 개발팀은 누구일까요? 국제 정보학 올림피아드 금메달리스트인 이들은 우리 대부분이 이해하기조차 어려운 프로그래밍 문제를 해결할 수 있는 사람들입니다. 이들의 제품인 Devin은 인간 동료처럼 대화할 수 있는 완전 자율 소프트웨어 엔지니어로, 신기술 학습과 성숙한 코드 베이스 디버깅부터 전체 애플리케이션 배포와 AI 모델 학습까지 모든 작업을 수행할 수 있습니다.

초기 데모는 매우 인상적이었습니다. Devin이 사람의 개입 없이 PyTorch 프로젝트를 설치 및 실행하여 Upwork의 바운티 작업을 독립적으로 완료한 방법을 보여줍니다. 이 회사는 Devin이 SWE 벤치마크에서 13.86%의 실제 GitHub 문제를 엔드투엔드 방식으로 해결할 수 있었으며, 이는 이전 시스템보다 약 3배 더 나은 성능이라고 주장합니다. 처음에는 소수의 사용자만 액세스할 수 있었기 때문에 소프트웨어 개발에 혁명을 일으킬 것이라는 흥미로운 트윗이 이어졌습니다.

역할 Answer.AI AI 개발 도구를 자주 사용해보는 팀의 일원인 저희는 Devin에 뭔가 다른 점이 있다고 느꼈습니다. 약속한 기능의 절반만 제공한다면 우리의 업무 방식을 바꿀 수 있을 것 같았습니다. 하지만 트위터의 열광적인 반응에 비해 실제로 이 도구를 사용하는 사람들의 자세한 사용 후기를 찾아볼 수 없었습니다. 그래서 저희는 다양한 실제 업무에 대해 철저히 테스트하기로 결정했습니다. 2024년 가장 기대되는 AI 제품 중 하나를 실제 업무에 사용해 본 철저한 테스트 스토리를 소개합니다.

데빈이란 무엇인가요?

Devin을 독특하게 만드는 것은 인프라입니다. 일반적인 AI 어시스턴트와 달리 Devin은 Slack을 통해 자체 컴퓨팅 환경을 실행하고 실행합니다. Devin과 대화할 때는 웹 브라우저, 코드 편집기, 셸을 갖춘 전체 컴퓨팅 환경에 액세스하여 종속성을 설치하고, 문서를 읽고, 심지어 자신이 만든 웹 애플리케이션을 미리 볼 수 있는 AI와 대화하는 것입니다. 다음은 Devin을 실행하여 작업을 수행하는 한 가지 방법의 스크린샷입니다:

Slack을 통해 Devin을 작업으로 시작하는 한 가지 방법

이 경험은 동료와 채팅하는 것처럼 느낄 수 있도록 설계되었습니다. 원하는 것을 설명하면 Devin이 작업을 시작합니다. Slack을 통해 문제를 해결하는 과정을 지켜보고, 필요할 때 자격 증명을 요청하고, 완료된 작업에 대한 링크를 공유할 수 있습니다. 백그라운드에서는 Docker 컨테이너에서 실행되므로 시스템을 보호하면서 안전하게 실험하는 데 필요한 격리 기능을 제공하며, Devin은 웹 인터페이스도 제공하므로 IDE, 웹 브라우저 등을 사용하여 환경에 액세스하고 실시간으로 작동하는 것을 볼 수 있습니다. 아래는 웹 인터페이스의 스크린샷입니다:

초기 성공

우리의 첫 번째 작업은 간단하지만 사실입니다. Notion 데이터베이스를 Google 스프레드시트로 추출했는데 Devin은 놀라운 능력으로 이 문제를 해결해 주었습니다. Notion API 문서로 이동하여 무엇이 필요한지 파악한 다음, Google Cloud Console에서 필요한 자격 증명을 설정하는 과정을 안내해 주었습니다. API 명령어를 나열하는 대신 각 메뉴와 버튼 클릭을 안내해 주었기 때문에 일반적으로 지루한 문서 검색이 필요한 시간을 절약할 수 있었습니다. 전체 과정은 약 한 시간 정도 걸렸지만 사람과의 상호작용은 몇 분밖에 걸리지 않았습니다. 마지막에 Devin은 데이터가 포함된 완벽한 형식의 Google 스프레드시트 링크를 공유해 주었습니다.

생성된 코드는 약간 길지만 작동합니다. 개발자의 많은 시간이 소요되는 '코드 붙이기' 작업을 처리할 수 있는 AI의 미래를 엿볼 수 있는 것 같은 느낌입니다. 조노는 목성과 토성의 역사적 위치에 대한 주장을 반박하기 위해 행성 추적기를 만드는 데 Devin과 비슷한 성공을 거둔 바 있습니다. 특히 인상적인 점은 그가 전적으로 휴대폰으로 이 작업을 수행했고 Devin은 환경 설정 및 코드 작성과 같은 무거운 작업을 모두 처리했다는 점입니다.

테스트 확장

초기 성공을 바탕으로 Devin의 비동기 기능을 활용했습니다. 우리는 회의 중에 Devin이 문서를 작성하거나 디자인 작업에 집중하는 동안 문제를 디버깅하는 것을 상상했습니다. 하지만 테스트 규모를 확장하면서 문제가 발생했습니다. 단순해 보이는 작업도 몇 시간이 아닌 며칠이 걸리는 경우가 많았고, Devin은 기술적 막다른 골목에 부딪히거나 사용하기에 너무 복잡한 솔루션을 만들곤 했습니다.

더욱 걱정스러운 것은 사실상 불가능한 작업을 밀어붙이는 Devin의 경향입니다. 하나의 Railway 배포에 여러 애플리케이션을 배포하라는 요청(Railway에서 지원하지 않는 기능)을 받았을 때 Devin은 이러한 한계를 인식하지 못한 채 다양한 접근 방식을 시도하고 존재하지 않는 기능을 만들어내는 데 하루 이상을 보냈습니다.

가장 실망스러운 것은 모든 도구에는 한계가 있기 때문에 실패 자체가 아니라 이러한 시도를 복구하는 데 많은 시간을 소비한다는 점입니다.

무엇이 잘못되었는지에 대한 인사이트 확보

여정에서 저희는 혼란스러웠습니다. Devin은 API를 능숙하게 통합하고 기능적인 애플리케이션을 구축할 수 있었지만, 겉보기에 단순해 보이는 작업에는 어려움을 겪는 것을 보았습니다. 운이 나빴던 걸까요? 우리가 잘못 사용하고 있었던 걸까요?

한 달에 걸쳐 다음과 같은 범주의 시도를 체계적으로 문서화했습니다:

처음부터 새 프로젝트 만들기
연구 의무 이행
기존 프로젝트 분석 및 수정

결과는 실망스러웠습니다. 20개의 작업 중 14개는 실패, 3개는 성공(초기 2개 포함), 3개는 결정적이지 않은 결과가 나왔습니다. 더 큰 문제는 어떤 작업이 성공할지 예측할 수 있는 패턴을 발견할 수 없었다는 점입니다. 초기의 성공과 유사한 작업이 예상치 못한 방식으로 실패하기도 했습니다.아래 부록에서 이러한 작업에 대한 자세한 정보를 확인할 수 있습니다. 아래는 이 과정에서 각 카테고리별로 겪은 경험을 요약한 것입니다:

1. 처음부터 새 프로젝트 만들기

이 카테고리는 Devin의 강점이 될 것입니다. 데모 동영상을 보면 업워크에서 바운티 작업을 자율적으로 완료하는 방법을 알 수 있고, 초기 성공 사례를 보면 새로운 개발도 처리할 수 있음을 알 수 있습니다. 하지만 현실은 더 복잡했습니다.

예를 들어, Braintrust라는 대규모 언어 모델(LLM) 통합 가시성 플랫폼과 통합하려는 시도를 생각해 보겠습니다. 합성 데이터를 생성하여 업로드하는 간단한 작업이었지만, Devin은 집중적이고 명확한 솔루션을 제공하는 대신 단순한 작업을 불필요하게 복잡하게 만드는 여러 계층의 추상화라는 코드 수프를 생성했습니다. 결국 우리는 Devin의 시도를 포기하고 커서 단계별로 통합을 구축하는 것이 더 효율적이라는 것이 입증되었습니다. 마찬가지로, AI 메모 작성기와 Spiral.computer 간의 통합을 요청받았을 때 Devin은 한 팀원이 "처음부터 작성한 코드보다 더 읽기 어려운 스파게티 코드"라고 표현한 것을 만들었습니다. 두 시스템에 대한 문서에 액세스할 수 있었음에도 불구하고 Devin은 통합의 모든 측면을 지나치게 복잡하게 생각한 것 같았습니다.

아마도 웹 크롤링을 시도한 것이 가장 잘 드러나는 사례일 것입니다. Devin에게 Google Scholar 링크를 추적하고 저자의 가장 최근 논문 25개를 크롤링해 달라고 요청했는데, 이는 Playwright와 같은 도구로서는 간단한 작업이었습니다. 웹을 탐색하고 코드를 작성하는 Devin의 능력을 고려할 때 이 작업은 특히 쉽게 수행할 수 있을 것으로 예상했습니다. 하지만 HTML 구문 분석을 시도하는 끝없는 반복에 갇혀서 끝내 빠져나오지 못했습니다.

2. 연구 임무

Devin이 특정 코딩 작업에 어려움을 겪는다면 연구 중심의 작업에서 더 잘할 수 있을까요? 결과는 기껏해야 엇갈립니다. 기본적인 문서 조회는 처리할 수 있지만(초기 Notion/Google 스프레드시트 통합에서 보았듯이), 더 복잡한 연구 작업은 어려운 것으로 나타났습니다.

Devin에게 정확한 타임스탬프가 포함된 트랜스크립션 요약(우리가 직면한 특정 기술적 문제)을 요청했을 때, 핵심 문제를 다루기보다는 피상적으로 관련된 기술 정보만 반복할 뿐이었습니다. 잠재적인 해결책을 탐색하거나 주요 기술적 과제를 파악하는 대신 근본적인 문제를 해결하지 못하는 일반적인 코드 예제를 제공했습니다. Devin이 진전을 이룬 것 같더라도 결과는 대개 보기와는 달랐습니다. 예를 들어, 최소한의 데이지UI 테마를 만들라는 요청을 받았을 때는 작동하는 것처럼 보이는 솔루션을 생성했습니다. 하지만 자세히 살펴보니 테마가 실제로 아무 기능도 수행하지 않았고, 사용자 지정한 색상이 아니라 기본 테마에서 가져온 색상이었습니다.

3. 기존 코드 분석 및 수정하기

Devin이 가장 걱정하는 실패는 아마도 기존 코드베이스로 작업할 때 발생할 것입니다. 이러한 작업에는 컨텍스트를 이해하고 기존 패턴과의 일관성을 유지해야 하며, 이는 AI 소프트웨어 엔지니어의 핵심 역량에 속하는 기술입니다.

Devin에게 nbdev 프로젝트를 처리하게 하려는 시도는 특히 빛을 발했습니다. Python 프로젝트를 nbdev로 마이그레이션해 달라는 요청을 받았을 때, 종합적인 설명서를 제공했음에도 불구하고 Devin은 기본적인 nbdev 설정을 이해하지 못했습니다. 더욱 당황스러운 것은 노트북을 직접 편집하는 대신 Python 스크립트를 만들어 수정함으로써 간단한 작업에 불필요한 복잡성을 더하는 노트북 처리 방식이었습니다. 가끔 유용한 주석이나 아이디어를 제공하기도 하지만, 실제 생성되는 코드는 지속적으로 문제가 있었습니다.

보안 검토에서도 비슷한 문제가 발견되었습니다. Devin에게 700줄 미만의 코드가 포함된 GitHub 리포지토리에 대한 보안 취약성을 평가해 달라고 요청했을 때, Devin은 지나치게 많은 오탐과 존재하지도 않는 문제를 허위로 표시했습니다. 이러한 종류의 분석은 Devin의 보다 정교한 접근 방식보다는 타겟팅된 LLM(대규모 언어 모델) 호출로 처리하는 것이 가장 효과적일 수 있습니다.

이 패턴은 디버깅 작업 중에도 계속되었습니다. 설정 스크립트에서 SSH 키 전달이 작동하지 않는 이유를 조사할 때 Devin은 스크립트 자체에 집중했고 문제가 다른 곳에 있을 수 있다는 사실은 전혀 고려하지 않았습니다. 이 땜질식 처방은 실제 근본 원인을 발견하는 데 도움이 되지 않았습니다. 마찬가지로 사용자 입력과 데이터베이스 값 간의 충돌 검사를 추가하라는 요청을 받은 한 팀원은 몇 시간 동안 Devin의 시도를 연구하다가 포기하고 약 90분 만에 직접 기능을 작성했습니다.

팀으로서의 성찰

한 달간의 집중적인 테스트 끝에 저희 팀은 경험을 정리하기 위해 모였습니다. 이 인용문이 저희의 감정을 가장 잘 표현하고 있습니다:

수행할 수 있는 작업은 너무 작고 잘 정의되어 있어서 제 방식으로 더 빨리 수행하는 것이 더 낫습니다. 시간을 절약할 수 있는 대규모 작업에서는 실패할 가능성이 높다고 생각합니다. 결과적으로 제가 실제로 사용하고 싶은 사용 사례는 없습니다.- 조노 휘태커

처음에는 너무 가까워서 무언가를 조정할 수 있을 것 같아서 매우 흥분했습니다. 하지만 점점 더 많은 것을 바꿔야 했기 때문에 서서히 좌절했고, 결국 처음부터 점진적으로 하는 것이 더 낫다는 결론에 도달했습니다.- 아이작 플래스

Devin은 AnswerAI의 내부 도구를 사용하는 데 어려움을 겪었는데, 무엇보다도 여러 가지 문제로 인해 사용하기가 어려웠습니다. 광범위한 문서와 예제를 Devin에게 제공했음에도 불구하고 여전히 문제가 되고 있습니다. 하지만 커서 같은 도구는 점진적인 방식으로 올바른 방향으로 유도할 수 있는 기회가 더 많기 때문에 이런 문제가 발생하지 않는다는 것을 알게 되었습니다.- 하멜 후세인

Devin과 비교했을 때, 개발자 주도의 더 많은 프로세스(예: 커서)가 Devin에서 발생한 대부분의 문제를 피할 수 있다는 사실을 발견했습니다.

평결에 도달하기

Devin과의 협업은 자율 AI 개발의 비전을 보여줍니다. Slack을 통해 채팅하고, 비동기식으로 작동하는 것을 보고, 환경을 설정하고 종속성을 처리하는 등 사용자 경험은 훌륭합니다. 작동하는 모습은 인상적이었습니다.

하지만 여기에는 문제가 있습니다. 저희가 시도한 20개의 작업 중 14개의 실패, 3개의 불확실한 결과, 단 3개의 성공만을 보았습니다. 더욱 걱정스러운 것은 어떤 과제가 성공할지 예측할 수 없다는 것이었습니다. 초기의 성공과 유사한 과제조차도 복잡하고 시간이 많이 소요되는 방식으로 실패했습니다. Devin은 근본적인 장애물을 파악하기보다는 불가능한 해결책을 찾는 데 며칠을 허비하는 등 유망해 보였던 자율성이 부담으로 다가왔습니다.

이는 AI 도구에서 반복적으로 관찰된 패턴을 반영합니다. 소셜 미디어의 흥미와 기업 가치는 실제 활용도와는 거의 관련이 없습니다. 우리가 발견한 가장 신뢰할 수 있는 신호는 제품과 서비스를 제공하는 사용자들의 상세한 스토리에서 비롯됩니다. 현재로서는 AI 지원을 제공하면서 개발 프로세스를 주도할 수 있는 도구를 고수하고 있습니다.

부록: 데빈의 임무 시도

다음 표에는 (1) 새 프로젝트 만들기, (2) 연구, (3) 기존 코드베이스 분석, (4) 코드베이스 수정 등 주제별로 분류하여 Devin에게 제공한 프로젝트가 나와 있습니다.

1. 새 프로젝트 생성

프로젝트 이름	업무 상태	설명	재평가

행성 추적기	성공 사례	목성과 토성의 역사적 위치에 대한 몇 가지 주장에 대해 반박하고 싶습니다.	Devin이 정말 잘해줬어요. 실제로 휴대폰으로 Slack을 통해 Devin과 대화를 나눴습니다.

Notion에서 Google 스프레드시트로 데이터 마이그레이션하기	성공 사례	저는 Devin에게 프로그래밍 방식으로 Notion 문서의 정보를 Google 스프레드시트로 추출하라고 지시했습니다. 이 프로젝트는 Devin을 사용하여 실행한 첫 번째 프로젝트였는데, Devin이 직접 Notion 및 Google API 설명서를 읽고, Google 클라우드 콘솔로 저를 안내하고 클릭해야 하는 모든 메뉴에 대한 지침을 제공했기 때문에 꽤 많은 시간이 걸렸을 것입니다! 결국 작업을 수행하는 합리적인 Python 스크립트를 만들 수 있었습니다.	Devin과의 첫 상호작용이었는데 제가 원하는 대로 정확하게 작동해서 새로운 경험이었습니다. 이 시점에서 저는 Devin에 대해 매우 기대하고 있습니다.
철도에 멀티 애플리케이션 배포	결정적이지 않음	여러 애플리케이션이 동일한 로컬 데이터베이스를 공유하여 테스트할 수 있도록 여러 애플리케이션을 단일 Railway 배포에 배포해 달라고 Devin에게 요청했습니다.	제가 제대로 이해했다면 이 작업을 수행하는 것이 사실상 불가능했기 때문에 이 작업은 제대로 정의되지 않은 것으로 판명되었습니다. 그럼에도 불구하고 Devin은 계속해서 작업을 시도했고, 철도와의 상호 작용 방법에 대한 일부 내용을 수정했습니다.
합성 데이터를 생성하여 브레인트러스트에 업로드하기	실패(예: 실험)	저는 Devin에게 테스트하고 싶은 대규모 언어 모델(LLM) 통합 가시성 플랫폼인 Braintrust에 대한 합성 데이터를 만들어 달라고 요청했습니다.	Devin은 지나치게 복잡하고 이해하기 어려운 코드를 만들었고 버그를 수정하는 데 어려움을 겪었습니다. 결국 커서를 사용하여 이 단계를 반복했습니다.
두 애플리케이션 간의 통합 만들기	실패(예: 실험)	저는 Devin에게 각 문서에 대한 포인터를 사용해 제 AI 메모 작성기, Circleback, Spiral.computer를 통합해 달라고 요청했습니다.	처음부터 작성하려고 했던 코드보다 읽기 어려운 스파게티 스타일의 코드가 정말 많이 생겼어요. 그래서 저는 그 특정 작업에 더 이상 Devin을 사용하지 않기로 결정했습니다.
Google 학술지 링크를 따라 웹 크롤링 논문 작성하기	실패(예: 실험)	저는 Devin에게 플레이라이트를 사용하여 Google Scholar에 있는 저자의 최근 25개 논문을 프로그래밍 방식으로 크롤링하고 특정 문서가 페이월에 부딪히면 건너뛰도록 요청했습니다.	Devin은 빠져나올 수 없는 HTML 구문 분석의 토끼굴에 빠졌습니다. 멈춰서 휴면 상태가 됩니다.
최소한의 HTMX 일괄 업로드 샘플 애플리케이션 만들기	실패(예: 실험)	저는 Devin에게 HTMX 문서 페이지의 대량 편집 예제를 읽고 그 예제와 의사 서버 코드를 사용하여 FastHTML 갤러리용 최소한의 FastHTML 버전을 만들어 달라고 요청했습니다.	Devin은 요청 객체에 존재하지 않는 객체를 사용하고 토스트(이 역시 작동하지 않음) 및 인라인 CSS 스타일과 같은 불필요한 것들을 많이 추가합니다.
FrankenUI 테마와 일치하는 DaisyUI 테마를 만듭니다.	실패(예: 실험)	Devin에게 프랭크누이 테마와 일치하고 동일한 애플리케이션에서 원활하게 사용할 수 있도록 데이지UI와 highlight.js 테마를 만들어 달라고 요청했습니다!	Devin은 기존 데이지UI 테마를 프랭크누이 테마에 매핑했지만 잘 어울리지 않는 경우가 많았습니다. 또한 이해할 수 없는 코드 변경이 많아서 어떻게 해야 할지 몰라 결국 코드를 사용하지 않게 되었습니다.

2. 구현 연구

프로젝트 이름	업무 상태	설명	재평가

Discord 로봇을 만드는 방법 연구하기	성공 사례	저는 Devin에게 매일 메시지를 요약하여 이메일을 발송하는 Python을 사용하여 Discord 봇을 구축하는 방안을 검토해 달라고 부탁했습니다. 그리고 가능하면 클라우뎃을 사용하여 이 작업을 수행하라고 말했습니다. 마지막으로 테스트에 사용할 수 있는 작은 코드 스니펫을 노트북에 적어두라고 했습니다.	Devin은 노트북을 만드는 중간 단계로 마크다운 파일 형식의 리서치 노트를 생성하는데, 저는 그렇게 하도록 요청하지 않았습니다. 하지만 이를 달성하는 방법에 대한 단계별 계획을 보는 것은 유용합니다. 노트북에서 제공하는 코드는 100%가 정확하지는 않지만 의사 코드로서 이것을 어떻게 붙이는지 이해하는 데 도움이 됩니다. 연구 프로젝트에 가깝고 일반적인 아이디어만 알고 싶다는 점을 고려하면 성공이라고 생각합니다.

정확한 타임스탬프로 성적표 요약 공부하기	실패(예: 실험)	녹취록을 요약할 때 제가 직면하는 문제 중 하나는 YouTube 챕터 요약 등에 사용할 수 있도록 노트와 관련된 정확한 타임스탬프를 갖고 싶다는 것입니다. 특히, 대본에서 정확한 타임스탬프를 얻는 것은 문제가 되지 않지만 타임스탬프가 엉망인 경우가 많아서 타임스탬프와 요약을 연관 짓기가 어렵습니다. 따라서 일종의 AI 엔지니어링 연구 과제와 비슷합니다.	Devin은 제 문제와 관련된 내용을 반복하지만 제가 해결하려는 문제를 제대로 조사하거나 해결하려고 노력하지 않고 쓸모없는 코드와 예제를 제공합니다.
예제로 최소한의 DaisyUI 테마 만들기	실패(예: 실험)	저는 Devin에게 최소한의 데이지UI 테마를 예제로 만들어 달라고 요청했습니다. 더 완벽한 방식으로 완성해 달라고 요청하는 것은 성공하지 못했기 때문에 시작점에서부터 시작하자는 것이 제 목표였습니다.	Devin은 FastHTML 애플리케이션으로 만들어 달라는 요청을 무시했고, 그 경로를 따르기 위해 몇 차례의 커뮤니케이션이 필요했습니다. 결국 다양한 버튼 유형에서 작동하는 것처럼 보이는 애플리케이션을 만들었습니다. 제공된 링크는 괜찮아 보였지만 테마를 수정하려고 하자 테마가 아무 기능도 하지 않는다는 것이 분명해졌습니다. 앱의 다른 색상은 기본 테마에서 가져온 것입니다. 이것은 유용한 시작점이 아닙니다.

3. 기존 코드 분석

프로젝트 이름	업무 상태	설명	재평가

코드 베이스의 보안 검토 수행	결정적이지 않음	이 작업을 위해 Devin에게 GitHub 리포지토리를 가리키며 보안 취약점을 평가하라고 지시했습니다. 리포지토리는 700줄 미만의 코드였습니다. 저는 Devin에게 마크다운 파일에 의견을 문서화하고 필요한 경우 샘플 코드를 제공하라고 말했습니다.	Devin은 몇 가지 보안 허점을 발견했지만, 지나치게 열성적이어서 존재하지도 않는 문제를 엉터리로 만들었습니다. 대규모 언어 모델(LLM)을 한 번만 호출하면 잘 작동하기 때문에 Devin에게는 이상적인 작업은 아닐 수도 있습니다.

블로그 게시물 검토 및 개선 제안을 위한 풀 리퀘스트	실패(예: 실험)	저는 Devin에게 제안된 변경 사항에 대한 풀 리퀘스트가 포함된 블로그 게시물을 검토해 달라고 요청했습니다. 결국 Devin은 제가 사용하던 정적 사이트 생성기인 Quarto가 어떻게 작동하는지 파악하지 못해 실패했습니다.	이 작업은 커서 같은 도구에서 성공할 수 있을 것 같습니다. Devin이 프로젝트 구조와 기존 문서에서 제대로 학습하지 않은 것 같아서 서문과 블로그 게시물을 제대로 편집하는 데 필요한 기타 규칙을 엉망으로 만든 것 같습니다.
애플리케이션을 검토하고 개선이 필요한 부분을 파악하세요.	실패(예: 실험)	앞서 말씀드린 시간 관리 앱을 살펴보고 개선점을 제안해 달라는 개방형 과제를 Devin에게 부탁했습니다.	그 조언은 말이 안 됩니다.
설정 스크립트에서 SSH 키 전달이 작동하지 않는 이유 디버깅하기	결정적이지 않음	서버에서 스크립트로 설정했을 때 SSH 키 전달이 작동하지 않는 이유를 알아내기 위해 Devin에게 문의했습니다.	결국 문제가 있다고 생각했던 스크립트와는 아무런 관련이 없는 문제였지만 Devin은 다른 곳에 문제가 있을 수 있다는 암시나 언급을 하지 않았습니다. 이는 근본 원인을 파악하는 데 도움이 되지 않았기 때문에 도움이 되지 않았습니다.

4. 기존 프로젝트의 수정

프로젝트 이름	업무 상태	설명	재평가

nbdev 프로젝트 변경하기	실패(예: 실험)	API 라우팅을 통해 Apple 단축키와 통합하고 싶은 FastHTML 및 nbdev로 만든 간단한 시간 추적용 애플리케이션이 있습니다.	인상적인 진전에도 불구하고 Devin은 이 환경에서 성공적으로 실행할 수 없었습니다. 제가 발견한 한 가지 이상한 점은 Devin이 노트북 자체를 편집하지 않고 Python 스크립트를 만들어 노트북을 편집했다는 점입니다. 하지만 Devin은 여기서 제가 미처 생각하지 못했던 유용한 의견과 아이디어를 제시해 주었습니다. 하지만 제가 작성하려고 했던 코드는 이해가 되지 않았습니다. 결국 저는 Devin의 제안 대신 다른 사람의 템플릿을 사용했습니다.

Python 프로젝트를 nbdev로 마이그레이션하기	실패(예: 실험)	Devin에게 프로젝트를 nbdev로 마이그레이션해 달라고 요청했습니다 [간결함을 위해 프롬프트 세부 정보 생략].	수렁에 빠져서 기본적인 nbdev 설정을 파악할 수 없었습니다. nbdev 설명서를 제대로 읽지 않은 것 같습니다.
스타일 팩을 FastHTML에 통합하기	실패(예: 실험)	Devin에게 MonsterUI를 제 애플리케이션 중 하나에 통합해 달라고 요청했습니다.	Devin은 nbdev 리포지토리를 처리하는 방법을 알아낼 수 없었습니다.
사용자 입력과 데이터베이스 간의 충돌을 확인하는 기능을 추가합니다.	실패(예: 실험)	Devin에게 사용자 입력 값과 이전에 실행한 데이터베이스의 값을 비교하고 일치하지 않는 경우 사용자 인터페이스를 제공하는 기능을 애플리케이션에 추가해 달라고 요청했습니다.	포기하기 전에 몇 시간 동안 천천히 제대로 작동하는 방법을 알아냈습니다. 약 90분 만에 기능을 직접 작성했습니다.
각 패스트툴 갤러리 예제의 콘텐츠를 사용하여 LLM(대규모 언어 모델) 컨텍스트 파일 생성하기	실패(예: 실험)	저는 Devin에게 패스트웹 갤러리를 위한 대규모 언어 모델(LLM) 텍스트 파일을 만들어 달라고 요청했습니다.	각 예제에 대해 별도의 마크다운 파일을 생성한 다음 처음에는 LLM 컨텍스트 파일에 요약하려고 시도하는 것을 보고 매우 기뻤습니다. 저는 그렇게 할 생각도 못했고 처음에는 모든 것이 다 있는 것처럼 보였습니다. 다운로드하고 파헤치기 시작하면서 마음에 들지 않는 점이 하나 보이기 시작했는데, 바로 LLM의 형식이 올바르지 않다는 것이었습니다. 예제를 구분하기 위해 XML 태그를 사용하라는 정보를 제공했음에도 불구하고 이를 사용하지 않았습니다. 이미 사용 중이고 종속성이 있는 마크다운2 패키지를 사용하는 대신 특정 버전의 마크다운 패키지를 종속성으로 추가 및 수정하고 해당 버전을 사용했습니다. 프로젝트에서 pytest를 사용하지 않음에도 불구하고 많은 pytest 작업을 수행하고 종속성을 추가합니다.