AI-Scientist-v2: 자율적 과학 연구 및 논문 작성

81.3K 00

일반 소개

AI-Scientist-v2는 과학 연구의 처음부터 끝까지를 기계로 자동화하는 것을 목표로 하는 일본 회사 SakanaAI에서 개발한 지능형 시스템입니다. 연구 아이디어를 떠올리고, 실험을 설계하고, 코드를 실행하고, 데이터를 분석하고, 최종적으로 과학 논문을 작성할 수 있습니다. 이 도구는 2025년 4월 GitHub에서 오픈 소스화되었으며, 더 스마트한 탐색을 위해 에이전틱 트리 검색 기술을 추가한 첫 번째 버전으로 업그레이드되었습니다. AI-Scientist-v2는 사람의 템플릿에 의존하지 않고 다양한 머신 러닝 영역에 적용할 수 있어 연구자와 개발자에게 적합합니다.

기능 목록

연구 아이디어 발표입력 방향에 따라 실현 가능한 연구 아이디어를 자동으로 생성합니다.
실험 코드 작성실험을 실행하고, 튜닝 및 최적화를 지원하는 데 필요한 코드를 생성합니다.
실험 및 분석 실행자동으로 코드를 실행하고, 데이터를 수집하고, 차트를 생성합니다.
과학 논문 작성실험 결과를 바탕으로 형식이 잘 정돈된 문서를 출력합니다.
지능형 경로 최적화에이전트 트리 검색을 통해 최상의 리서치 옵션을 살펴보세요.
문헌 검색 지원시맨틱 스콜라 API에 선택적으로 액세스하여 참신성을 확인하고 인용을 추가할 수 있습니다.
오픈 소스전체 코드가 제공되며 사용자가 자유롭게 수정 및 확장할 수 있습니다.

도움말 사용

AI-Scientist-v2는 어느 정도의 기술 지식이 필요하지만, 설정하면 과학 연구를 획기적으로 간소화할 수 있습니다. 다음은 사용자가 빠르게 시작할 수 있도록 도와주는 자세한 단계입니다.

설치 프로세스

환경 준비하기
- Linux와 CUDA 및 PyTorch를 지원하는 NVIDIA GPU가 필요합니다.
- Python 3.11 환경을 만듭니다:
```
conda create -n ai_scientist python=3.11
conda activate ai_scientist
```
- PyTorch와 CUDA를 설치합니다:
```
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia
```

종속성 설치

코드를 다운로드합니다:

git clone https://github.com/SakanaAI/AI-Scientist-v2.git
cd AI-Scientist-v2

추가 도구를 설치합니다:

conda install anaconda::poppler  # 处理 PDF
conda install conda-forge::chktex  # 检查论文格式
pip install -r requirements.txt

API 구성
- 빅 모델 API 키(예: OpenAI)를 설정합니다:
```
export OPENAI_API_KEY='你的密钥'
```
- 다음을 사용하는 경우 Claude 모델에 추가 지원을 설치합니다:
```
pip install anthropic[bedrock]
```
  AWS 키 및 리전을 설정합니다:
```
export AWS_ACCESS_KEY_ID='你的ID'
export AWS_SECRET_ACCESS_KEY='你的密钥'
export AWS_REGION_NAME='us-west-2'
```
- 시맨틱 스콜라 API를 선택적으로 구성합니다:
```
export S2_API_KEY='你的密钥'
```
테스트 환경
- GPU를 사용할 수 있는지 확인합니다:
```
python -c "import torch; print(torch.cuda.is_available())"
```
- 수출 True 설치가 성공했음을 나타냅니다.

주요 기능 사용 방법

1. 연구 아이디어 생성

코드 디렉토리로 이동하여 실행합니다:

python launch_scientist_bfts.py --load_ideas "ai_scientist/ideas/i_cant_believe_its_not_better.json" --model_writeup "claude-3-5-sonnet-20240620"

시스템에서 연구 제목과 설명이 포함된 JSON 파일을 생성합니다.

2. 실험 실행

아이디어가 생성되면 시스템에서 실험 코드를 생성합니다(예 experiment.py).
실험을 수행합니다:

python experiment.py

결과는 experiments 폴더에 데이터와 그래프가 포함됩니다.

3. 논문 작성

실험이 완료되면 논문을 생성합니다:

python launch_scientist_bfts.py --load_code --add_dataset_ref --model_writeup "o1-preview-2024-09-12" --model_citation "gpt-4o-2024-11-20"

LaTeX 파일을 출력하며, 이 파일은 experiments/timestamp_ideaname/latex 폴더에 저장합니다. LaTeX 편집기로 컴파일하여 확인합니다.

4. 에이전트 트리 검색 사용

이는 학습 경로를 최적화하는 v2의 핵심 기능입니다.
런타임에 매개변수를 추가합니다:

python launch_scientist_bfts.py --load_ideas "ai_scientist/ideas/i_cant_believe_its_not_better.json" --tree-search

생성 unified_tree_viz.html브라우저가 있는 경우 브라우저를 열어 검색 프로세스를 확인할 수 있습니다.

5. 구성 트리 검색 매개변수

컴파일러 bfts_config.yaml 문서화:
num_workers병렬 처리를 위한 노드 수(예: 3).
steps탐색할 최대 노드 수(예: 21개).
num_drafts초기 연구 방향의 수.
max_debug_depth디버깅 시도 횟수.

주의

안전이 코드는 AI가 작성한 프로그램을 실행하고, 위험한 패키지를 호출하거나 네트워크에 연결될 수 있으며, Docker로 실행하는 것이 좋습니다.
(제조, 생산 등) 비용실험당 약 $15-$20, 논문 작성 시 $5 추가.
성공률v2는 매우 탐색적이고, v1보다 성공률이 낮으며, 공개 연구에 적합합니다.
메모리 문제"CUDA 메모리 부족"이라는 메시지가 표시되면 JSON 파일에서 작은 모델을 변경합니다.

이 단계를 통해 AI-Scientist-v2의 연구 자동화 기능을 완벽하게 경험할 수 있습니다.

애플리케이션 시나리오

학술 연구
연구자들은 새로운 알고리즘을 검증하고, 논문 초안을 작성하고, 시간을 절약하는 데 이 기능을 사용합니다.
교육 학습
학생들은 이를 사용하여 과학 연구를 시뮬레이션하고, 보고서를 생성하고, 실험 설계에 대해 학습합니다.
기술 혁신
개발자는 새로운 아이디어를 테스트하고 코드 프로토타입을 빠르게 생성하는 데 이 기능을 사용합니다.

QA

어떤 모델이 지원되나요?
클로드 3.5 소네트, GPT-4o, o1-프리뷰 등에 대한 지원은 다음을 참조하세요. llm.py 문서화.
실험 비용은 얼마였나요?
Claude 3.5를 사용하면 세션당 약 15~20달러에 글쓰기 비용 5달러가 추가됩니다.
논문 생성에 실패하면 어떻게 해야 하나요?
성공률은 아이디어의 모델과 복잡성에 따라 달라지며, 매개변수를 조정하거나 다른 모델로 다시 시도할 수 있습니다.
새로운 연구 방향을 추가하려면 어떻게 해야 하나요?
존재 ai_scientist/ideas/ 디렉터리에 새 JSON 파일을 추가하고 예제를 참조하여 수정합니다.