일반 소개
Arc Institute Evo 2는 게놈 모델링 및 설계에 중점을 둔 오픈 소스 프로젝트로, 미국 캘리포니아주 팔로알토에 위치한 비영리 연구 기관인 Arc Institute에서 개발했으며 NVIDIA와 같은 파트너와 협력하여 시작되었습니다. 이 프로젝트는 생명과학 분야의 예측 및 생성 작업을 위한 최첨단 딥러닝 기술을 통해 DNA, RNA, 단백질로 작업할 수 있는 생물학적 기반 모델을 구축합니다. evo 2는 9조 개 이상의 뉴클레오티드로 구성된 다양한 게놈 데이터로 학습되며, 최대 400억 개의 파라미터를 보유하고 최대 100만 염기의 컨텍스트 길이를 지원합니다. 코드, 훈련 데이터, 모델 가중치는 완전한 오픈 소스이며, GitHub에서 호스팅되며, 생명 공학 및 의학 연구를 가속화하도록 설계되었습니다. 연구자와 개발자 모두 이 도구를 사용해 게놈의 신비를 탐구하고 새로운 생물학적 서열을 설계할 수 있습니다.

기능 목록
- 생명 영역 전반의 게놈 모델링 지원: 박테리아, 고세균, 진핵생물의 게놈에 대한 예측과 설계가 가능합니다.
- 긴 염기서열 처리 기능: 매우 긴 맥락의 분석 작업을 위해 최대 100만 개의 염기서열을 처리합니다.
- DNA 생성 및 최적화: 입력 염기서열 또는 종 힌트를 기반으로 코딩 영역 주석이 포함된 새로운 DNA 염기서열을 생성합니다.
- 제로 샘플 변이 효과 예측: 추가 훈련 없이 유전적 변이의 생물학적 영향을 예측합니다(예: BRCA1 변이 효과 분석).
- 오픈 소스 데이터 세트 및 모델: 2차 개발 및 연구를 지원하기 위해 사전 학습된 모델과 OpenGenome2 데이터 세트를 제공합니다.
- 멀티 GPU 병렬 컴퓨팅 지원: Vortex 프레임워크를 통해 여러 GPU 리소스를 자동으로 할당하여 대규모 컴퓨팅 효율성을 개선합니다.
- NVIDIA BioNeMo와 통합: NVIDIA의 바이오 컴퓨팅 플랫폼에 원활하게 액세스하여 애플리케이션 시나리오를 확장할 수 있습니다.
- 시각화 및 해석 도구: 굿파이어의 해석 비주얼라이저와 결합하면 모델이 인식한 생체 특징과 패턴을 확인할 수 있습니다.
도움말 사용
설치 프로세스
Evo 2를 로컬에서 사용하려면 특정 컴퓨팅 리소스와 환경 구성이 필요합니다. 자세한 설치 단계는 다음과 같습니다:
1. 환경 준비
- 운영 체제Linux(예: 우분투) 또는 macOS를 권장하며, Windows 사용자는 WSL2를 설치해야 합니다.
- 하드웨어 요구 사항최소 16GB의 비디오 메모리(예: A100 또는 RTX 3090)를 갖춘 최소 1개의 NVIDIA GPU(40B 모델을 지원하려면 여러 개의 GPU를 사용하는 것이 좋습니다).
- 소프트웨어 종속성Git, Python 3.8+, PyTorch(CUDA 지원 포함), pip가 설치되어 있는지 확인합니다.
2. 코드 저장소 복제하기
터미널을 열고 다음 명령을 실행하여 Evo 2 소스 코드를 가져옵니다:
git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git
cd evo2
주의:--recurse-submodules
모든 하위 모듈도 다운로드되었는지 확인합니다.
3. 종속성 설치
프로젝트 루트 디렉토리에서 실행합니다:
pip install .
문제가 발생하면 Vortex에서 설치해 보세요(자세한 내용은 GitHub README 참조). 설치가 완료되면 테스트를 실행하여 확인합니다:
python -m evo2.test
출력에 오류가 없으면 설치에 성공한 것입니다.
4. 사전 학습된 모델 다운로드
Evo 2는 다양한 모델 버전(예: 1B, 7B, 40B 매개변수)으로 제공되며 Hugging Face 또는 GitHub 릴리스에서 다운로드할 수 있습니다. 예시:
wget https://huggingface.co/arcinstitute/evo2_7b/resolve/main/evo2_7b_base.pt
나중에 로드할 수 있도록 모델 파일을 로컬 디렉터리에 저장합니다.
사용 방법
설치가 완료되면 Python 스크립트를 통해 Evo 2의 핵심 기능을 호출할 수 있습니다. 다음은 주요 기능에 대한 자세한 절차입니다:
기능 1: DNA 염기서열 생성
Evo 2는 입력된 DNA 단편으로부터 연속 염기서열을 생성할 수 있습니다. 절차는 다음과 같습니다:
- 모델 로드::
from evo2 import Evo2 model = Evo2('evo2_7b') # 使用 7B 参数模型
- 프롬프트 입력 및 생성::
prompt = ["ACGT"] # 输入初始 DNA 序列 output = model.generate(prompt_seqs=prompt, n_tokens=400, temperature=1.0, top_k=4) print(output.sequences[0]) # 输出生成的 400 个核苷酸序列
- 결과 해석생성된 시퀀스는 다운스트림 생물학적 분석에 사용할 수 있으며, 온도 매개변수는 확률성을 제어하고 top_k는 샘플링 범위를 제한합니다.
기능 2: 제로 샘플 이형 상품 효과 예측
변이의 생물학적 영향을 예측하기 위한 예로 BRCA1 유전자를 사용했습니다:
- 데이터 준비참조 및 변형 시퀀스를 목록에 넣습니다.
- 운영 예측::
ref_seqs = ["ATCG..."] # 参考序列 var_seqs = ["ATGG..."] # 变体序列 ref_scores = model.score_sequences(ref_seqs) var_scores = model.score_sequences(var_seqs) print(f"Reference likelihood: {ref_scores}, Variant likelihood: {var_scores}")
- 분석: 점수 차이를 비교하여 변종이 기능에 미치는 잠재적 영향을 평가합니다.
기능 3: 긴 시퀀스 처리
매우 긴 시퀀스의 경우 Evo 2는 청크 로딩 및 계산을 지원합니다:
- 대형 모델 로드::
model = Evo2('evo2_40b') # 需要多 GPU 支持
- 긴 시퀀스 처리하기::
long_seq = "ATCG..." * 100000 # 模拟 100 万碱基序列 output = model.generate([long_seq], n_tokens=1000) print(output.sequences[0])
- 주의현재 긴 시퀀스의 순방향 전파가 느릴 수 있으며, 하드웨어 구성을 최적화하거나 교사 프롬프트 방식(교사 프롬프트)을 사용하는 것이 좋습니다.
기능 4: 데이터 집합 및 보조 개발
- 데이터 집합 가져오기허깅 페이스에서 OpenGenome2 데이터 세트(FASTA 또는 JSONL 형식)를 다운로드합니다.
- 맞춤형 교육특정 연구 요구에 맞게 Savanna 프레임워크를 기반으로 모델 아키텍처를 수정하거나 매개변수를 미세 조정합니다.
작동 팁 및 주의사항
- 멀티 GPU 구성40B 모델을 사용하는 경우, Vortex가 여러 GPU를 올바르게 인식하는지 확인해야 합니다.
nvidia-smi
리소스 할당을 확인합니다. - 성능 최적화긴 시퀀스 처리 감소
temperature
값을 사용하여 계산 부담을 줄입니다. - 커뮤니티 지원질문은 GitHub 이슈 게시판으로 보내주시면 Arc Institute 팀과 커뮤니티에서 도움을 드릴 수 있습니다.
이 단계를 통해 DNA 서열을 생성하든 유전자 변이를 분석하든 Evo 2를 효율적으로 실행할 수 있습니다.
© 저작권 정책
기사 저작권 AI 공유 서클 모두 무단 복제하지 마세요.
관련 문서
댓글 없음...