Evo2: 게놈 모델링 및 설계를 지원하는 오픈 소스 바이오 AI 도구

최신 AI 리소스게시됨 6 개월 전 AI 공유 서클
2.9K 00

일반 소개

Arc Institute Evo 2는 게놈 모델링 및 설계에 중점을 둔 오픈 소스 프로젝트로, 미국 캘리포니아주 팔로알토에 위치한 비영리 연구 기관인 Arc Institute에서 개발했으며 NVIDIA와 같은 파트너와 협력하여 시작되었습니다. 이 프로젝트는 생명과학 분야의 예측 및 생성 작업을 위한 최첨단 딥러닝 기술을 통해 DNA, RNA, 단백질로 작업할 수 있는 생물학적 기반 모델을 구축합니다. evo 2는 9조 개 이상의 뉴클레오티드로 구성된 다양한 게놈 데이터로 학습되며, 최대 400억 개의 파라미터를 보유하고 최대 100만 염기의 컨텍스트 길이를 지원합니다. 코드, 훈련 데이터, 모델 가중치는 완전한 오픈 소스이며, GitHub에서 호스팅되며, 생명 공학 및 의학 연구를 가속화하도록 설계되었습니다. 연구자와 개발자 모두 이 도구를 사용해 게놈의 신비를 탐구하고 새로운 생물학적 서열을 설계할 수 있습니다.

Evo2:支持基因组建模与设计的开源生物AI工具

 

기능 목록

  • 생명 영역 전반의 게놈 모델링 지원: 박테리아, 고세균, 진핵생물의 게놈에 대한 예측과 설계가 가능합니다.
  • 긴 염기서열 처리 기능: 매우 긴 맥락의 분석 작업을 위해 최대 100만 개의 염기서열을 처리합니다.
  • DNA 생성 및 최적화: 입력 염기서열 또는 종 힌트를 기반으로 코딩 영역 주석이 포함된 새로운 DNA 염기서열을 생성합니다.
  • 제로 샘플 변이 효과 예측: 추가 훈련 없이 유전적 변이의 생물학적 영향을 예측합니다(예: BRCA1 변이 효과 분석).
  • 오픈 소스 데이터 세트 및 모델: 2차 개발 및 연구를 지원하기 위해 사전 학습된 모델과 OpenGenome2 데이터 세트를 제공합니다.
  • 멀티 GPU 병렬 컴퓨팅 지원: Vortex 프레임워크를 통해 여러 GPU 리소스를 자동으로 할당하여 대규모 컴퓨팅 효율성을 개선합니다.
  • NVIDIA BioNeMo와 통합: NVIDIA의 바이오 컴퓨팅 플랫폼에 원활하게 액세스하여 애플리케이션 시나리오를 확장할 수 있습니다.
  • 시각화 및 해석 도구: 굿파이어의 해석 비주얼라이저와 결합하면 모델이 인식한 생체 특징과 패턴을 확인할 수 있습니다.

 

도움말 사용

설치 프로세스

Evo 2를 로컬에서 사용하려면 특정 컴퓨팅 리소스와 환경 구성이 필요합니다. 자세한 설치 단계는 다음과 같습니다:

1. 환경 준비

  • 운영 체제Linux(예: 우분투) 또는 macOS를 권장하며, Windows 사용자는 WSL2를 설치해야 합니다.
  • 하드웨어 요구 사항최소 16GB의 비디오 메모리(예: A100 또는 RTX 3090)를 갖춘 최소 1개의 NVIDIA GPU(40B 모델을 지원하려면 여러 개의 GPU를 사용하는 것이 좋습니다).
  • 소프트웨어 종속성Git, Python 3.8+, PyTorch(CUDA 지원 포함), pip가 설치되어 있는지 확인합니다.

2. 코드 저장소 복제하기

터미널을 열고 다음 명령을 실행하여 Evo 2 소스 코드를 가져옵니다:

git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git  
cd evo2

주의:--recurse-submodules 모든 하위 모듈도 다운로드되었는지 확인합니다.

3. 종속성 설치

프로젝트 루트 디렉토리에서 실행합니다:

pip install .

문제가 발생하면 Vortex에서 설치해 보세요(자세한 내용은 GitHub README 참조). 설치가 완료되면 테스트를 실행하여 확인합니다:

python -m evo2.test

출력에 오류가 없으면 설치에 성공한 것입니다.

4. 사전 학습된 모델 다운로드

Evo 2는 다양한 모델 버전(예: 1B, 7B, 40B 매개변수)으로 제공되며 Hugging Face 또는 GitHub 릴리스에서 다운로드할 수 있습니다. 예시:

wget https://huggingface.co/arcinstitute/evo2_7b/resolve/main/evo2_7b_base.pt

나중에 로드할 수 있도록 모델 파일을 로컬 디렉터리에 저장합니다.

사용 방법

설치가 완료되면 Python 스크립트를 통해 Evo 2의 핵심 기능을 호출할 수 있습니다. 다음은 주요 기능에 대한 자세한 절차입니다:

기능 1: DNA 염기서열 생성

Evo 2는 입력된 DNA 단편으로부터 연속 염기서열을 생성할 수 있습니다. 절차는 다음과 같습니다:

  1. 모델 로드::
    from evo2 import Evo2  
    model = Evo2('evo2_7b')  # 使用 7B 参数模型
    
  2. 프롬프트 입력 및 생성::
    prompt = ["ACGT"]  # 输入初始 DNA 序列  
    output = model.generate(prompt_seqs=prompt, n_tokens=400, temperature=1.0, top_k=4)  
    print(output.sequences[0])  # 输出生成的 400 个核苷酸序列
    
  3. 결과 해석생성된 시퀀스는 다운스트림 생물학적 분석에 사용할 수 있으며, 온도 매개변수는 확률성을 제어하고 top_k는 샘플링 범위를 제한합니다.

기능 2: 제로 샘플 이형 상품 효과 예측

변이의 생물학적 영향을 예측하기 위한 예로 BRCA1 유전자를 사용했습니다:

  1. 데이터 준비참조 및 변형 시퀀스를 목록에 넣습니다.
  2. 운영 예측::
    ref_seqs = ["ATCG..."]  # 参考序列  
    var_seqs = ["ATGG..."]  # 变体序列  
    ref_scores = model.score_sequences(ref_seqs)  
    var_scores = model.score_sequences(var_seqs)  
    print(f"Reference likelihood: {ref_scores}, Variant likelihood: {var_scores}")
    
  3. 분석: 점수 차이를 비교하여 변종이 기능에 미치는 잠재적 영향을 평가합니다.

기능 3: 긴 시퀀스 처리

매우 긴 시퀀스의 경우 Evo 2는 청크 로딩 및 계산을 지원합니다:

  1. 대형 모델 로드::
    model = Evo2('evo2_40b')  # 需要多 GPU 支持
    
  2. 긴 시퀀스 처리하기::
    long_seq = "ATCG..." * 100000  # 模拟 100 万碱基序列  
    output = model.generate([long_seq], n_tokens=1000)  
    print(output.sequences[0])
    
  3. 주의현재 긴 시퀀스의 순방향 전파가 느릴 수 있으며, 하드웨어 구성을 최적화하거나 교사 프롬프트 방식(교사 프롬프트)을 사용하는 것이 좋습니다.

기능 4: 데이터 집합 및 보조 개발

  • 데이터 집합 가져오기허깅 페이스에서 OpenGenome2 데이터 세트(FASTA 또는 JSONL 형식)를 다운로드합니다.
  • 맞춤형 교육특정 연구 요구에 맞게 Savanna 프레임워크를 기반으로 모델 아키텍처를 수정하거나 매개변수를 미세 조정합니다.

작동 팁 및 주의사항

  • 멀티 GPU 구성40B 모델을 사용하는 경우, Vortex가 여러 GPU를 올바르게 인식하는지 확인해야 합니다. nvidia-smi 리소스 할당을 확인합니다.
  • 성능 최적화긴 시퀀스 처리 감소 temperature 값을 사용하여 계산 부담을 줄입니다.
  • 커뮤니티 지원질문은 GitHub 이슈 게시판으로 보내주시면 Arc Institute 팀과 커뮤니티에서 도움을 드릴 수 있습니다.

이 단계를 통해 DNA 서열을 생성하든 유전자 변이를 분석하든 Evo 2를 효율적으로 실행할 수 있습니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...