Evo2: 게놈 모델링 및 설계를 지원하는 오픈 소스 바이오 AI 도구

90.4K 00

일반 소개

Arc Institute Evo 2는 게놈 모델링 및 설계에 중점을 둔 오픈 소스 프로젝트로, 미국 캘리포니아주 팔로알토에 위치한 비영리 연구 기관인 Arc Institute에서 개발했으며 NVIDIA와 같은 파트너와 협력하여 시작되었습니다. 이 프로젝트는 생명과학 분야의 예측 및 생성 작업을 위한 최첨단 딥러닝 기술을 통해 DNA, RNA, 단백질로 작업할 수 있는 생물학적 기반 모델을 구축합니다. evo 2는 9조 개 이상의 뉴클레오티드로 구성된 다양한 게놈 데이터로 학습되며, 최대 400억 개의 파라미터를 보유하고 최대 100만 염기의 컨텍스트 길이를 지원합니다. 코드, 훈련 데이터, 모델 가중치는 완전한 오픈 소스이며, GitHub에서 호스팅되며, 생명 공학 및 의학 연구를 가속화하도록 설계되었습니다. 연구자와 개발자 모두 이 도구를 사용해 게놈의 신비를 탐구하고 새로운 생물학적 서열을 설계할 수 있습니다.

기능 목록

생명 영역 전반의 게놈 모델링 지원: 박테리아, 고세균, 진핵생물의 게놈에 대한 예측과 설계가 가능합니다.
긴 염기서열 처리 기능: 매우 긴 맥락의 분석 작업을 위해 최대 100만 개의 염기서열을 처리합니다.
DNA 생성 및 최적화: 입력 염기서열 또는 종 힌트를 기반으로 코딩 영역 주석이 포함된 새로운 DNA 염기서열을 생성합니다.
제로 샘플 변이 효과 예측: 추가 훈련 없이 유전적 변이의 생물학적 영향을 예측합니다(예: BRCA1 변이 효과 분석).
오픈 소스 데이터 세트 및 모델: 2차 개발 및 연구를 지원하기 위해 사전 학습된 모델과 OpenGenome2 데이터 세트를 제공합니다.
멀티 GPU 병렬 컴퓨팅 지원: Vortex 프레임워크를 통해 여러 GPU 리소스를 자동으로 할당하여 대규모 컴퓨팅 효율성을 개선합니다.
NVIDIA BioNeMo와 통합: NVIDIA의 바이오 컴퓨팅 플랫폼에 원활하게 액세스하여 애플리케이션 시나리오를 확장할 수 있습니다.
시각화 및 해석 도구: 굿파이어의 해석 비주얼라이저와 결합하면 모델이 인식한 생체 특징과 패턴을 확인할 수 있습니다.

도움말 사용

설치 프로세스

Evo 2를 로컬에서 사용하려면 특정 컴퓨팅 리소스와 환경 구성이 필요합니다. 자세한 설치 단계는 다음과 같습니다:

1. 환경 준비

운영 체제Linux(예: 우분투) 또는 macOS를 권장하며, Windows 사용자는 WSL2를 설치해야 합니다.
하드웨어 요구 사항최소 16GB의 비디오 메모리(예: A100 또는 RTX 3090)를 갖춘 최소 1개의 NVIDIA GPU(40B 모델을 지원하려면 여러 개의 GPU를 사용하는 것이 좋습니다).
소프트웨어 종속성Git, Python 3.8+, PyTorch(CUDA 지원 포함), pip가 설치되어 있는지 확인합니다.

2. 코드 저장소 복제하기

터미널을 열고 다음 명령을 실행하여 Evo 2 소스 코드를 가져옵니다:

git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git  
cd evo2

주의:--recurse-submodules 모든 하위 모듈도 다운로드되었는지 확인합니다.

3. 종속성 설치

프로젝트 루트 디렉토리에서 실행합니다:

pip install .

문제가 발생하면 Vortex에서 설치해 보세요(자세한 내용은 GitHub README 참조). 설치가 완료되면 테스트를 실행하여 확인합니다:

python -m evo2.test

출력에 오류가 없으면 설치에 성공한 것입니다.

4. 사전 학습된 모델 다운로드

Evo 2는 다양한 모델 버전(예: 1B, 7B, 40B 매개변수)으로 제공되며 Hugging Face 또는 GitHub 릴리스에서 다운로드할 수 있습니다. 예시:

wget https://huggingface.co/arcinstitute/evo2_7b/resolve/main/evo2_7b_base.pt

나중에 로드할 수 있도록 모델 파일을 로컬 디렉터리에 저장합니다.

사용 방법

설치가 완료되면 Python 스크립트를 통해 Evo 2의 핵심 기능을 호출할 수 있습니다. 다음은 주요 기능에 대한 자세한 절차입니다:

기능 1: DNA 염기서열 생성

Evo 2는 입력된 DNA 단편으로부터 연속 염기서열을 생성할 수 있습니다. 절차는 다음과 같습니다:

모델 로드::

from evo2 import Evo2  
model = Evo2('evo2_7b')  # 使用 7B 参数模型

프롬프트 입력 및 생성::

prompt = ["ACGT"]  # 输入初始 DNA 序列  
output = model.generate(prompt_seqs=prompt, n_tokens=400, temperature=1.0, top_k=4)  
print(output.sequences[0])  # 输出生成的 400 个核苷酸序列

결과 해석생성된 시퀀스는 다운스트림 생물학적 분석에 사용할 수 있으며, 온도 매개변수는 확률성을 제어하고 top_k는 샘플링 범위를 제한합니다.

기능 2: 제로 샘플 이형 상품 효과 예측

변이의 생물학적 영향을 예측하기 위한 예로 BRCA1 유전자를 사용했습니다:

데이터 준비참조 및 변형 시퀀스를 목록에 넣습니다.

운영 예측::

ref_seqs = ["ATCG..."]  # 参考序列  
var_seqs = ["ATGG..."]  # 变体序列  
ref_scores = model.score_sequences(ref_seqs)  
var_scores = model.score_sequences(var_seqs)  
print(f"Reference likelihood: {ref_scores}, Variant likelihood: {var_scores}")

분석: 점수 차이를 비교하여 변종이 기능에 미치는 잠재적 영향을 평가합니다.

기능 3: 긴 시퀀스 처리

매우 긴 시퀀스의 경우 Evo 2는 청크 로딩 및 계산을 지원합니다:

대형 모델 로드::

model = Evo2('evo2_40b')  # 需要多 GPU 支持

긴 시퀀스 처리하기::

long_seq = "ATCG..." * 100000  # 模拟 100 万碱基序列  
output = model.generate([long_seq], n_tokens=1000)  
print(output.sequences[0])

주의현재 긴 시퀀스의 순방향 전파가 느릴 수 있으며, 하드웨어 구성을 최적화하거나 교사 프롬프트 방식(교사 프롬프트)을 사용하는 것이 좋습니다.

기능 4: 데이터 집합 및 보조 개발

데이터 집합 가져오기허깅 페이스에서 OpenGenome2 데이터 세트(FASTA 또는 JSONL 형식)를 다운로드합니다.
맞춤형 교육특정 연구 요구에 맞게 Savanna 프레임워크를 기반으로 모델 아키텍처를 수정하거나 매개변수를 미세 조정합니다.

작동 팁 및 주의사항

멀티 GPU 구성40B 모델을 사용하는 경우, Vortex가 여러 GPU를 올바르게 인식하는지 확인해야 합니다. nvidia-smi 리소스 할당을 확인합니다.
성능 최적화긴 시퀀스 처리 감소 temperature 값을 사용하여 계산 부담을 줄입니다.
커뮤니티 지원질문은 GitHub 이슈 게시판으로 보내주시면 Arc Institute 팀과 커뮤니티에서 도움을 드릴 수 있습니다.

이 단계를 통해 DNA 서열을 생성하든 유전자 변이를 분석하든 Evo 2를 효율적으로 실행할 수 있습니다.

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트

MagicMirror: AI 원클릭 얼굴, 헤어, 의상 변경을 위한 경량 네이티브 클라이언트

최신 AI 리소스 # AI 얼굴 교체 및 드레스업

1 년 전

056K

AI 함수: 입력 콘텐츠를 구조화된 출력으로 변환하는 (API) 서비스

최신 AI 리소스 # AI 오픈 서비스 # 문서 추출 및 정리

1 년 전

045.7K

Adobe Firefly(萤火虫)：图像生成式AI套件|免费使用萤火虫图片编辑工具

어도비 파이어플라이: 이미지 빌더 AI 제품군 | 무료 파이어플라이 사진 편집 도구

1 년 전

071.3K

비전 에이전트: 다양한 시각적 표적 감지 작업을 해결하는 시각적 인텔리전스

1 년 전

052.6K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

Evo2: 게놈 모델링 및 설계를 지원하는 오픈 소스 바이오 AI 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 환경 준비

2. 코드 저장소 복제하기

3. 종속성 설치

4. 사전 학습된 모델 다운로드

사용 방법

기능 1: DNA 염기서열 생성

기능 2: 제로 샘플 이형 상품 효과 예측

기능 3: 긴 시퀀스 처리

기능 4: 데이터 집합 및 보조 개발

작동 팁 및 주의사항

VLM-R1: 자연어를 통해 이미지 타깃을 찾기 위한 시각 언어 모델

오픈 리서처-제로: 오픈 소스 대규모 추론 강화 학습 교육 플랫폼

관련 게시물

MagicMirror: AI 원클릭 얼굴, 헤어, 의상 변경을 위한 경량 네이티브 클라이언트

AI 함수: 입력 콘텐츠를 구조화된 출력으로 변환하는 (API) 서비스

어도비 파이어플라이: 이미지 빌더 AI 제품군 | 무료 파이어플라이 사진 편집 도구

비전 에이전트: 다양한 시각적 표적 감지 작업을 해결하는 시각적 인텔리전스

댓글 없음

최신 컬렉션

최신 기사

Evo2: 게놈 모델링 및 설계를 지원하는 오픈 소스 바이오 AI 도구

일반 소개

기능 목록

도움말 사용

설치 프로세스

1. 환경 준비

2. 코드 저장소 복제하기

3. 종속성 설치

4. 사전 학습된 모델 다운로드

사용 방법

기능 1: DNA 염기서열 생성

기능 2: 제로 샘플 이형 상품 효과 예측

기능 3: 긴 시퀀스 처리

기능 4: 데이터 집합 및 보조 개발

작동 팁 및 주의사항

VLM-R1: 자연어를 통해 이미지 타깃을 찾기 위한 시각 언어 모델

오픈 리서처-제로: 오픈 소스 대규모 추론 강화 학습 교육 플랫폼

관련 게시물

MagicMirror: AI 원클릭 얼굴, 헤어, 의상 변경을 위한 경량 네이티브 클라이언트

AI 함수: 입력 콘텐츠를 구조화된 출력으로 변환하는 (API) 서비스

어도비 파이어플라이: 이미지 빌더 AI 제품군 | 무료 파이어플라이 사진 편집 도구

비전 에이전트: 다양한 시각적 표적 감지 작업을 해결하는 시각적 인텔리전스

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사