Evo2: ein quelloffenes Bio-AI-Tool zur Unterstützung von Genommodellierung und -design

Neueste AI-RessourcenGeschrieben vor 6 Monaten AI-Austauschkreis

16.7K 00

Allgemeine Einführung

Arc Institute Evo 2 ist ein Open-Source-Projekt, das sich auf die Modellierung und das Design von Genomen konzentriert. Es wurde vom Arc Institute, einer gemeinnützigen Forschungsorganisation mit Sitz in Palo Alto, Kalifornien, USA, entwickelt und in Zusammenarbeit mit Partnern wie NVIDIA gestartet. Das Projekt entwickelt biologisch basierte Modelle, die mit DNA, RNA und Proteinen arbeiten können, und zwar mit Hilfe modernster Deep-Learning-Techniken für prädiktive und generative Aufgaben in den Biowissenschaften. evo 2 wird auf verschiedenen genomischen Daten mit mehr als 9 Billionen Nukleotiden trainiert, hat bis zu 40 Milliarden Parameter und unterstützt Kontextlängen von bis zu 1 Million Basen. Der Code, die Trainingsdaten und die Modellgewichte sind vollständig quelloffen, werden auf GitHub gehostet und wurden entwickelt, um die biotechnologische und medizinische Forschung zu beschleunigen. Sowohl Forscher als auch Entwickler können das Tool nutzen, um die Geheimnisse des Genoms zu erforschen und neue biologische Sequenzen zu entwerfen.

Funktionsliste

Unterstützt die Genommodellierung in allen Lebensbereichen: ermöglicht die Vorhersage und das Design der Genome von Bakterien, Archaeen und Eukaryoten.
Fähigkeit zur Handhabung langer Sequenzen: Handhabung von DNA-Sequenzen mit bis zu 1 Million Basen für Analyseaufgaben in sehr langen Kontexten.
DNA-Generierung und -Optimierung: Generierung neuer DNA-Sequenzen mit Annotationen der kodierenden Region auf der Grundlage von Eingabesequenzen oder Hinweisen zu Arten.
Vorhersage von Varianteneffekten bei Null-Proben: Vorhersage der biologischen Auswirkungen genetischer Varianten ohne zusätzliches Training, z. B. Effektanalyse von BRCA1-Varianten.
Open-Source-Datensätze und -Modelle: Bereitstellung von vortrainierten Modellen und OpenGenome2-Datensätzen zur Unterstützung von Sekundärentwicklung und Forschung.
Unterstützung für parallele Berechnungen mit mehreren GPUs: Weisen Sie automatisch mehrere GPU-Ressourcen über das Vortex-Framework zu, um die Effizienz von Berechnungen in großem Maßstab zu verbessern.
Integration mit NVIDIA BioNeMo: Nahtloser Zugriff auf die Biocomputing-Plattform von NVIDIA zur Erweiterung von Anwendungsszenarien.
Visualisierungs- und Interpretationstools: In Kombination mit dem Interpretive Visualiser von Goodfire werden die vom Modell erkannten biometrischen Merkmale und Muster sichtbar.

Hilfe verwenden

Einbauverfahren

Für die lokale Nutzung von Evo 2 sind bestimmte Computerressourcen und Umgebungskonfigurationen erforderlich. Nachstehend finden Sie die detaillierten Installationsschritte:

1. die Vorbereitung der Umwelt

Betriebssystem: Linux (z.B. Ubuntu) oder macOS wird empfohlen, Windows-Benutzer müssen WSL2 installieren.
Hardware-VoraussetzungMindestens 1 NVIDIA-GPU (mehrere GPUs werden empfohlen, um das 40B-Modell zu unterstützen) mit mindestens 16 GB Videospeicher (z. B. A100 oder RTX 3090).
Software-AbhängigkeitStellen Sie sicher, dass Git, Python 3.8+, PyTorch (mit CUDA-Unterstützung) und pip installiert sind.

2. das Klonen des Code-Repository

Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den Quellcode von Evo 2 zu erhalten:

git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git  
cd evo2

Achtung!--recurse-submodules Stellen Sie sicher, dass alle Untermodule ebenfalls heruntergeladen werden.

3. die Installation von Abhängigkeiten

Führen Sie es im Stammverzeichnis des Projekts aus:

pip install .

Wenn Sie auf Probleme stoßen, versuchen Sie, von Vortex aus zu installieren (siehe GitHub README für Details). Sobald die Installation abgeschlossen ist, führen Sie die Tests aus, um sie zu überprüfen:

python -m evo2.test

Wenn die Ausgabe keine Fehler meldet, war die Installation erfolgreich.

4) Herunterladen von vortrainierten Modellen

Evo 2 ist in verschiedenen Modellversionen erhältlich (z. B. 1B, 7B, 40B Parameter), die von Hugging Face oder GitHub Releases heruntergeladen werden können. Beispiel:

wget https://huggingface.co/arcinstitute/evo2_7b/resolve/main/evo2_7b_base.pt

Legen Sie die Modelldateien zum späteren Laden in einem lokalen Verzeichnis ab.

Wie zu verwenden

Nach der Installation können die Kernfunktionen von Evo 2 über Python-Skripte aufgerufen werden. Nachstehend finden Sie eine detaillierte Beschreibung der wichtigsten Funktionen:

Funktion 1: DNA-Sequenz generieren

Evo 2 kann aus einem eingegebenen DNA-Fragment eine Fortsetzungssequenz erzeugen. Das Verfahren ist wie folgt:

Modelle laden::

from evo2 import Evo2  
model = Evo2('evo2_7b')  # 使用 7B 参数模型

Eingabeaufforderungen eingeben und generieren::

prompt = ["ACGT"]  # 输入初始 DNA 序列  
output = model.generate(prompt_seqs=prompt, n_tokens=400, temperature=1.0, top_k=4)  
print(output.sequences[0])  # 输出生成的 400 个核苷酸序列

Auswertung der ErgebnisseDie erzeugten Sequenzen können für nachgelagerte biologische Analysen verwendet werden, wobei der Temperaturparameter die Stochastizität steuert und top_k den Stichprobenbereich einschränkt.

Funktion 2: Vorhersage der Auswirkungen von Null-Stichprobenvarianten

Das BRCA1-Gen wurde als Beispiel für die Vorhersage der biologischen Auswirkungen von Varianten verwendet:

Daten vorbereitenReferenz- und Variantensequenzen in die Liste einfügen.

Operative Prognosen::

ref_seqs = ["ATCG..."]  # 参考序列  
var_seqs = ["ATGG..."]  # 变体序列  
ref_scores = model.score_sequences(ref_seqs)  
var_scores = model.score_sequences(var_seqs)  
print(f"Reference likelihood: {ref_scores}, Variant likelihood: {var_scores}")

AnalyseVergleich der Unterschiede in den Ergebnissen, um die möglichen Auswirkungen der Varianten auf die Funktion zu beurteilen.

Funktion 3: Verarbeitung langer Sequenzen

Bei sehr langen Sequenzen unterstützt Evo 2 das Laden und Berechnen in Chunks:

Laden großer Modelle::

model = Evo2('evo2_40b')  # 需要多 GPU 支持

Handhabung langer Sequenzen::

long_seq = "ATCG..." * 100000  # 模拟 100 万碱基序列  
output = model.generate([long_seq], n_tokens=1000)  
print(output.sequences[0])

caveatEs wird empfohlen, die Hardwarekonfiguration zu optimieren oder die Methode der Lehrerführung (teacher prompting) zu verwenden.

Funktion 4: Datensätze und Sekundärentwicklung

Abrufen des DatensatzesDownload des OpenGenome2-Datensatzes (im FASTA- oder JSONL-Format) von Hugging Face.
Maßgeschneiderte AusbildungModifizierung der Modellarchitektur oder Feinabstimmung der Parameter auf der Grundlage des Savanna-Rahmens für spezifische Forschungsanforderungen.

Tipps und Vorsichtsmaßnahmen zur Bedienung

Multi-GPU-KonfigurationWenn Sie ein 40B-Modell verwenden, müssen Sie sicherstellen, dass Vortex mehrere GPUs korrekt erkennt, indem Sie die Option nvidia-smi Prüfen Sie die Ressourcenzuweisung.
Leistungsoptimierung: Lange Sequenzverarbeitung reduziert temperature Werte, um den Berechnungsaufwand zu verringern.
Unterstützung der GemeinschaftFragen können an das GitHub Issues Board gerichtet werden, wo das Arc Institute Team und die Community für Hilfe zur Verfügung stehen.

Mit diesen Schritten können Sie mit Evo 2 sofort loslegen, egal ob Sie DNA-Sequenzen generieren oder genetische Varianten analysieren, und das auf effiziente Weise.