AI Personal Learning
und praktische Anleitung
Ressource Empfehlung 1

Evo2: ein quelloffenes Bio-AI-Tool zur Unterstützung von Genommodellierung und -design

Allgemeine Einführung

Arc Institute Evo 2 ist ein Open-Source-Projekt, das sich auf die Modellierung und das Design von Genomen konzentriert. Es wurde vom Arc Institute, einer gemeinnützigen Forschungsorganisation mit Sitz in Palo Alto, Kalifornien, USA, entwickelt und in Zusammenarbeit mit Partnern wie NVIDIA gestartet. Das Projekt entwickelt biologisch basierte Modelle, die mit DNA, RNA und Proteinen arbeiten können, und zwar mit Hilfe modernster Deep-Learning-Techniken für prädiktive und generative Aufgaben in den Biowissenschaften. evo 2 wird auf verschiedenen genomischen Daten mit mehr als 9 Billionen Nukleotiden trainiert, hat bis zu 40 Milliarden Parameter und unterstützt Kontextlängen von bis zu 1 Million Basen. Der Code, die Trainingsdaten und die Modellgewichte sind vollständig quelloffen, werden auf GitHub gehostet und wurden entwickelt, um die biotechnologische und medizinische Forschung zu beschleunigen. Sowohl Forscher als auch Entwickler können das Tool nutzen, um die Geheimnisse des Genoms zu erforschen und neue biologische Sequenzen zu entwerfen.

Evo2: ein quelloffenes Bio-AI-Tool zur Unterstützung von Genommodellierung und -design-1


 

Funktionsliste

  • Unterstützt die Genommodellierung in allen Lebensbereichen: ermöglicht die Vorhersage und das Design der Genome von Bakterien, Archaeen und Eukaryoten.
  • Fähigkeit zur Handhabung langer Sequenzen: Handhabung von DNA-Sequenzen mit bis zu 1 Million Basen für Analyseaufgaben in sehr langen Kontexten.
  • DNA-Generierung und -Optimierung: Generierung neuer DNA-Sequenzen mit Annotationen der kodierenden Region auf der Grundlage von Eingabesequenzen oder Hinweisen zu Arten.
  • Vorhersage von Varianteneffekten bei Null-Proben: Vorhersage der biologischen Auswirkungen genetischer Varianten ohne zusätzliches Training, z. B. Effektanalyse von BRCA1-Varianten.
  • Open-Source-Datensätze und -Modelle: Bereitstellung von vortrainierten Modellen und OpenGenome2-Datensätzen zur Unterstützung von Sekundärentwicklung und Forschung.
  • Unterstützung für parallele Berechnungen mit mehreren GPUs: Weisen Sie automatisch mehrere GPU-Ressourcen über das Vortex-Framework zu, um die Effizienz von Berechnungen in großem Maßstab zu verbessern.
  • Integration mit NVIDIA BioNeMo: Nahtloser Zugriff auf die Biocomputing-Plattform von NVIDIA zur Erweiterung von Anwendungsszenarien.
  • Visualisierungs- und Interpretationstools: In Kombination mit dem Interpretive Visualiser von Goodfire werden die vom Modell erkannten biometrischen Merkmale und Muster sichtbar.

 

Hilfe verwenden

Ablauf der Installation

Für die lokale Nutzung von Evo 2 sind bestimmte Computerressourcen und Umgebungskonfigurationen erforderlich. Nachstehend finden Sie die detaillierten Installationsschritte:

1. die Vorbereitung der Umwelt

  • Betriebssystem: Linux (z.B. Ubuntu) oder macOS wird empfohlen, Windows-Benutzer müssen WSL2 installieren.
  • Hardware-VoraussetzungMindestens 1 NVIDIA-GPU (mehrere GPUs werden empfohlen, um das 40B-Modell zu unterstützen) mit mindestens 16 GB Videospeicher (z. B. A100 oder RTX 3090).
  • Software-AbhängigkeitStellen Sie sicher, dass Git, Python 3.8+, PyTorch (mit CUDA-Unterstützung) und pip installiert sind.

2. das Klonen des Code-Repository

Öffnen Sie ein Terminal und führen Sie den folgenden Befehl aus, um den Quellcode von Evo 2 zu erhalten:

git clone --recurse-submodules git@github.com:ArcInstitute/evo2.git
cd evo2

Achtung!--recurse-submodules Stellen Sie sicher, dass alle Untermodule ebenfalls heruntergeladen werden.

3. die Installation von Abhängigkeiten

Führen Sie es im Stammverzeichnis des Projekts aus:

pip install .

Wenn Sie auf Probleme stoßen, versuchen Sie, von Vortex aus zu installieren (siehe GitHub README für Details). Sobald die Installation abgeschlossen ist, führen Sie die Tests aus, um sie zu überprüfen:

python -m evo2.test

Wenn die Ausgabe keine Fehler meldet, war die Installation erfolgreich.

4) Herunterladen von vortrainierten Modellen

Evo 2 ist in verschiedenen Modellversionen erhältlich (z. B. 1B, 7B, 40B Parameter), die von Hugging Face oder GitHub Releases heruntergeladen werden können. Beispiel:

wget https://huggingface.co/arcinstitute/evo2_7b/resolve/main/evo2_7b_base.pt

Legen Sie die Modelldateien zum späteren Laden in einem lokalen Verzeichnis ab.

Wie zu verwenden

Nach der Installation können die Kernfunktionen von Evo 2 über Python-Skripte aufgerufen werden. Nachstehend finden Sie eine detaillierte Beschreibung der wichtigsten Funktionen:

Funktion 1: DNA-Sequenz generieren

Evo 2 kann aus einem eingegebenen DNA-Fragment eine Fortsetzungssequenz erzeugen. Das Verfahren ist wie folgt:

  1. Modelle laden::
    from evo2 importieren Evo2
    model = Evo2('evo2_7b') # mit 7B-Parameter-Modell
    
  2. Eingabeaufforderungen eingeben und generieren::
    prompt = ["ACGT"] # Eingabe Anfangs-DNA-Sequenz
    output = model.generate(prompt_seqs=prompt, n_tokens=400, temperature=1.0, top_k=4)
    print(output.sequences[0]) # Output erzeugt 400 Nukleotidsequenzen
    
  3. Auswertung der ErgebnisseDie erzeugten Sequenzen können für nachgelagerte biologische Analysen verwendet werden, wobei der Temperaturparameter die Stochastizität steuert und top_k den Stichprobenbereich einschränkt.

Funktion 2: Vorhersage der Auswirkungen der Null-Stichprobe-Variante

Das BRCA1-Gen wurde als Beispiel für die Vorhersage der biologischen Auswirkungen von Varianten verwendet:

  1. Daten vorbereitenReferenz- und Variantensequenzen in die Liste einfügen.
  2. Operative Prognosen::
    ref_seqs = ["ATCG..."]  #-Referenzsequenz
    var_seqs = ["ATGG..."]  #-Varianten-Sequenzen
    ref_scores = model.score_sequences(ref_seqs)
    var_scores = model.score_sequences(var_seqs)
    print(f "Referenzwahrscheinlichkeit: {ref_scores}, Variantenwahrscheinlichkeit: {var_scores}")
    
  3. AnalyseVergleich der Unterschiede in den Ergebnissen, um die möglichen Auswirkungen der Varianten auf die Funktion zu beurteilen.

Funktion 3: Verarbeitung langer Sequenzen

Bei sehr langen Sequenzen unterstützt Evo 2 das Laden und Berechnen in Chunks:

  1. Laden großer Modelle::
    model = Evo2('evo2_40b') # erfordert Multi-GPU-Unterstützung
    
  2. Handhabung langer Sequenzen::
    long_seq = "ATCG..." * 100000 # Modellierung einer Sequenz mit 1 Million Basen
    output = model.generate([long_seq], n_tokens=1000)
    print(output.sequences[0])
    
  3. caveatDerzeit kann die Vorwärtsübertragung langer Sequenzen langsam sein, und es wird empfohlen, die Hardwarekonfiguration zu optimieren oder die Methode der Lehrerführung (teacher prompting) zu verwenden.

Funktion 4: Datensätze und Sekundärentwicklung

  • Abrufen des DatensatzesDownload des OpenGenome2-Datensatzes (im FASTA- oder JSONL-Format) von Hugging Face.
  • Maßgeschneiderte AusbildungModifizierung der Modellarchitektur oder Feinabstimmung der Parameter auf der Grundlage des Savanna-Rahmens für spezifische Forschungsanforderungen.

Tipps und Vorsichtsmaßnahmen zur Bedienung

  • Multi-GPU-KonfigurationWenn Sie ein 40B-Modell verwenden, müssen Sie sicherstellen, dass Vortex mehrere GPUs korrekt erkennt, indem Sie die Option nvidia-smi Prüfen Sie die Ressourcenzuweisung.
  • Leistungsoptimierung: Lange Sequenzverarbeitung reduziert Temperatur Werte, um den Berechnungsaufwand zu verringern.
  • Unterstützung der GemeinschaftFragen können an das GitHub Issues Board gerichtet werden, wo das Arc Institute Team und die Community für Hilfe zur Verfügung stehen.

Mit diesen Schritten können Sie mit Evo 2 sofort loslegen, egal ob Sie DNA-Sequenzen generieren oder genetische Varianten analysieren, und das auf effiziente Weise.

Tools herunterladen
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Evo2: ein quelloffenes Bio-AI-Tool zur Unterstützung von Genommodellierung und -design

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)