meso- (Chemie)Wan2.2-Animate - Ein generatives Modell zur Handlungserzeugung des Tongyi Wanxiang Open Source
Wan2.2-Animate ist ein Open-Source-Action-Generierungsmodell von Tongyi Wanxiang, das zwei Arten von Action-Imitation und Rollenspiel unterstützt. Benutzer müssen nur ein Charakterbild und ein Referenzvideo eingeben. Das Modell kann die Bewegungen und Ausdrücke des Video-Charakters auf den Bild-Charakter übertragen und dem Bild-Charakter einen dynamischen Ausdruck verleihen...
meso- (Chemie)InternVLA-A1 - Shanghai AI Lab Open Source Integration von operativen Fähigkeiten für verkörperte große Modelle
InternVLA-A1 ist ein großes Modell für verkörperte Operationen, das vom Shanghai Artificial Intelligence Laboratory zur Verfügung gestellt wird. Es ist in der Lage, die Integration zu verstehen, sich vorzustellen und auszuführen, und kann die Aufgabe genau erfüllen. Das Modell fusioniert reale und simulierte Betriebsdaten und automatisiert den Bau von massiven multimodalen durch groß angelegte virtuelle-reale Hybrid-Szene Vermögenswerte...
meso- (Chemie)VoxCPM - Facing Intelligence und Tsinghua Open Source End-to-End TTS Modell
VoxCPM ist ein Spracherzeugungsmodell, das gemeinsam von Facade Intelligence und der Shenzhen International Graduate School der Tsinghua University entwickelt wurde. VoxCPM verwendet eine autoregressive End-to-End-Diffusionsarchitektur, um kontinuierliche Sprachrepräsentationen direkt aus Text zu erzeugen, und durchbricht damit die Grenzen der traditionellen diskreten Disambiguierung. Durch hierarchische Sprachmodellierung und endliche Zustandsquantisierung...
meso- (Chemie)InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Großes Modell
InternVLA-N1 ist ein durchgängiges Zweisystem-Navigationsmakromodell, das vom Shanghai Artificial Intelligence Laboratory zur Verfügung gestellt wird. System 2 ist für das Verstehen von Sprachbefehlen und die Planung von Langstreckenpfaden zuständig, während sich System 1 auf Hochfrequenzreaktionen und die agile Hindernisvermeidung konzentriert. Das Modell wird vollständig auf der Grundlage synthetischer Daten durch groß angelegte digitale ...
meso- (Chemie)VLAC - Das große Open-Source-Modell der verkörperten Belohnungen des Shanghai AI Labs
VLAC ist ein quelloffenes verankertes Belohnungsmakromodell des Shanghai Artificial Intelligence Laboratory. Basierend auf dem multimodalen Makromodell InternVL integriert es Internet-Videodaten und Roboterbetriebsdaten, um Prozessbelohnungen und Aufgabenerledigungsschätzungen für das Verstärkungslernen von Robotern in der realen Welt bereitzustellen....
meso- (Chemie)InternVLA-M1 - Shanghai AI Lab's Open Source Embodied Dual System Operation "Brain"
InternVLA-M1 ist ein Open-Source-"Gehirn" des Shanghaier Labors für künstliche Intelligenz, bei dem es sich um ein großes Zweisystemmodell handelt, das auf die Befolgung von Anweisungen ausgerichtet ist. Es bildet eine vollständige geschlossene Schleife, die "Denken - Handeln - Lernen" umfasst und für räumliches Denken und Aufgabenplanung auf hohem Niveau verantwortlich ist. Das Modell wendet eine zweistufige Trainingspolitik an...
PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool
PromptEnhancer ist ein Open-Source-Tool zur Verbesserung von Prompt-Wörtern, das vom Mixed-Meta-Team von Tencent entwickelt wurde, um die Generierung von Text-zu-Bild-Modellen (Text-to-Image, T2I) zu verbessern. Durch die Kette der Argumentation (Chain-of-Thought, CoT) Ansatz für die Verwendung von ...
UnifoLM-WMA-0 - Yushu Technology Open Source Weltmodell-Aktionsarchitektur
UnifoLM-WMA-0 ist eine quelloffene Weltmodell-Aktions-Architektur über mehrere Klassen von Roboter-Ontologien von Yu Shu Technology, die für allgemeines Roboterlernen entwickelt wurde. Bestehend aus einem Weltmodell und einer Aktionsarchitektur, versteht das Weltmodell die physikalischen Gesetze der Roboter-Umwelt-Interaktion, und die Aktionsarchitektur ist verantwortlich für spezifische...
InfiniteTalk - Open-Source-Tool zur audiogestützten Videoerstellung für Mission Vision AI
InfiniteTalk ist ein vom MeiGen-AI-Team entwickeltes audiogestütztes Videogenerierungstool, das sprechende Videos von unbegrenzter Länge auf der Grundlage des eingegebenen Audios generiert. Der Hauptvorteil ist die präzise Lippensynchronisationstechnologie, die das Audio perfekt mit der Mundform des Charakters abgleicht und so ein natürliches und...
ROMA - Open Source Meta-Agent Framework für die automatische Dekomposition komplexer Aufgaben für die Parallelverarbeitung
ROMA (Recursive-Open-Meta-Agent) ist ein Open-Source-Meta-Agent-Framework, das von Sentient AGI entwickelt wurde, um komplexe Probleme durch rekursive Aufgabenzerlegung und Parallelverarbeitung effizient zu lösen. Unterstützt Python 3.12+, Docker und...