AI-Austauschkreis

Die KI verändert die Welt!
Wan2.2-Animate - 通义万相开源的动作生成模型

meso- (Chemie)Wan2.2-Animate - Ein generatives Modell zur Handlungserzeugung des Tongyi Wanxiang Open Source

Wan2.2-Animate ist ein Open-Source-Action-Generierungsmodell von Tongyi Wanxiang, das zwei Arten von Action-Imitation und Rollenspiel unterstützt. Benutzer müssen nur ein Charakterbild und ein Referenzvideo eingeben. Das Modell kann die Bewegungen und Ausdrücke des Video-Charakters auf den Bild-Charakter übertragen und dem Bild-Charakter einen dynamischen Ausdruck verleihen...
vor 2 Stunden
0192
InternVLA-A1 - 上海AI Lab开源一体化操作能力的具身大模型

meso- (Chemie)InternVLA-A1 - Shanghai AI Lab Open Source Integration von operativen Fähigkeiten für verkörperte große Modelle

InternVLA-A1 ist ein großes Modell für verkörperte Operationen, das vom Shanghai Artificial Intelligence Laboratory zur Verfügung gestellt wird. Es ist in der Lage, die Integration zu verstehen, sich vorzustellen und auszuführen, und kann die Aufgabe genau erfüllen. Das Modell fusioniert reale und simulierte Betriebsdaten und automatisiert den Bau von massiven multimodalen durch groß angelegte virtuelle-reale Hybrid-Szene Vermögenswerte...
vor 22 Stunden
01.2K
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

meso- (Chemie)VoxCPM - Facing Intelligence und Tsinghua Open Source End-to-End TTS Modell

VoxCPM ist ein Spracherzeugungsmodell, das gemeinsam von Facade Intelligence und der Shenzhen International Graduate School der Tsinghua University entwickelt wurde. VoxCPM verwendet eine autoregressive End-to-End-Diffusionsarchitektur, um kontinuierliche Sprachrepräsentationen direkt aus Text zu erzeugen, und durchbricht damit die Grenzen der traditionellen diskreten Disambiguierung. Durch hierarchische Sprachmodellierung und endliche Zustandsquantisierung...
vor 22 Stunden
02K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

meso- (Chemie)InternVLA-N1 - Shanghai AI Lab Open Source End-to-End Dual System Navigation Großes Modell

InternVLA-N1 ist ein durchgängiges Zweisystem-Navigationsmakromodell, das vom Shanghai Artificial Intelligence Laboratory zur Verfügung gestellt wird. System 2 ist für das Verstehen von Sprachbefehlen und die Planung von Langstreckenpfaden zuständig, während sich System 1 auf Hochfrequenzreaktionen und die agile Hindernisvermeidung konzentriert. Das Modell wird vollständig auf der Grundlage synthetischer Daten durch groß angelegte digitale ...
vor 22 Stunden
01.5K
VLAC - 上海AI Lab开源的具身奖励大模型

meso- (Chemie)VLAC - Das große Open-Source-Modell der verkörperten Belohnungen des Shanghai AI Labs

VLAC ist ein quelloffenes verankertes Belohnungsmakromodell des Shanghai Artificial Intelligence Laboratory. Basierend auf dem multimodalen Makromodell InternVL integriert es Internet-Videodaten und Roboterbetriebsdaten, um Prozessbelohnungen und Aufgabenerledigungsschätzungen für das Verstärkungslernen von Robotern in der realen Welt bereitzustellen....
vor 1 Tag
01.7K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

meso- (Chemie)InternVLA-M1 - Shanghai AI Lab's Open Source Embodied Dual System Operation "Brain"

InternVLA-M1 ist ein Open-Source-"Gehirn" des Shanghaier Labors für künstliche Intelligenz, bei dem es sich um ein großes Zweisystemmodell handelt, das auf die Befolgung von Anweisungen ausgerichtet ist. Es bildet eine vollständige geschlossene Schleife, die "Denken - Handeln - Lernen" umfasst und für räumliches Denken und Aufgabenplanung auf hohem Niveau verantwortlich ist. Das Modell wendet eine zweistufige Trainingspolitik an...
vor 2 Tagen
03.4K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Open Source AI Prompt Word Enhancement Tool

PromptEnhancer ist ein Open-Source-Tool zur Verbesserung von Prompt-Wörtern, das vom Mixed-Meta-Team von Tencent entwickelt wurde, um die Generierung von Text-zu-Bild-Modellen (Text-to-Image, T2I) zu verbessern. Durch die Kette der Argumentation (Chain-of-Thought, CoT) Ansatz für die Verwendung von ...
vor 2 Tagen
03.7K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Yushu Technology Open Source Weltmodell-Aktionsarchitektur

UnifoLM-WMA-0 ist eine quelloffene Weltmodell-Aktions-Architektur über mehrere Klassen von Roboter-Ontologien von Yu Shu Technology, die für allgemeines Roboterlernen entwickelt wurde. Bestehend aus einem Weltmodell und einer Aktionsarchitektur, versteht das Weltmodell die physikalischen Gesetze der Roboter-Umwelt-Interaktion, und die Aktionsarchitektur ist verantwortlich für spezifische...
vor 3 Tagen
04.4K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Open-Source-Tool zur audiogestützten Videoerstellung für Mission Vision AI

InfiniteTalk ist ein vom MeiGen-AI-Team entwickeltes audiogestütztes Videogenerierungstool, das sprechende Videos von unbegrenzter Länge auf der Grundlage des eingegebenen Audios generiert. Der Hauptvorteil ist die präzise Lippensynchronisationstechnologie, die das Audio perfekt mit der Mundform des Charakters abgleicht und so ein natürliches und...
vor 3 Tagen
04.9K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - Open Source Meta-Agent Framework für die automatische Dekomposition komplexer Aufgaben für die Parallelverarbeitung

ROMA (Recursive-Open-Meta-Agent) ist ein Open-Source-Meta-Agent-Framework, das von Sentient AGI entwickelt wurde, um komplexe Probleme durch rekursive Aufgabenzerlegung und Parallelverarbeitung effizient zu lösen. Unterstützt Python 3.12+, Docker und...
vor 3 Tagen
04.5K