LPM 1.0 - 蔡浩宇 AI 公司 Anuttacon 推出的视频角色表演生成模型

16.1K 00

LPM 1.0是什么

LPM 1.0（Large Performance Model）是米哈游创始人蔡浩宇创立的AI公司Anuttacon发布的首个视频角色表演生成模型，采用17亿参数扩散Transformer架构，专注于解决AI角色表演中的"三难困境"，同时实现高表现力、实时推理与长时身份稳定性。模型创新性地采用双模型架构：Base LPM负责高质量离线生成，Online LPM则通过蒸馏实现0.35秒延迟的实时流式生成，支持长达45分钟的零身份漂移。LPM 1.0支持全双工音视频对话，能同时处理说话与倾听状态，实现情感、微表情及肢体动作的自然同步，具备零样本泛化能力，适用于写实、动漫、3D游戏及非人类角色等多种风格，目标应用于对话式智能体、虚拟直播及游戏NPC等领域。

LPM 1.0 - 蔡浩宇 AI 公司 Anuttacon 推出的视频角色表演生成模型

LPM 1.0的功能特色

全双工音视频对话表演：支持说话与倾听状态的同时处理，角色能在对话中自然切换，实时生成倾听时的点头、眼神交流等反应，以及说话时的唇形同步和情感表达。
双模型架构设计：包含Base LPM（17B参数，高质量离线生成720P视频）和Online LPM（经蒸馏的因果流式生成器，低延迟实时推理480P），兼顾质量与实时性。
超长时身份稳定性：通过多粒度身份参考机制（表情参考图+多视角身体参考），实现长达45分钟以上的零身份漂移视频生成。
- 多模态统一控制：支持文本提示（动作控制）、音频驱动、图像参考（角色身份）三种驱动方式，可任意组合或单独使用。
- 제로 샘플 일반화 기능：无需针对特定角色微调，即可支持写实、2D动漫、3D游戏及非人类角色（如狮子、狐狸）等多种风格。
- 실시간 스트리밍 생성：Online LPM支持无限时长、低延迟（0.35秒）的实时视频生成，可与ChatGPT、豆包等音频对话模型无缝集成。
- 多样化动作控制：涵盖眼神控制（注视、回避、上下看）、情感强度调节、头部微运动、身体微运动等精细表演动作。

LPM 1.0的核心优势

突破"表演三难困境"：首创性解决了AI角色表演中长期存在的三大矛盾，高表现力、实时推理与长时身份一致性难以兼得的问题，实现了三者的统一。
双模型架构协同：通过Base LPM与Online LPM的分工设计，保证了离线生成的高质量（720P），实现了在线实时推理的低延迟（0.35秒），兼顾视觉质量与交互体验。
超长时身份一致性：采用多粒度身份参考机制，支持长达45分钟以上的连续视频生成，实现零身份漂移，远超市面上大多数视频生成模型的稳定性。
真正的全双工交互：区别于传统单工对话模型，可同时处理说话与倾听状态，在倾听时实时生成点头、眼神交流等反应，在说话时精准同步唇形与情感，交互更加自然真实。
零样本风格泛化：无需针对特定角色进行微调训练，支持写实人像、2D动漫、3D游戏角色乃至非人类生物（如狮子、狐狸）等多种风格的表演生成，大幅降低使用门槛。

LPM 1.0官网是什么

프로젝트 웹사이트：https://large-performance-model.github.io/
arXiv 기술 논문：https://arxiv.org/pdf/2604.07823

使用LPM 1.0的操作步骤

目前仅用于学术交流不对外开放。

LPM 1.0的适用人群

游戏开发者与工作室：适用于需要为游戏创建智能NPC的开发者，可为角色赋予实时对话能力和自然表演，提升游戏沉浸感。
AI应用开发者：专注于构建对话式AI智能体、虚拟助手或客服机器人的开发者，用LPM 1.0为现有音频对话模型（如ChatGPT、豆包）添加视觉表现层。
虚拟主播与内容创作者：从事虚拟直播、短视频创作的个人或MCN机构，可通过该模型快速生成具有情感表达和动作反应的数字人内容。
影视动画制作人员：需要高效生成长时角色表演动画的动画师和制作团队，用45分钟以上的身份稳定性减少重复建模工作。
数字人技术公司：开发数字员工、虚拟品牌代言人或智能客服的企业，可借助实时流式生成能力实现低延迟交互体验。
多风格角色设计师：需要创作写实、2D动漫、3D游戏角色或非人类形象（如动物角色）的概念艺术家，用零样本泛化能力快速验证不同风格的表演效果。

LPM 1.0的常见问题

Q：LPM 1.0是否开源？如何获取？

A：目前LPM 1.0仅用于学术研究交流，模型权重不开源，也不提供商业API。相关论文已发布在arXiv，项目主页提供技术介绍和演示视频。

Q：LPM 1.0支持多长时间的视频生成？

A：通过多粒度身份参考机制，LPM 1.0可实现长达45分钟以上的连续视频生成，且保持零身份漂移。

Q：LPM 1.0的生成延迟是多少？是否支持实时交互？

A：Online LPM支持实时流式生成，延迟仅为0.35秒，可实现无限时长的实时视频生成，适合对话交互场景。

Q：LPM 1.0支持哪些角色风格？

A：具备零样本泛化能力，无需微调即可支持写实人像、2D动漫、3D游戏角色以及非人类形象（如狮子、狐狸等动物角色）。

Q：LPM 1.0如何驱动角色表演？

A：支持三种模态的灵活组合：文本提示（控制动作）、音频驱动（语音或音乐）、图像参考（设定角色身份），可单独使用或任意组合。

Q：LPM 1.0能否与现有的对话模型集成？

A：可以。Online LPM可与ChatGPT、豆包等现有音频对话模型无缝集成，无需重构现有系统即可为虚拟角色添加视觉表现。

Q：LPM 1.0与传统视频生成模型有什么区别？

A：传统模型主要关注画面生成，而LPM 1.0专注于角色的"表演"，即连续的情感表达、动作反应和交互能力，并解决了高表现力、实时推理、长时身份稳定性三者难以兼得的"表演三难困境" 。

최신 AI 리소스

레코드 카페: 원스톱 오디오/비디오 처리 플랫폼|비디오 생성|AI 자막|오디오 추출|음성 텍스트 변환

1 년 전

073.5K

PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

1 년 전

075.4K

J.A.R.V.I.S.：具有上下文感知的智能代码助手，生成和修改代码，多IDE支持

J.A.R.V.I.S.: 상황 인식 지능형 코드 어시스턴트, 코드 생성 및 수정, 다중 ID 지원

최신 AI 리소스 # AI 자바 오픈 소스 프로젝트 # AI 프로그래밍

1 년 전

092.9K

송제너레이션 - 텐센트 AI 랩의 음악 생성 모델

최신 AI 리소스

11개월 전

072.7K

댓글 없음

댓글에 참여하려면 로그인해야 합니다!

지금 로그인

댓글 없음...

LPM 1.0 - 蔡浩宇 AI 公司 Anuttacon 推出的视频角色表演生成模型

LPM 1.0是什么

LPM 1.0的功能特色

LPM 1.0的核心优势

LPM 1.0官网是什么

使用LPM 1.0的操作步骤

LPM 1.0的适用人群

LPM 1.0的常见问题

JoyAI-Image-Edit - 京东探索研究院开源的多模态基础模型

QinyanClaw - 沁言学术推出的学术场景深度优化 AI Agent

관련 문서

레코드 카페: 원스톱 오디오/비디오 처리 플랫폼|비디오 생성|AI 자막|오디오 추출|음성 텍스트 변환

PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

J.A.R.V.I.S.: 상황 인식 지능형 코드 어시스턴트, 코드 생성 및 수정, 다중 ID 지원

송제너레이션 - 텐센트 AI 랩의 음악 생성 모델

댓글 없음

최신 컬렉션

최신 기사

LPM 1.0 - 蔡浩宇 AI 公司 Anuttacon 推出的视频角色表演生成模型

LPM 1.0是什么

LPM 1.0的功能特色

LPM 1.0的核心优势

LPM 1.0官网是什么

使用LPM 1.0的操作步骤

LPM 1.0的适用人群

LPM 1.0的常见问题

JoyAI-Image-Edit - 京东探索研究院开源的多模态基础模型

QinyanClaw - 沁言学术推出的学术场景深度优化 AI Agent

관련 문서

레코드 카페: 원스톱 오디오/비디오 처리 플랫폼|비디오 생성|AI 자막|오디오 추출|음성 텍스트 변환

PhotoDoodle: 텍스트 명령으로 사진에 예술적인 낙서를 추가할 수 있는 AI 도구

J.A.R.V.I.S.: 상황 인식 지능형 코드 어시스턴트, 코드 생성 및 수정, 다중 ID 지원

송제너레이션 - 텐센트 AI 랩의 음악 생성 모델

댓글 없음

선택한 AI 도구

최신 컬렉션

최신 기사