LongCat-Flash-Omni - 美团开源的全模态大语言模型

24.1K 00

LongCat-Flash-Omni是什么

LongCat-Flash-Omni 是美团 LongCat 团队发布的开源全模态大语言模型。拥有5600亿参数规模（激活参数270亿），在保持庞大参数量的同时，实现了毫秒级的实时音视频交互能力。模型基于 LongCat-Flash 系列的高效架构设计，创新性地集成了多模态感知模块与语音重建模块，支持文本、图像、视频理解及语音感知与生成等多种模态任务。LongCat-Flash-Omni 在全模态基准测试中达到开源最先进水平（SOTA），在文本、图像、音频、视频等关键单模态任务中均展现出极强的竞争力。采用渐进式早期多模融合训练策略，逐步融入不同模态数据，确保全模态性能强劲且无单模态性能退化。模型支持128K tokens上下文窗口及超8分钟音视频交互，具备多模态长时记忆和多轮对话能力。

LongCat-Flash-Omni的功能特色

多模态交互能力：支持文本、图像、视频理解及语音感知与生成等多种模态任务，能实现复杂场景下的多模态交互。
实时音视频交互：拥有毫秒级的实时音视频交互能力，支持128K tokens上下文窗口及超8分钟音视频交互，具备多模态长时记忆和多轮对话能力。
高效架构设计：基于 LongCat-Flash 系列的高效架构设计，创新性地集成了多模态感知模块与语音重建模块，总参数5600亿（激活参数270亿），在保持庞大参数量的同时，实现低延迟交互。
渐进式多模融合训练：采用渐进式早期多模融合训练策略，逐步融入不同模态数据，确保全模态性能强劲且无单模态性能退化。
开源与社区支持：已在 Hugging Face 和 GitHub 开源，开发者可以自由探索和使用，同时提供网页版体验和移动端App支持，方便用户进行实时交互和功能体验。

LongCat-Flash-Omni的核心优势

全模态覆盖：支持文本、图像、视频和语音等多种模态，是首个在开源领域实现全模态覆盖的大语言模型。
低延迟交互：即便在5600亿参数规模下，仍能实现毫秒级的实时音视频交互，解决了大模型推理延迟的痛点。
强大的单模态性能：在文本、图像、音频和视频等关键单模态任务中均展现出极强的竞争力，达到开源最先进水平（SOTA）。
端到端架构：采用完全端到端的设计，从多模态感知到文本与语音生成一体化，提升了整体效率和性能。
高效训练策略：通过渐进式早期多模融合训练策略，逐步融入不同模态数据，确保全模态性能强劲且无单模态性能退化。

LongCat-Flash-Omni官网是什么

GitHub仓库：https://github.com/meituan-longcat/LongCat-Flash-Omni
HuggingFace模型库：https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
技术论文：https://github.com/meituan-longcat/LongCat-Flash-Omni/blob/main/tech_report.pdf