Recentemente, o modelo de geração de vídeo de código aberto mochi 1 preview (10B) da GenmoAI, com ação de alta fidelidade e poderosa capacidade de seguir dicas, atualmente suporta a geração de vídeo com resolução de 480p. Hoje, a SiliconCloud, Silicon Flow, ficou on-line com a versão de aceleração de inferência do mochi-1-preview (preço ¥ 2,8/Vídeo), eliminando o limite de implantação para os desenvolvedores, que só precisam chamar facilmente a API ao desenvolver aplicativos, proporcionando uma experiência de usuário mais eficiente. A plataforma também permite que os desenvolvedores comparem e experimentem livremente dezenas de modelos grandes e escolham as melhores práticas para seus aplicativos de IA generativa.
Experiência on-line
https://cloud.siliconflow.cn/playground/text-to-video/17885302647
Documentação da API
https://docs.siliconflow.cn/capabilities/video
Tenha uma ideia da aparência do mochi-1-preview no SiliconCloud após a aceleração da inferência.
Recursos e desempenho do modelo
Com base na arquitetura Asymmetric Diffusion Transformer (AsymmDiT), o mochi 1 é simples e modificável. Em comparação com os principais modelos de código fechado, o mochi 1 é altamente competitivo. O seguimento de dicas e a qualidade do movimento são dois dos recursos mais importantes nos modelos de geração de vídeo.
Dicas a seguirAlinhamento extremamente alto com prompts de texto: o alinhamento extremamente alto com prompts de texto garante que o vídeo gerado reflita com precisão as instruções fornecidas. Isso proporciona ao usuário um controle detalhado sobre os personagens, as configurações e as ações.
Qualidade do movimentoO mochi 1 gera até 5,4 segundos de vídeo a 30 quadros por segundo, com um alto grau de coerência temporal e padrões de movimento realistas. O mochi simula fenômenos físicos, como dinâmica de fluidos, simulação de cabelo e outros fenômenos físicos, e exibe movimentos humanos consistentes e suaves.
Token Factory SiliconCloud
Qwen 2.5 (7B) e mais de 20 outros modelos gratuitos!
Como uma plataforma de serviços em nuvem de modelo grande e único, o SiliconCloud tem o compromisso de fornecer aos desenvolvedores APIs de modelo extremamente rápidas, acessíveis, abrangentes e suaves. Instruct, HunyuanVideo, Marco-o1, fish-speech-1.5, QwQ-32B-Preview, Qwen2.5-Coder-32B-Instruct, Qwen2-VL, InternVL2, Qwen2.5-7B/14B/32B/ 72B, FLUX.1, InternLM2.5-20B-Chat, BCE, BGE, SenseVoice-Small, GLM-4-9B-Chat e dezenas de modelos de linguagem grandes de código aberto, modelos de geração de imagem/vídeo, modelos de fala, modelos de código/matemáticos e modelos de vetor e reordenação.
Entre elas, Qwen2.5 (7B), Llama3.1 (8B) e outras APIs de modelos grandes são de uso gratuito, para que os desenvolvedores e gerentes de produtos não precisem se preocupar com o custo aritmético da fase de pesquisa e desenvolvimento e com a promoção em larga escala, e para alcançar a "liberdade de token".