Recentemente, o modelo de geração de vídeo de código aberto mochi 1 preview (10B) da GenmoAI, com ação de alta fidelidade e poderosa capacidade de seguir dicas, atualmente suporta a geração de vídeo com resolução de 480p. Hoje, a SiliconCloud, Silicon Flow, ficou on-line com a versão de aceleração de inferência do mochi-1-preview (preço ¥ 2,8/Vídeo), eliminando o limite de implantação para os desenvolvedores, que só precisam chamar facilmente a API ao desenvolver aplicativos, proporcionando uma experiência de usuário mais eficiente. A plataforma também permite que os desenvolvedores comparem e experimentem livremente dezenas de modelos grandes e escolham as melhores práticas para seus aplicativos de IA generativa.
Experiência on-line
https://cloud.siliconflow.cn/playground/text-to-video/17885302647
Documentação da API
https://docs.siliconflow.cn/capabilities/video
Palavra-chave: Um tomate falando com um rosto
Palavra-chave: Uma mulher de pele clara, vestindo uma jaqueta azul e um chapéu preto com um véu, olha para baixo e para a direita, depois para cima enquanto fala; ela tem cabelos castanhos penteados Uma mulher de pele clara, vestindo uma jaqueta azul e um chapéu preto com véu, olha para baixo e para a direita, depois volta para cima enquanto fala; ela tem cabelos castanhos penteados para cima, sobrancelhas castanhas claras e está usando uma camisa branca de colarinho sob a jaqueta; a câmera permanece parada em seu rosto enquanto ela fala; o O fundo está fora de foco, mas mostra árvores e pessoas com roupas de época; a cena é capturada em uma filmagem real.
Palavra-chave: Um rio límpido e azul-turquesa flui por um cânion rochoso, caindo em cascata sobre uma pequena cachoeira e formando uma piscina de água no fundo. O rio é o foco principal da cena, com suas águas claras refletindo as árvores e rochas ao redor. As paredes do cânion são íngremes e rochosas, com alguma vegetação crescendo nelas. As árvores são em sua maioria pinheiros, com suas agulhas verdes contrastando com as rochas marrons e cinzas. O tom geral da cena é de paz e tranquilidade. O tom geral da cena é de paz e tranquilidade.
Tenha uma ideia da aparência do mochi-1-preview no SiliconCloud após a aceleração da inferência.
Recursos e desempenho do modelo
Com base na arquitetura Asymmetric Diffusion Transformer (AsymmDiT), o mochi 1 é simples e modificável. Em comparação com os principais modelos de código fechado, o mochi 1 é altamente competitivo. O seguimento de dicas e a qualidade do movimento são dois dos recursos mais importantes nos modelos de geração de vídeo.
Dicas a seguirAlinhamento extremamente alto com prompts de texto: o alinhamento extremamente alto com prompts de texto garante que o vídeo gerado reflita com precisão as instruções fornecidas. Isso proporciona ao usuário um controle detalhado sobre os personagens, as configurações e as ações.
Qualidade do movimentoO mochi 1 gera até 5,4 segundos de vídeo a 30 quadros por segundo, com um alto grau de coerência temporal e padrões de movimento realistas. O mochi simula fenômenos físicos, como dinâmica de fluidos, simulação de cabelo e outros fenômenos físicos, e exibe movimentos humanos consistentes e suaves.
Token Factory SiliconCloud
Qwen 2.5 (7B) e mais de 20 outros modelos gratuitos!
Como uma plataforma de serviços em nuvem de modelo grande e único, o SiliconCloud tem o compromisso de fornecer aos desenvolvedores APIs de modelo extremamente rápidas, acessíveis, abrangentes e suaves. Instruct, HunyuanVideo, Marco-o1, fish-speech-1.5, QwQ-32B-Preview, Qwen2.5-Coder-32B-Instruct, Qwen2-VL, InternVL2, Qwen2.5-7B/14B/32B/ 72B, FLUX.1, InternLM2.5-20B-Chat, BCE, BGE, SenseVoice-Small, GLM-4-9B-Chat e dezenas de modelos de linguagem grandes de código aberto, modelos de geração de imagem/vídeo, modelos de fala, modelos de código/matemáticos e modelos de vetor e reordenação.
Entre elas, Qwen2.5 (7B), Llama3.1 (8B) e outras APIs de modelos grandes são de uso gratuito, para que os desenvolvedores e gerentes de produtos não precisem se preocupar com o custo aritmético da fase de pesquisa e desenvolvimento e com a promoção em larga escala, e para alcançar a "liberdade de token".