Introdução geral
O fal é uma plataforma de inferência de IA on-line que ajuda os usuários a criar aplicativos de IA em tempo real com modelos de mídia generativa de alta qualidade, incluindo imagens, vídeo e áudio. O fal fornece uma variedade de modelos generativos pré-treinados, como Stable Diffusion XL, Stable Diffusion with LoRAs, Optimised Latent Consistency (SDv1.5), etc., que permitem aos usuários usar descrições de texto simples e esboços de rabiscos para para gerar imagens rapidamente.
O fal também permite que os usuários façam upload de modelos personalizados ou usem modelos compartilhados, com controle refinado e a capacidade de aumentar e diminuir a escala automaticamente. O fal é compatível com diversos tipos e especificações de máquinas, como GPU-A100, GPU-A10G, GPU-T4 etc., que podem atender a diferentes requisitos de desempenho e custo. O fal tem documentação e exemplos detalhados, que podem ajudar os usuários a começar a usá-lo rapidamente.
Alimentada por seu mecanismo de inferência fal, a plataforma é capaz de executar modelos de difusão até quatro vezes mais rápido do que outras alternativas, permitindo novas experiências de IA em tempo real. A fal.ai, fundada em 2021 e com sede em São Francisco, dedica-se a reduzir as barreiras à expressão criativa, otimizando a velocidade e a eficiência da inferência.
Lista de funções
- Mecanismo de inferência eficienteMotor de inferência de modelo de difusão mais rápido do mundo, com velocidades de inferência de até 400%.
- Modelos de múltiplas geraçõesSuporte a uma variedade de modelos generativos pré-treinados, como o Stable Diffusion 3.5 e o Stable Diffusion 3.5 FLUXO.1.
- Treinamento LoRAOferece a melhor ferramenta de treinamento de LoRA do setor, com a capacidade de personalizar ou treinar um novo estilo em menos de 5 minutos.
- Integração de APIBibliotecas do lado do cliente: Uma variedade de bibliotecas do lado do cliente, como JavaScript, Python e Swift, está disponível para fácil integração pelos desenvolvedores.
- raciocínio on-lineSuporte à geração em tempo real de inferência de mídia para ferramentas criativas em tempo real e entrada de câmera.
- Otimização de custosPagamento por uso para garantir cálculos econômicos.
Usando a Ajuda
Instalação e integração
- registrar uma contaVisite fal.ai e registre-se para obter uma conta de desenvolvedor.
- Obtendo a chave da APIApós fazer login, gere e obtenha sua chave de API na página "Chave de API".
- Instalação de bibliotecas de clientes::
- JavaScript::
importar { fal } de "@fal-ai/client"; const result = await fal.subscribe("fal-ai/fast-sdxl", { input: { prompt: "photo of a cat wearing a kimono" }, logs: true, onQueueUpdate: (update) => { se (update.status === "IN_PROGRESS") { update.logs.map((log) => log.message).forEach(console.log); } }, });
- Python::
from fal import Client client = Client(api_key="YOUR_API_KEY") result = client.subscribe("fal-ai/fast-sdxl", input={"prompt": "photo of a cat wearing a kimono"}) print(result)
- Rápido::
importar FalAI let client = FalClient(apiKey: "YOUR_API_KEY") client.subscribe(model: "fal-ai/fast-sdxl", input: ["prompt": "photo of a cat wearing a kimono"]) { result in print(result) }
- JavaScript::
Uso de modelos generativos
- Selecione o modeloSelecione um modelo da biblioteca de modelos do fal.ai que seja adequado ao seu projeto, como o Stable Diffusion 3.5 ou o FLUX.1.
- Parâmetros de configuraçãoConfigure os parâmetros do modelo, como o número de etapas de inferência, o tamanho da imagem de entrada, etc., de acordo com os requisitos do projeto.
- raciocínio de execuçãoUse chamadas de API para executar a inferência e obter o conteúdo de mídia gerado.
- Otimização e ajusteCom base nos resultados gerados, ajuste os parâmetros ou selecione um modelo diferente para otimização.
Treinamento LoRA
- Carregar dadosPreparar os dados de treinamento e carregá-los na plataforma fal.ai.
- Seleção do modelo de treinamentoSelecione um modelo de treinamento LoRA adequado, como o FLUX.1.
- Configuração dos parâmetros de treinamentoDefinir parâmetros de treinamento, como taxa de aprendizado, número de etapas de treinamento, etc.
- Iniciar o treinamentoIniciar o processo de treinamento e a plataforma concluirá o treinamento e gerará um novo modelo de estilo em um curto período de tempo.
- Aplicação do novo modeloInferência usando modelos recém-treinados para gerar conteúdo de mídia personalizado.
Todos os modelos são divididos em duas partes, a interface de depuração e a API. Você pode usar a interface de depuração sem problemas para chamar a API:
fal Modelos opcionais
Nome do modelo | Introdução ao modelo | Categoria do modelo | Descrição detalhada |
Difusão estável com LoRAs | Execute qualquer modelo de difusão estável com pesos LoRA personalizados | texto para imagem | LoRA é uma técnica usada para aprimorar a qualidade e a diversidade de uma imagem, ajustando pesos diferentes para controlar o estilo e os detalhes da imagem resultante |
Difusão estável XL | Executando o SDXL na velocidade da luz | texto para imagem | O SDXL é um método de geração de imagens baseado em modelo de difusão que gera imagens de alta qualidade em poucas etapas de inferência e é mais rápido e mais estável do que os métodos GAN tradicionais |
Cascata estável | Geração de imagens em espaços potenciais menores e mais baratos | texto para imagem | O Stable Cascade é um método de geração de imagens que utiliza várias camadas de espaço latente para gerar imagens de alta resolução com baixo custo computacional, adequado para dispositivos móveis e computação de ponta |
Creative Upscaler | Criação de imagens ampliadas criativas | imagem a imagem | O Creative Upscaler é um método usado para ampliação de imagens para adicionar elementos criativos, como texturas, cores, formas etc., mantendo a nitidez de uma imagem. |
CCSR Upscaler | Amplificadores de imagem de última geração | imagem a imagem | O CCSR Upscaler é um método de ampliação de imagem baseado em aprendizagem profunda que pode ampliar uma imagem para quatro vezes a resolução original ou mais, sem introduzir desfoque e distorção |
PhotoMaker | Personalize fotos realistas de personagens empilhando inserções de ID | imagem a imagem | O PhotoMaker é um método para gerar fotos de personagens que permite que os usuários controlem a aparência, a expressão, a pose, o plano de fundo etc. do personagem, ajustando diferentes IDs incorporados para gerar fotos de personagens realistas. |
Sussurro | O Whisper é um modelo para transcrição e tradução de fala | conversão de voz em texto | O Whisper é um modelo de tradução e reconhecimento de fala de ponta a ponta baseado no Transformer que converte a fala em texto em diferentes idiomas em uma única etapa, com suporte a vários idiomas e dialetos |
Consistência latente (SDXL e SDv1.5) | Gerar imagens de alta qualidade com etapas mínimas de inferência | texto para imagem | A consistência latente é uma técnica usada para melhorar a eficiência e a qualidade da geração de imagens, produzindo imagens de alta qualidade em menos etapas de inferência e mantendo a consistência espacial latente e a interpretabilidade |
Consistência latente otimizada (SDv1.5) | Gera imagens de alta qualidade com etapas mínimas de inferência. Otimizado para o tamanho de imagem de entrada de 512×512 | imagem a imagem | A consistência latente otimizada é um método de geração de imagens otimizado para um tamanho de imagem de entrada específico para produzir imagens de alta qualidade em menos etapas de inferência, mantendo a consistência e a interpretabilidade do espaço latente |
Fooocus | Use parâmetros padrão para otimização automática e melhoria da qualidade | texto para imagem | O Fooocus é um método de geração de imagens que permite ao usuário produzir imagens de alta qualidade sem ajustar nenhum parâmetro e, ao mesmo tempo, usar técnicas automáticas de otimização e melhoria da qualidade para aprimorar os resultados produzidos |
InstantID | Geração de preservação da identidade com zero amostras | imagem a imagem | O InstantID é um método para gerar imagens com preservação de identidade que permite que os usuários gerem imagens com a mesma identidade da imagem original sem nenhum dado de treinamento, mas com a capacidade de alterar outros atributos, como penteado, roupa, plano de fundo etc. |
AnimateDiff | Anime suas ideias com o AnimateDiff! | texto para vídeo | O AnimateDiff é um método para gerar animações que permite aos usuários gerar clipes de vídeo curtos inserindo uma descrição de texto, com suporte a uma variedade de estilos e temas, como desenho animado, realista, abstrato e muito mais! |
AnimateDiff Vídeo para vídeo | Adicione estilo a seus vídeos com o AnimateDiff | de vídeo para vídeo | O AnimateDiff Video to Video é um método de conversão de estilo de vídeo que permite aos usuários gerar um novo vídeo inserindo um vídeo e uma descrição de estilo, com suporte a uma ampla variedade de estilos e temas, como desenho animado, realista, abstrato e muito mais! |
MetaVoice | O MetaVoice-1B é um modelo básico de 1,2 bilhão de parâmetros para TTS (conversão de texto em fala), treinado em 100.000 horas de fala | conversão de texto em fala | O MetaVoice é um método de geração de fala que permite aos usuários gerar fala em diferentes idiomas e sons inserindo texto, suportando vários idiomas e dialetos, bem como uma variedade de características vocais, como tom, ritmo, emoção etc. |
MusicGen | Crie músicas de alta qualidade com descrições de texto ou dicas melódicas | texto para áudio | O MusicGen é um método de geração de música que permite ao usuário gerar música em diferentes estilos e temas inserindo descrições textuais ou dicas melódicas, suportando uma ampla variedade de instrumentos e timbres, bem como uma variedade de recursos musicais, como batidas, acordes, melodias e muito mais! |
Ilusão Difusão | Criando ilusões a partir de imagens | texto para imagem | O Illusion Diffusion é um método para gerar ilusões que permite que o usuário gere novas imagens inserindo uma imagem e uma descrição da ilusão, oferecendo suporte a muitos tipos de ilusões, como visual, auditiva, tátil e muito mais! |
Difusão estável de imagem XL para imagem | Execute o SDXL imagem a imagem na velocidade da luz | imagem a imagem | O Stable Diffusion XL Image to Image é um método de imagem para imagem que permite ao usuário gerar uma nova imagem a partir de uma imagem de entrada, oferecendo suporte a uma ampla gama de tarefas de imagem para imagem, como conversão de estilo, super-resolução, restauração de imagem e muito mais! |
Confortável Fluxo de trabalho Executor | Execução de fluxos de trabalho confortáveis em fal | json-para-imagem | O Comfy Workflow Executor é um método para executar fluxos de trabalho do Comfy que permite aos usuários gerar imagens inserindo fluxos de trabalho no formato JSON, com suporte para uma variedade de componentes de fluxo de trabalho, como dados, modelos, operações, saídas e muito mais! |
Modelo de qualquer segmento | Modelo SAM | imagem a imagem | O Segment Anything Model é um método para segmentação de imagens que permite ao usuário gerar um mapa de segmentação ao inserir uma imagem, oferecendo suporte a várias tarefas de segmentação de imagens, como segmentação semântica, segmentação de instância, segmentação de rosto etc. |
TinySAM | Modelo de qualquer segmento destilado TinySAM | imagem a imagem | O TinySAM é um método para segmentação de imagens que é uma versão destilada do Segment Anything Model, que pode obter resultados de segmentação semelhantes aos do modelo original com tamanhos de modelo menores e velocidades de inferência mais rápidas |
Estimativa de profundidade do Midas | Criação de mapas de profundidade usando a estimativa de profundidade do Midas | imagem a imagem | O Midas Depth Estimation é um método para gerar mapas de profundidade que permite ao usuário gerar mapas de profundidade a partir de uma imagem de entrada, com suporte para vários formatos de mapas de profundidade, como escala de cinza, cor, pseudo-cor etc. |
Remover plano de fundo | Remover o plano de fundo da imagem | imagem a imagem | Remove Background é um método para remover o plano de fundo de uma imagem, permitindo que o usuário gere uma imagem com plano de fundo removido ao inserir uma imagem, suportando uma variedade de tipos de plano de fundo, como paisagens naturais, cenas internas, objetos complexos etc. |
Imagens de alto nível | Ampliar a imagem em um determinado fator | imagem a imagem | O Upscale Images é um método de ampliação de imagens que permite que o usuário gere uma nova imagem inserindo uma imagem e um fator de zoom, e suporta vários formatos de imagem, como JPG, PNG, BMP, etc. |
ControlNet SDXL | Geração de imagens usando o ControlNet | imagem a imagem | O ControlNet SDXL é um método de geração de imagens que permite ao usuário gerar novas imagens inserindo uma imagem e vetores de controle, com suporte para uma ampla variedade de tipos de vetores de controle, como estilo, cor, forma etc. |
Pintura de sdxl e sd | Reparo de imagens com SD e SDXL | imagem a imagem | O Inpainting sdxl e sd é um método de restauração de imagens que permite ao usuário gerar uma imagem restaurada inserindo uma imagem e uma máscara, oferecendo suporte a uma ampla variedade de tarefas de restauração de imagens, como remoção de marcas d'água, preenchimento de lacunas, remoção de ruído e muito mais! |
Animatediff LCM | Anime seu texto com um modelo de coerência latente | texto para imagem | O Animatediff LCM é um método para gerar animações que permite aos usuários gerar clipes de vídeo curtos inserindo texto e quadros, com suporte para vários modelos de consistência latente, como SDXL, SDv1.5, SDv1.0 etc. |
Animatediff SparseCtrl LCM | Animação de seus desenhos com um modelo de coerência latente | texto para vídeo | O Animatediff SparseCtrl LCM é um método para gerar animações que permite ao usuário gerar clipes de vídeo curtos inserindo desenhos e contagens de quadros, e é compatível com uma ampla variedade de modelos de consistência latente, como SDXL, SDv1.5, SDv1.0 etc. |
Controlado Vídeo estável Difusão | Gerar clipes de vídeo curtos a partir de suas imagens | imagem a imagem | O Controlled Stable Video Diffusion é um método para gerar vídeos que permite aos usuários gerar clipes de vídeo curtos inserindo imagens e vetores de controle, com suporte a vários tipos de vetores de controle, como movimento, ângulo, velocidade etc. |
Animação mágica | Gerar clipes de vídeo curtos a partir de sequências de movimentos | imagem a imagem | O Magic Animate é um método de geração de vídeos que permite aos usuários gerar clipes de vídeo curtos inserindo imagens e sequências de movimento, com suporte a vários formatos de sequência de movimento, como texto, ícones, gestos etc. |
Troca de rosto | Troca de faces entre duas imagens | imagem a imagem | O Swap Face é um método de troca de rostos que permite ao usuário gerar uma nova imagem inserindo duas imagens, com suporte a uma ampla variedade de tipos de imagens, como pessoas, animais, desenhos animados etc. |
Adaptador IP Face ID | Personalização de alta qualidade sem amostra | imagem a imagem | O Face ID do adaptador IP é um método para gerar imagens personalizadas que permite que os usuários gerem novas imagens inserindo uma imagem e uma descrição personalizada, com suporte a uma ampla variedade de tipos de personalização, como penteados, roupas, planos de fundo etc. |