fal：为开发者提供富媒体类生成式大模型API服务

71.4K 00

综合介绍

fal是一个在线AI推理平台，可以帮助用户构建实时的AI应用，提供高质量的生成媒体模型，包括图像、视频和音频。无需冷启动，按需付费。fal提供了多种预训练好的生成模型，如Stable Diffusion XL，Stable Diffusion with LoRAs，Optimized Latent Consistency (SDv1.5)等，可以让用户通过简单的文本描述和涂鸦草图来快速生成图片。

fal也支持用户上传自定义模型，或者使用共享模型，拥有细粒度的控制和自动扩缩容的能力。fal支持多种机器类型和规格，如GPU-A100，GPU-A10G，GPU-T4等，可以满足不同的性能和成本需求。fal有详细的文档和示例，可以帮助用户快速上手和使用。

该平台由其专有的 fal 推理引擎驱动，能够以比其他替代方案快 4 倍的速度运行扩散模型，从而实现新的实时 AI 体验。fal.ai 成立于 2021 年，总部位于旧金山，致力于通过优化推理速度和效率，降低创意表达的门槛。

功能列表

高效推理引擎：提供世界上最快的扩散模型推理引擎，推理速度提升至 400%。
多种生成模型：支持多种预训练生成模型，如 Stable Diffusion 3.5 和 FLUX.1。
LoRA 训练：提供业内最佳的 LoRA 训练工具，能够在 5 分钟内个性化或训练新风格。
API 集成：提供 JavaScript、Python 和 Swift 等多种客户端库，方便开发者集成。
实时推理：支持实时生成媒体推理，适用于实时创意工具和相机输入。
成本优化：按使用量付费，确保计算成本效益。

使用帮助

安装与集成

注册账户：访问 fal.ai 并注册一个开发者账户。
获取 API 密钥：登录后，在“API 密钥”页面生成并获取您的 API 密钥。

安装客户端库：

JavaScript：

import { fal } from "@fal-ai/client";
const result = await fal.subscribe("fal-ai/fast-sdxl", {
input: { prompt: "photo of a cat wearing a kimono" },
logs: true,
onQueueUpdate: (update) => {
if (update.status === "IN_PROGRESS") {
update.logs.map((log) => log.message).forEach(console.log);
}
},
});

Python：

from fal import Client
client = Client(api_key="YOUR_API_KEY")
result = client.subscribe("fal-ai/fast-sdxl", input={"prompt": "photo of a cat wearing a kimono"})
print(result)

Swift：

import FalAI
let client = FalClient(apiKey: "YOUR_API_KEY")
client.subscribe(model: "fal-ai/fast-sdxl", input: ["prompt": "photo of a cat wearing a kimono"]) { result in
print(result)
}

使用生成模型

选择模型：在 fal.ai 的模型库中选择适合您的项目的模型，如 Stable Diffusion 3.5 或 FLUX.1。
配置参数：根据项目需求配置模型参数，如推理步数、输入图像大小等。
运行推理：使用 API 调用运行推理，并获取生成的媒体内容。
优化与调整：根据生成结果，调整参数或选择不同的模型进行优化。

LoRA 训练

上传数据：准备好训练数据并上传到 fal.ai 平台。
选择训练模型：选择适合的 LoRA 训练模型，如 FLUX.1。
配置训练参数：设置训练参数，如学习率、训练步数等。
开始训练：启动训练过程，平台会在短时间内完成训练并生成新的风格模型。
应用新模型：使用新训练的模型进行推理，生成个性化的媒体内容。

所有模型都分为调试界面和API两部分，你可以在调试界面中使用没问题在调用API：

fal 可选模型

模型名称	模型简介	模型类别	详细描述
Stable Diffusion with LoRAs	运行任何稳定扩散模型，并自定义LoRA权重	text-to-image	LoRA是一种用于增强图像质量和多样性的技术，可以调节不同的权重来控制生成的图像的风格和细节
Stable Diffusion XL	以光速运行SDXL	text-to-image	SDXL是一种基于扩散模型的图像生成方法，可以在很少的推理步骤内生成高质量的图像，比传统的GAN方法更快更稳定
Stable Cascade	在更小更便宜的潜在空间上进行图像生成	text-to-image	Stable Cascade是一种利用多层潜在空间的图像生成方法，可以在较低的计算成本下生成高分辨率的图像，适合移动设备和边缘计算
Creative Upscaler	创建创意放大的图像	image-to-image	Creative Upscaler是一种用于图像放大的方法，可以在保持图像清晰度的同时，增加一些创意的元素，如纹理，颜色，形状等
CCSR Upscaler	最先进的图像放大器	image-to-image	CCSR Upscaler是一种基于深度学习的图像放大方法，可以在不引入模糊和失真的情况下，将图像放大到原始分辨率的四倍或更高
PhotoMaker	通过堆叠ID嵌入来定制逼真的人物照片	image-to-image	PhotoMaker是一种用于生成人物照片的方法，可以让用户通过调整不同的ID嵌入来控制人物的外貌，表情，姿势，背景等，生成逼真的人物照片
Whisper	Whisper是一个用于语音转录和翻译的模型	speech-to-text	Whisper是一种基于Transformer的端到端的语音识别和翻译模型，可以在一步内将语音转换为不同语言的文本，支持多种语言和方言
Latent Consistency (SDXL & SDv1.5)	用最少的推理步骤生成高质量的图像	text-to-image	Latent Consistency是一种用于提高图像生成效率和质量的技术，可以在更少的推理步骤内生成高质量的图像，同时保持潜在空间的一致性和可解释性
Optimized Latent Consistency (SDv1.5)	用最少的推理步骤生成高质量的图像。针对512×512的输入图像大小进行优化	image-to-image	Optimized Latent Consistency是一种针对特定输入图像大小进行优化的图像生成方法，可以在更少的推理步骤内生成高质量的图像，同时保持潜在空间的一致性和可解释性
Fooocus	使用自动优化和质量改进的默认参数	text-to-image	Fooocus是一种用于生成图像的方法，可以让用户不需要调整任何参数，就可以生成高质量的图像，同时使用自动优化和质量改进的技术来提升生成的效果
InstantID	零样本的身份保持生成	image-to-image	InstantID是一种用于生成身份保持的图像的方法，可以让用户在不需要任何训练数据的情况下，生成与原始图像具有相同身份的图像，但是可以改变其他的属性，如发型，服装，背景等
AnimateDiff	用AnimateDiff将您的想法动画化	text-to-video	AnimateDiff是一种用于生成动画的方法，可以让用户通过输入文本描述来生成短视频片段，支持多种风格和主题，如卡通，写实，抽象等
AnimateDiff Video to Video	用AnimateDiff给您的视频添加风格	video-to-video	AnimateDiff Video to Video是一种用于视频风格转换的方法，可以让用户通过输入视频和风格描述来生成新的视频，支持多种风格和主题，如卡通，写实，抽象等
MetaVoice	MetaVoice-1B是一个12亿参数的基础模型，用于TTS（文本到语音），在10万小时的语音上进行训练	text-to-speech	MetaVoice是一种用于生成语音的方法，可以让用户通过输入文本来生成不同语言和声音的语音，支持多种语言和方言，以及多种声音特征，如音调，节奏，情感等
MusicGen	通过文本描述或旋律的提示来创建高质量的音乐	text-to-audio	MusicGen是一种用于生成音乐的方法，可以让用户通过输入文本描述或旋律的提示来生成不同风格和主题的音乐，支持多种乐器和音色，以及多种音乐特征，如节拍，和弦，旋律等
Illusion Diffusion	根据图像创建幻觉	text-to-image	Illusion Diffusion是一种用于生成幻觉的方法，可以让用户通过输入图像和幻觉的描述来生成新的图像，支持多种幻觉的类型，如视觉，听觉，触觉等
Stable Diffusion XL Image to Image	以光速运行SDXL的图像到图像	image-to-image	Stable Diffusion XL Image to Image是一种用于图像到图像的方法，可以让用户通过输入图像来生成新的图像，支持多种图像到图像的任务，如风格转换，超分辨率，图像修复等
Comfy Workflow Executor	在fal中执行Comfy工作流	json-to-image	Comfy Workflow Executor是一种用于执行Comfy工作流的方法，可以让用户通过输入JSON格式的工作流来生成图像，支持多种工作流的组件，如数据，模型，操作，输出等
Segment Anything Model	SAM模型	image-to-image	Segment Anything Model是一种用于图像分割的方法，可以让用户通过输入图像来生成分割图，支持多种图像分割的任务，如语义分割，实例分割，人脸分割等
TinySAM	蒸馏的Segment Anything Model TinySAM	image-to-image	TinySAM是一种用于图像分割的方法，是Segment Anything Model的蒸馏版本，可以在更小的模型大小和更快的推理速度下，达到与原始模型相近的分割效果
Midas Depth Estimation	使用Midas深度估计创建深度图	image-to-image	Midas Depth Estimation是一种用于生成深度图的方法，可以让用户通过输入图像来生成深度图，支持多种深度图的格式，如灰度图，彩色图，伪彩色图等
Remove Background	从图像中移除背景	image-to-image	Remove Background是一种用于移除图像背景的方法，可以让用户通过输入图像来生成去除背景后的图像，支持多种背景类型，如自然景观，室内场景，复杂物体等
Upscale Images	按给定的因子放大图像	image-to-image	Upscale Images是一种用于图像放大的方法，可以让用户通过输入图像和放大因子来生成新的图像，支持多种图像格式，如JPG，PNG，BMP等
ControlNet SDXL	使用ControlNet生成图像	image-to-image	ControlNet SDXL是一种用于生成图像的方法，可以让用户通过输入图像和控制向量来生成新的图像，支持多种控制向量的类型，如风格，颜色，形状等
Inpainting sdxl and sd	使用SD和SDXL修复图像	image-to-image	Inpainting sdxl and sd是一种用于图像修复的方法，可以让用户通过输入图像和掩码来生成修复后的图像，支持多种图像修复的任务，如去除水印，填补空缺，消除噪声等
Animatediff LCM	用潜在一致性模型将您的文本动画化	text-to-image	Animatediff LCM是一种用于生成动画的方法，可以让用户通过输入文本和帧数来生成短视频片段，支持多种潜在一致性模型，如SDXL，SDv1.5，SDv1.0等
Animatediff SparseCtrl LCM	用潜在一致性模型将您的绘图动画化	text-to-video	Animatediff SparseCtrl LCM是一种用于生成动画的方法，可以让用户通过输入绘图和帧数来生成短视频片段，支持多种潜在一致性模型，如SDXL，SDv1.5，SDv1.0等
Controlled Stable Video Diffusion	从您的图像生成短视频片段	image-to-image	Controlled Stable Video Diffusion是一种用于生成视频的方法，可以让用户通过输入图像和控制向量来生成短视频片段，支持多种控制向量的类型，如运动，角度，速度等
Magic Animate	通过运动序列生成短视频片段	image-to-image	Magic Animate是一种用于生成视频的方法，可以让用户通过输入图像和运动序列来生成短视频片段，支持多种运动序列的格式，如文本，图标，手势等
Swap Face	在两个图像之间交换脸部	image-to-image	Swap Face是一种用于交换脸部的方法，可以让用户通过输入两个图像来生成新的图像，支持多种图像的类型，如人物，动物，卡通等
IP Adapter Face ID	高质量的零样本个性化	image-to-image	IP Adapter Face ID是一种用于生成个性化的图像的方法，可以让用户通过输入图像和个性化的描述来生成新的图像，支持多种个性化的类型，如发型，服装，背景等