fal: 리치 미디어 클래스 개발자를 위한 제너레이티브 매크로 모델링 API

71.5K 00

일반 소개

fal은 사용자가 이미지, 비디오, 오디오를 포함한 고품질 생성 미디어 모델을 사용하여 실시간 AI 애플리케이션을 구축할 수 있도록 지원하는 온라인 AI 추론 플랫폼입니다. 콜드 스타트가 필요 없는 종량제 방식입니다. fal은 사용자가 간단한 텍스트 설명과 낙서 스케치를 사용하여 이미지를 빠르게 생성할 수 있도록 Stable Diffusion XL, Stable Diffusion with LoRA, Optimised Latent Consistency(SDv1.5) 등 다양한 사전 학습된 생성 모델을 제공합니다. 이미지를 빠르게 생성할 수 있습니다.

fal은 또한 사용자가 사용자 지정 모델을 업로드하거나 공유 모델을 사용할 수 있도록 지원하며, 세밀한 제어와 자동 확장 및 축소 기능을 통해 다양한 성능 및 비용 요구 사항을 충족할 수 있는 GPU-A100, GPU-A10G, GPU-T4 등 다양한 머신 유형과 사양을 지원합니다. fal에는 사용자가 빠르게 시작하고 사용할 수 있는 자세한 문서와 예제가 있습니다.

독점적인 fal 추론 엔진으로 구동되는 이 플랫폼은 다른 대안보다 최대 4배 빠르게 확산 모델을 실행할 수 있어 새로운 실시간 AI 경험을 가능하게 합니다. 2021년에 설립되어 샌프란시스코에 본사를 둔 fal.ai는 추론의 속도와 효율성을 최적화하여 창의적인 표현의 장벽을 낮추는 데 전념하고 있습니다.

기능 목록

효율적인 추론 엔진최대 400%의 추론 속도로 세계에서 가장 빠른 확산 모델 추론 엔진을 제공합니다.
여러 세대 모델안정적인 확산 3.5와 같은 사전 학습된 다양한 제너레이티브 모델을 지원합니다. FLUX.1.
LoRA 교육5분 이내에 새로운 스타일을 개인화하거나 교육할 수 있는 업계 최고의 LoRA 교육 도구를 제공합니다.
API 통합자바스크립트, 파이썬, 스위프트 등 다양한 클라이언트 측 라이브러리를 사용할 수 있어 개발자가 쉽게 통합할 수 있습니다.
온라인 추론실시간 크리에이티브 도구 및 카메라 입력을 위한 미디어 추론의 실시간 생성을 지원합니다.
비용 최적화비용 효율적인 계산을 위한 사용량 기반 결제.

도움말 사용

설치 및 통합

계정 등록하기fal.ai를 방문하여 개발자 계정에 가입하세요.
API 키 가져오기로그인 후 'API 키' 페이지에서 API 키를 생성하고 발급받습니다.

클라이언트 라이브러리 설치::

자바스크립트::

import { fal } from "@fal-ai/client";
const result = await fal.subscribe("fal-ai/fast-sdxl", {
input: { prompt: "photo of a cat wearing a kimono" },
logs: true,
onQueueUpdate: (update) => {
if (update.status === "IN_PROGRESS") {
update.logs.map((log) => log.message).forEach(console.log);
}
},
});

Python::

from fal import Client
client = Client(api_key="YOUR_API_KEY")
result = client.subscribe("fal-ai/fast-sdxl", input={"prompt": "photo of a cat wearing a kimono"})
print(result)

Swift::

import FalAI
let client = FalClient(apiKey: "YOUR_API_KEY")
client.subscribe(model: "fal-ai/fast-sdxl", input: ["prompt": "photo of a cat wearing a kimono"]) { result in
print(result)
}

제너레이티브 모델 사용

모델 선택: fal.ai의 모델 라이브러리에서 프로젝트에 적합한 모델(예: Stable Diffusion 3.5 또는 FLUX.1)을 선택합니다.
구성 매개변수프로젝트 요구 사항에 따라 추론 단계 수, 입력 이미지 크기 등과 같은 모델 매개변수를 구성합니다.
추론 실행API 호출을 사용하여 추론을 실행하고 생성된 미디어 콘텐츠를 가져옵니다.
최적화 및 조정생성된 결과에 따라 매개변수를 조정하거나 최적화를 위해 다른 모델을 선택합니다.

LoRA 교육

데이터 업로드학습 데이터를 준비하여 fal.ai 플랫폼에 업로드합니다.
학습 모델 선택FLUX.1과 같은 적합한 LoRA 교육 모델을 선택합니다.
교육 매개변수 구성학습 속도, 학습 단계 수 등과 같은 학습 매개변수를 설정합니다.
교육 시작트레이닝 프로세스를 시작하면 플랫폼이 트레이닝을 완료하고 단기간에 새로운 스타일 모델을 생성합니다.
새 모델 적용: 새로 학습된 모델을 사용하여 개인화된 미디어 콘텐츠를 생성하는 추론.

모든 모델은 디버깅 인터페이스와 API 두 부분으로 나뉘며, 디버깅 인터페이스에서 API 호출에 문제없이 사용할 수 있습니다:

fal 옵션 모델

모델 이름	모델 소개	모델 카테고리	자세한 설명
LoRA를 통한 안정적인 확산	커스텀 LoRA 가중치로 안정적인 확산 모델을 실행하세요.	텍스트-이미지 변환	LoRA는 다양한 가중치를 조정하여 결과 이미지의 스타일과 디테일을 제어함으로써 이미지의 품질과 다양성을 향상시키는 데 사용되는 기술입니다.
안정적인 확산 XL	빛의 속도로 SDXL 실행	텍스트-이미지 변환	SDXL은 확산 모델 기반 이미지 생성 방식으로, 몇 번의 추론 단계만으로 고품질 이미지를 생성하며 기존 GAN 방식보다 빠르고 안정적입니다.
안정적인 캐스케이드	더 작고 저렴한 잠재적 공간에서 이미지 생성	텍스트-이미지 변환	스테이블 캐스케이드는 여러 계층의 잠재 공간을 활용하여 낮은 계산 비용으로 고해상도 이미지를 생성하는 이미지 생성 방법으로, 모바일 디바이스 및 엣지 컴퓨팅에 적합합니다.
크리에이티브 업스케일러	창의적인 확대 이미지 만들기	이미지 간 이미지	크리에이티브 업스케일러는 이미지 선명도를 유지하면서 텍스처, 색상, 모양 등 창의적인 요소를 추가하기 위해 이미지를 확대하는 데 사용되는 방법입니다!
CCSR 업스케일러	최첨단 이미지 증폭기	이미지 간 이미지	CCSR 업스케일러는 딥러닝 기반 이미지 확대 방식으로, 흐릿함과 왜곡 없이 이미지를 원본 해상도의 4배 이상으로 확대할 수 있습니다.
포토메이커	ID 임베드를 쌓아 사실적인 캐릭터 사진을 맞춤 설정하세요.	이미지 간 이미지	포토메이커는 캐릭터 사진을 생성하는 방법으로, 사용자가 다양한 아이디 임베딩을 조정하여 캐릭터의 외모, 표정, 포즈, 배경 등을 제어하여 사실적인 캐릭터 사진을 생성할 수 있는 기능입니다.
Whisper	Whisper는 음성 전사 및 번역을 위한 모델입니다.	음성-텍스트 변환	Whisper는 여러 언어와 방언을 지원하는 단 한 번의 단계로 음성을 다양한 언어의 텍스트로 변환하는 엔드투엔드 Transformer 기반 음성 인식 및 번역 모델입니다.
잠재적 일관성(SDXL 및 SDv1.5)	최소한의 추론 단계로 고품질 이미지 생성	텍스트-이미지 변환	잠재적 일관성은 잠재적 공간 일관성과 해석 가능성을 유지하면서 더 적은 추론 단계로 고품질 이미지를 생성하여 이미지 생성의 효율성과 품질을 개선하는 데 사용되는 기술입니다.
잠재 일관성 최적화(SDv1.5)	최소한의 추론 단계로 고품질 이미지를 생성합니다. 512×512의 입력 이미지 크기에 최적화됨	이미지 간 이미지	최적화된 잠재 일관성은 특정 입력 이미지 크기에 최적화된 이미지 생성 방법으로, 잠재 공간 일관성과 해석 가능성을 유지하면서 더 적은 추론 단계로 고품질 이미지를 생성할 수 있습니다.
Fooocus	자동 최적화 및 품질 향상을 위한 기본 매개변수 사용	텍스트-이미지 변환	Fooocus는 사용자가 매개 변수를 조정하지 않고도 고품질 이미지를 생성할 수 있는 이미지 생성 방법으로, 자동 최적화 및 품질 개선 기술을 사용하여 생성된 결과를 향상시킵니다.
InstantID	샘플 없이 신원 보존 생성	이미지 간 이미지	인스턴트ID는 신원 보존 이미지를 생성하는 방법으로, 사용자가 학습 데이터 없이도 원본 이미지와 동일한 신원을 가진 이미지를 생성할 수 있지만 헤어스타일, 의상, 배경 등 다른 속성을 변경할 수 있습니다.
AnimateDiff	AnimateDiff로 아이디어를 애니메이션화하세요!	텍스트-비디오 변환	AnimateDiff는 사용자가 텍스트 설명을 입력하여 짧은 동영상 클립을 생성할 수 있는 애니메이션 생성 방법으로, 만화, 사실적, 추상 등 다양한 스타일과 테마를 지원합니다!
AnimateDiff 비디오 대 비디오	AnimateDiff로 동영상에 스타일 추가하기	비디오 대 비디오	동영상 스타일 변환은 사용자가 동영상과 스타일 설명을 입력하여 새로운 동영상을 생성할 수 있는 동영상 스타일 변환 방법으로, 만화, 사실적, 추상 등 다양한 스타일과 테마를 지원합니다!
메타보이스	메타보이스-1B는 10만 시간의 음성으로 학습된 12억 개의 매개변수 기반 TTS(텍스트 음성 변환) 모델입니다.	텍스트 음성 변환	메타보이스는 사용자가 텍스트를 입력하여 다양한 언어와 소리로 음성을 생성할 수 있는 음성 생성 방식으로, 여러 언어와 방언은 물론 음정, 리듬, 감정 등 다양한 발성 특성을 지원합니다.
MusicGen	텍스트 설명 또는 멜로디 단서가 포함된 고품질 음악 제작	텍스트-오디오 변환	뮤직젠은 사용자가 텍스트 설명이나 멜로디 단서를 입력하여 다양한 스타일과 테마의 음악을 생성할 수 있는 음악 생성 방법으로, 광범위한 악기와 음색은 물론 비트, 코드, 멜로디 등 다양한 음악적 기능을 지원합니다!
일루전 확산	이미지에서 환영 만들기	텍스트-이미지 변환	일루전 디퓨전은 사용자가 이미지와 일루전에 대한 설명을 입력하면 새로운 이미지를 생성할 수 있는 일루전 생성 방법으로 시각, 청각, 촉각 등 다양한 유형의 일루전을 지원합니다!
안정적인 확산 XL 이미지 간 이미지	빛의 속도로 SDXL 이미지 대 이미지를 실행하세요.	이미지 간 이미지	안정적인 확산 XL 이미지 대 이미지는 사용자가 입력 이미지에서 새로운 이미지를 생성할 수 있는 이미지 대 이미지 방식으로 스타일 변환, 초고해상도, 이미지 복원 등 다양한 이미지 대 이미지 작업을 지원합니다!
편안함 워크플로 실행자	FAL에서 컴피 워크플로 실행하기	json-to-이미지	컴피 워크플로우 실행기는 데이터, 모델, 연산, 출력 등 다양한 워크플로우 구성 요소를 지원하며, 사용자가 JSON 형식으로 워크플로우를 입력해 이미지를 생성할 수 있는 컴피 워크플로우 실행 방법입니다!
무엇이든 세그먼트 모델	SAM 모델	이미지 간 이미지	세그먼트 애니씽 모델은 사용자가 이미지를 입력해 세그먼트 맵을 생성할 수 있는 이미지 분할 방법으로, 시맨틱 분할, 인스턴스 분할, 얼굴 분할 등 다양한 이미지 분할 작업을 지원합니다.
TinySAM	증류 세그먼트 애니씽 모델 TinySAM	이미지 간 이미지	TinySAM은 이미지 분할을 위한 방법으로, Segment Anything Model의 증류 버전으로 더 작은 모델 크기와 더 빠른 추론 속도로 원본 모델과 유사한 분할 결과를 얻을 수 있습니다.
마이다스 깊이 추정	마이다스 깊이 추정을 사용하여 깊이 맵 만들기	이미지 간 이미지	마이다스 심도 추정 기능은 사용자가 입력 이미지에서 심도 맵을 생성할 수 있는 심도 맵 생성 방법으로 그레이스케일, 컬러, 유사 컬러 등 다양한 심도 맵 형식을 지원하며, 심도 맵을 생성할 수 있습니다.
배경 제거	이미지에서 배경 제거	이미지 간 이미지	배경 제거는 이미지의 배경을 제거하는 방법으로, 사용자가 이미지를 입력하여 배경이 제거된 이미지를 생성할 수 있으며 자연 풍경, 실내 장면, 복잡한 물체 등 다양한 배경 유형을 지원합니다.
고급 이미지	지정된 비율만큼 이미지 확대	이미지 간 이미지	이미지 확대는 사용자가 이미지와 확대 배율을 입력하면 새로운 이미지를 생성할 수 있는 이미지 확대 방법으로, JPG, PNG, BMP 등 다양한 이미지 형식을 지원합니다.
ControlNet SDXL	컨트롤넷을 사용한 이미지 생성	이미지 간 이미지	컨트롤넷 SDXL은 사용자가 이미지와 제어 벡터를 입력하여 새로운 이미지를 생성할 수 있는 이미지 생성 방법으로 스타일, 색상, 모양 등과 같은 다양한 제어 벡터 유형을 지원합니다.
sdxl 및 sd 페인팅하기	SD 및 SDXL로 이미지 복구	이미지 간 이미지	이미지와 마스크를 입력하면 복원된 이미지를 생성할 수 있는 이미지 복원 방법으로 워터마크 제거, 틈새 채우기, 노이즈 제거 등 다양한 이미지 복원 작업을 지원합니다!
애니디프 LCM	잠재적 일관성 모델로 텍스트에 애니메이션 적용하기	텍스트-이미지 변환	Animatediff LCM은 사용자가 텍스트와 프레임을 입력하여 짧은 동영상 클립을 생성할 수 있는 애니메이션 생성 방법으로, SDXL, SDv1.5, SDv1.0 등과 같은 다양한 잠재적 일관성 모델을 지원합니다.
Animatediff SparseCtrl LCM	잠재적 일관성 모델로 드로잉 애니메이션화하기	텍스트-비디오 변환	Animatediff SparseCtrl LCM은 도면과 프레임 수를 입력해 짧은 동영상 클립을 생성할 수 있는 애니메이션 생성 방법으로, SDXL, SDv1.5, SDv1.0 등 다양한 잠재적 일관성 모델을 지원합니다.
제어 안정적인 비디오 확산	이미지에서 짧은 동영상 클립 생성	이미지 간 이미지	제어 안정 비디오 확산은 사용자가 이미지와 제어 벡터를 입력하여 짧은 비디오 클립을 생성할 수 있는 비디오 생성 방법으로 모션, 각도, 속도 등과 같은 여러 유형의 제어 벡터를 지원합니다.
매직 애니메이트	모션 시퀀스에서 짧은 동영상 클립 생성하기	이미지 간 이미지	매직 애니메이션은 이미지와 모션 시퀀스를 입력하여 짧은 동영상 클립을 생성할 수 있는 동영상 생성 방법으로, 텍스트, 아이콘, 제스처 등 다양한 모션 시퀀스 형식을 지원합니다!
얼굴 바꾸기	두 이미지 간에 얼굴 바꾸기	이미지 간 이미지	스왑 페이스는 두 개의 이미지를 입력해 새로운 이미지를 생성할 수 있는 얼굴 교체 방식으로, 사람, 동물, 만화 등 다양한 이미지 유형을 지원합니다.
IP 어댑터 Face ID	고품질 제로 샘플 개인화	이미지 간 이미지	IP 어댑터 Face ID는 사용자가 이미지와 개인화된 설명을 입력하여 새로운 이미지를 생성할 수 있는 개인화된 이미지를 생성하는 방법으로, 헤어스타일, 의상, 배경 등 다양한 개인화 유형을 지원합니다.