OpenAI, 최신 이미지 생성 API, gpt-image-1 모델 완전 공개

AI 뉴스4개월 전 업데이트 AI 공유 서클
12.5K 00

OpenAI는 최근 최신 이미지 생성 모델을 발표했습니다. gpt-image-1 API를 통해 개발자와 기업이 공식적으로 사용할 수 있게 되었습니다. 이 모델은 이전에 ChatGPT 이 기능은 ChatGPT에서 사용되어 강력한 이미지 생성 기능으로 사용자들로부터 호평을 받고 있습니다. OpenAI에 따르면 이 기능을 ChatGPT에 통합한 첫 주에 전 세계 사용자들이 7억 개 이상의 이미지를 생성했습니다. 이제 이 기능을 API 형태로 개방함으로써 타사에서도 이 이미지 생성 기능을 자신의 앱과 서비스에 직접 통합할 수 있게 되었습니다.

gpt-image-1 는 텍스트와 이미지를 모두 입력으로 받아들이고 이미지 출력을 생성할 수 있는 네이티브 멀티모달 모델로 설명됩니다. 이 기능을 통해 텍스트 설명을 기반으로 이미지를 생성할 수 있을 뿐만 아니라(텍스트 대 이미지), 사용자가 업로드한 이미지와 텍스트 프롬프트를 기반으로 새로운 이미지를 편집하거나 생성할 수 있으며(이미지 대 이미지), 로컬 수정(인페인팅) 및 텍스트 변환 편집 등의 기능도 지원합니다. 이전 모델인 DALL-E 시리즈와 비교하여gpt-image-1 보다 상세하고 복잡한 명령을 이해하고 실행하는 기능, 특히 이미지의 텍스트를 정확하게 렌더링하는 기능이 향상되어 그래픽과 텍스트의 조합이 필요한 애플리케이션 시나리오(예: 교육 자료, 동화책 삽화)에 유용합니다.

이 모델은 1024x1024, 1024x1536, 1536x1024 픽셀 등 다양한 해상도를 지원하며 최소 가로 및 세로 1024픽셀을 요구합니다. 개발자는 v1/images/generations 이미지 생성 함수에 대한 API 엔드포인트 호출.v1/images/edits 그런 다음 엔드포인트는 이미지 편집에 사용됩니다.

가격 및 액세스 메커니즘

gpt-image-1 API 호출은 토큰 청구 모델과 다른 유형의 토큰을 구분합니다:

  • 텍스트 입력 토큰(프롬프트 단어): 수수료는 백만 토큰당 5.00달러입니다.
  • 이미지 입력 토큰(입력 이미지): 수수료는 백만 토큰당 $10.00입니다.
  • 이미지 출력 토큰(이미지 생성): 수수료는 백만 토큰당 $40.00입니다.

단일 이미지 생성 비용은 이미지의 화질과 크기에 따라 달라집니다. 예를 들어 1024x1024픽셀 이미지를 생성하는 데 드는 비용은 저화질, 중간 품질, 고화질의 경우 각각 약 0.011달러, 0.042달러, 0.167달러입니다. 고해상도 이미지의 비용은 그에 따라 증가합니다.

이미지 품질(사진의) 해상도이미지당 가격
낮음1024x1024$0.011
낮음1024x1536$0.016
낮음1536x1024$0.016
Medium1024x1024$0.042
Medium1024x1536$0.063
Medium1536x1024$0.063
높음1024x1024$0.167
높음1024x1536$0.25
높음1536x1024$0.25

또한 OpenAI는 서비스의 안정성과 공정성을 보장하기 위해 요금 한도를 설정했으며, 이는 여러 계층(계층 1 ~ 계층 5)으로 나뉘며, 각 계층의 사용자에 따라 분당 토큰 처리량(TPM) 및 분당 이미지 처리량(IPM) 처리 한도를 달리합니다. 사용자 API 사용량이 증가하고 수수료가 상승하면 한도는 자동으로 완화됩니다.

계층TPM(분당 토큰)IPM(분당 이미지 수)
무료지원되지 않음-
계층 140,0005
계층 2100,00020
계층 3400,00050
계층 42,000,000150
계층 56,000,000250

gpt-image-1 이 모델은 현재 이미지 API를 통해 전 세계에서 사용할 수 있으며 향후 응답 API를 지원할 예정입니다. 일부 개발자는 모델을 사용하기 전에 조직의 유효성 검사를 완료해야 할 수도 있습니다.

이 모델은 Azure 고객을 위한 Microsoft의 Azure AI Foundry 플랫폼에서도 사용할 수 있으므로 적용 범위와 적용 시나리오가 더욱 확장됩니다.

생태학적 통합 및 애플리케이션 전망

최고 사령관(군) gpt-image-1 API 개방의 주목할 만한 징후 중 하나는 다양한 기존 도구 및 플랫폼과 빠르게 통합되고 있다는 점입니다. 이는 사용자의 일상적인 워크플로우에 고급 AI 기능을 탑재하는 추세가 가속화되고 있음을 보여줍니다.

많은 유명 기업들이 다음을 통합했거나 통합할 계획입니다. gpt-image-1 제품에 통합되어 있습니다:

  • Adobe. 에는 다음 정보가 포함됩니다. 반딧불이 OpenAI의 이미지 생성 기능은 OpenAI 및 Express와 같은 크리에이티브 도구에서 사용할 수 있으므로 크리에이터는 익숙한 도구에서 다양한 생성 스타일을 실험해 볼 수 있습니다.
  • 에어테이블. 기업 마케팅 및 크리에이티브 팀이 캠페인 컨셉, 현지화된 미디어 콘텐츠 등을 생성하는 등 대규모로 자료를 관리하는 데 도움이 되는 모델로 워크플로 관리 기능을 강화하세요.
  • Figma. 디자인 플랫폼 피그마 디자인에 통합되었습니다. gpt-image-1사용자는 간단한 텍스트 프롬프트를 사용하여 이미지를 생성 및 편집하고, 스타일을 조정하고, 개체를 추가/제거하고, 배경을 확장하는 등의 작업을 수행할 수 있습니다.
  • 감마. AI는 사용자가 프레젠테이션과 웹사이트를 제작하는 데 도움이 되는 수많은 이미지를 생성하는 데 매일 사용됩니다. gpt-image-1 차트를 생성하고, 이미지 콘텐츠를 편집하고, 스타일을 표준화하세요.
    OpenAI 开放最新图像生成 API,gpt-image-1 模型全面开放
  • HeyGen. 모델을 통합하여 아바타 생성 및 편집 기능을 개선하고 보다 유연한 사용자 지정 옵션을 제공합니다.
    OpenAI 开放最新图像生成 API,gpt-image-1 模型全面开放
  • OpusClip. AI 썸네일 생성 도구인 OpusClip 썸네일에서는 gpt-image-1 동영상의 콘텐츠 및 제목과 일치하는 YouTube 크리에이터를 위한 맞춤 미리보기 이미지를 생성합니다.
  • Quora. 최고 사령관(군) gpt-image-1 를 기본 이미지 모델로 설정하여 플랫폼 내 수백만 사용자의 이미지 생성 품질을 개선했습니다.
  • Wix. AI 디자인 플랫폼인 윅셀에 통합된 이미지 생성 기능은 사용자가 편집 옵션을 사용하여 아이디어를 디자인으로 전환할 수 있도록 도와줍니다.
  • 포토룸. 를 기준으로 gpt-image-1 온라인 판매자가 고품질의 제품 비주얼을 빠르게 제작할 수 있도록 제품 미용기, 제품 스테이징 및 가상 모델과 같은 AI 도구를 출시했습니다.
  • 놀이터. 이 모델을 사용하여 사용자에게 스타일, 색상 변경, 모델 적용 등 보다 강력한 디자인 편집 기능을 제공할 수 있습니다.

또한 다음이 포함됩니다. CanvaGoDaddyHubSpotInstacart인비디오 다음을 포함한 더 많은 플랫폼에서도 통합을 검토하거나 테스트 중입니다. gpt-image-1 적용 시나리오는 디자인 지원, 로고 제작, 마케팅 자료 제작, 레시피 이미지 생성, 동영상 편집 등 다양한 분야에 걸쳐 있습니다. 이러한 광범위한 협업과 탐색은 AI 이미지 생성 기술이 다양한 산업 분야의 생산성 도구로 더욱 확산되고 있음을 의미합니다.

안전 고려 사항

OpenAI는 다음과 같은 점을 강조합니다.gpt-image-1 이 API는 유해한 이미지의 생성을 제한하도록 설계된 ChatGPT의 4o 모델 이미지 생성과 동일한 보안 보호 장치를 사용합니다. 동시에 생성된 이미지에는 콘텐츠의 출처와 진위 여부를 추적하기 위한 기술 표준인 C2PA 메타데이터가 포함되어 투명성을 개선하고 허위 정보를 방지하는 데 도움이 됩니다. 개발자는 또한 moderation 매개 변수는 콘텐츠 필터링의 감도를 조정합니다(기본값은 auto선택 사항 low).

OpenAI는 기본적으로 고객 API 데이터를 학습에 사용하지 않으며, API를 통해 전달되는 모든 이미지 입력 및 출력은 사용 정책의 적용을 받는다는 정책을 다시 한 번 강조했습니다. Azure 플랫폼에서는 추가적인 Azure AI 콘텐츠 보안 및 남용 모니터링 조치가 적용됩니다.

gpt-image-1 이 API의 출시는 고품질 AI 이미지 생성 기능이 폐쇄적인 애플리케이션에서 더 광범위한 개발자 생태계로 이동하는 것을 의미합니다. 멀티모달 특성, 향상된 성능, 다양한 주류 플랫폼과의 통합은 전문가 수준의 이미지 콘텐츠 제작 문턱을 크게 낮추고 새로운 애플리케이션 모델을 탄생시킬 수 있습니다. 그러나 복잡한 토큰 기반 가격 모델과 속도 제한은 비용 관리와 애플리케이션 확장 측면에서 개발자에게 새로운 고려 사항을 제시하기도 합니다. 앞으로 이 기술이 실제 애플리케이션에 어떻게 적용되고, 최적화되며, 잠재적인 남용 위험을 해결하는지를 관찰하는 것이 진정한 가치를 평가하는 데 있어 핵심이 될 것입니다.

© 저작권 정책

관련 문서

댓글 없음

댓글에 참여하려면 로그인해야 합니다!
지금 로그인
없음
댓글 없음...