웹에 불을 붙인 ChatGPT 이미지 생성: 기술 혁신, 저작권 논란, 산술적 비상사태

55.2K 00

OpenAI 은 최근 자사의 첨단 이미지 생성 기술을 ChatGPT이 이니셔티브는 빠르게 사용자들의 열정을 불러일으키고 일련의 파급 효과를 불러일으켰습니다. 이 기능은 강력한 GPT-4o 모델링 기능, 기술 혈통 및 비디오 생성 모델 Sora 와 유사하여 사용자가 익숙한 대화 인터페이스에서 직접 고품질 정지 이미지를 만들 수 있어 사용 편의성이 크게 향상되었습니다.

이 이미지 생성 기능은 모든 ChatGPT 유료 구독자를 포함한 모든 사용자에게 공개(Plus, Pro, Team) 및 무료 사용자를 대상으로 합니다.OpenAI 에 따르면 무료 사용자의 초기 일일 생성량은 약 3배에 달하는 것으로 나타났습니다. DALL·E 이전 전략과 비슷하지만 수요에 따라 동적으로 조정될 예정입니다. 이러한 움직임은 확실히 고품질 AI 이미지 생성의 대중화를 가속화하여 Midjourney 및 기타 유료 서비스 Stable Diffusion 및 기타 오픈소스 모델이 더 넓은 사용자 포털을 놓고 경쟁하고 있습니다.

기술 엔진: 붐을 주도하는 핵심 역량

이러한 통합은 단순히 기능의 나열이 아니라 이미지 생성 기술의 획기적인 발전이 그 이면에 있습니다. 가장 눈에 띄는 것은 오랫동안 AI 이미지 생성을 괴롭혀온 '속성 및 객체 바인딩'(바인딩) 문제를 해결했다는 점입니다. 과거에는 모델이 '파란색 별과 빨간색 삼각형'과 같은 지시를 정확하게 처리하기 어려워 색상과 모양이 혼동되는 경우가 많았습니다. 하지만 OpenAI 연구 책임자 Gabriel Goh 새 모델은 15~20개의 객체와 그 복잡한 관계를 포함하는 명령어를 일관되게 처리할 수 있어 기존 모델의 한계를 훨씬 뛰어넘는다고 설명했습니다.

또 다른 주요 개선 사항은 이미지 내 텍스트 렌더링의 품질입니다. AI는 항상 이미지에서 선명하고 오류 없는 텍스트를 생성하는 데 어려움을 겪어 왔으며, 이는 포스터, 로고 디자인 등 많은 잠재적 응용 분야에 걸림돌이 되어 왔습니다.Goh 수개월에 걸친 최적화 작업 끝에 새로운 모델은 텍스트 렌더링에서 상당히 안정적으로 작동하여 적용 시나리오가 크게 확대되었습니다."라고 회사는 말합니다. 이는 모델에 사용된 '자동 회귀 생성 방법' 덕분인데, 픽셀 단위의 순차적 그리기(예: 왼쪽에서 오른쪽, 위에서 아래로)가 전체 이미지를 한 번에 생성하는 확산 모델보다 세부 사항을 더 잘 제어할 수 있으며 특히 정확한 텍스트 렌더링에 유리합니다.

이러한 발전은 다음을 기반으로 합니다. GPT-4o 이 모델의 옴니모달 핵심은 처음부터 텍스트, 이미지, 오디오 및 비디오를 통합하도록 설계되었습니다. 동시에 이 모델은 광범위한 '세계 지식'을 통합하여 이미지의 논리와 상식을 이해할 수 있도록 합니다. 예를 들면 다음과 같습니다. ChatGPT 멀티모달 제품 소유자 Jackie Shannon 뉴턴의 삼각법 실험 도식이나 캐릭터의 일관성을 유지하는 만화와 같이 물리 법칙 및 배경 지식과 일치하는 이미지를 생성하기 위해 모델을 과도하게 설명할 필요가 없습니다.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

이중의 결과: 성공 뒤에 숨겨진 리소스와 윤리적 과제

이러한 강력한 기능 덕분에 새로운 기능이 출시되자마자 인터넷을 뜨겁게 달구었을 뿐만 아니라 OpenAI 당장 산술적 자원에 대한 막대한 압박과 저작권 윤리에 대한 지속적인 논란이라는 두 가지 주요 과제가 있습니다.

첫째, 리소스 수준입니다. 엄청난 사용자 수요로 인해 OpenAI 의 서버에 과부하가 걸렸습니다. Sam Altman 존재 X 플랫폼은 "GPU가 녹고 있다"는 문구로 이 딜레마를 설명했습니다. 서비스 안정성을 유지하기 위해OpenAI 속도 제한은 긴급하게 시행되어야 했습니다. 이미 높은 수요로 인해 무료 사용자에 대한 전면 개방이 연기된 상황에서 무료 사용자에 대한 제한(하루 3명 내외)이 추가로 확정된 것은 첨단 AI 애플리케이션의 대규모 배포에 따른 산술적 비용과 리소스 병목 현상이 거대 업계에서도 여전히 엄연한 현실이라는 사실을 강조합니다.

둘째, 윤리 및 저작권 측면이 있습니다. 새로운 기능의 강력한 모방 기능은 사용자들에게 빠르게 활용되었고, 일본 애니메이터 미야자키 하야오의 스타일로 만든 이미지가 소셜 미디어에 퍼지면서 열광적인 활동을 촉발시켰습니다.

하지만 이 '귀여운 폭풍'은 금세 저작권의 민감한 레드라인을 건드렸습니다. 바로 하루 뒤였습니다.OpenAI 이 회사는 사용자가 특정 생존 아티스트 스타일, 특히 '미야자키 하야오 스타일'로 이미지를 생성하는 것을 제한하기 시작했으며, 보다 "보수적인" 전략을 채택하고 있다고 공개적으로 밝혔습니다. 대변인은 현재 "개별 생존 아티스트 스타일"의 생성은 금지하고 있지만 "광범위한 스튜디오 스타일" 또는 사망한 아티스트의 스타일은 허용하고 있으며 피드백을 바탕으로 정책을 계속 조정할 것이라고 말했습니다.

이 사건은 제너레이티브 AI의 예술적 모방 능력과 창작자의 권익 보호 사이의 모순을 다시 한 번 전면에 부각시켰습니다. 미야자키 하야오 감독 자신도 인공지능 예술에 대해 "생명 자체에 대한 모욕"이라고 말할 정도로 비판적이었다는 점을 언급할 필요가 있습니다.Studio Ghibli 사건에 직접적으로 대응하지는 않지만 OpenAI 이러한 빠른 반응은 기술 혁신과 기존 예술 생태계를 존중하는 것 사이의 선을 긋는 것이 여전히 업계 전체가 진지하게 직면해야 할 과제임을 보여줍니다.

ChatGPT 图像生成引爆网络：技术突破、版权风波与算力告急

운영 고려 사항 및 향후 전망

과제를 해결하면서OpenAI 새로운 기능의 운영 세부 사항도 설명되어 있습니다. 생성 속도와 관련하여Shannon 현재로서는 다소 느릴 수 있다는 점을 인정하지만, 이는 더 높은 이미지 품질(포함된 지식 포함)을 추구하기 위해 필요한 절충안이라는 점을 강조했습니다.

이미지 추적성 및 소유권 측면에서 생성된 이미지에는 눈에 보이는 워터마크가 추가되지 않지만, 다음 규정을 준수하는 파일에 포함될 것입니다. C2PA 소스를 식별하는 표준 메타데이터, 생성된 이미지를 사용할 수 있는 모든 권한은 사용자에게 있습니다(플랫폼 정책에 따라 달라질 수 있음).

OpenAI 강력한 이미지 생성 기능을 다음에 통합 ChatGPT이 새로운 기술은 AI 애플리케이션의 주류화를 향한 중요한 단계입니다. 그러나 계속되는 산술적 긴장과 저작권 분쟁은 앞으로의 길이 순탄치 않다는 것을 분명히 보여줍니다. 기술이 빠른 속도로 발전하는 동안 자원 소비를 효과적으로 관리하고, 윤리적 경계를 명확히 하며, 모든 당사자의 이해관계의 균형을 맞추는 것이 주요 과제가 될 것입니다. OpenAI 그리고 AI 산업 전반은 앞으로도 계속해서 중심 주제가 될 것입니다.