이미지 생성 모델 CogView4, 오픈 소스로 공개!

39.1K 00

중국 고전 예술과 현대적 요소가 융합된 이 이미지는 북송 시대 화가 왕시맹의 '천리의 강과 산'에서 영감을 받았습니다. 이 이미지는 녹색 풍경 기법으로 구릉과 광활한 강, 풍부한 색채와 정교한 디테일을 표현한 웅장한 풍경 두루마리를 보여줍니다. 이 그림 같은 풍경 위에 강하고 힘 있는 글꼴로 'CogView4'라는 붓글씨가 은은하게 나타나며, 마치 고대 문인이 풍경을 감상하며 즉흥적으로 붓으로 그린 것처럼 먹의 농담이 적절하게 표현되어 있습니다. "CogView4"라는 글씨는 주변 풍경과 조화를 이루며 너무 갑작스럽거나 조화롭지 않고 오히려 시공간을 넘나드는 대화감을 더합니다. 전체 그림은 고전적인 풍경의 풍미를 가지고 있지만 현대 기술의 요소를 통합하여 독특한 예술적 긴장감을 선사하여 사람들이 전통적인 미학을 감상하는 동시에 현대 창의성의 충돌과 융합을 느낄 수 있도록 합니다.

오늘 저희는 최신 이미지 생성 모델인 CogView4를 공식 출시하고 오픈소스로 공개했습니다.

이 모델은 강력한 복잡한 의미 정렬 및 명령 팔로잉 기능을 갖추고 있으며, 임의 길이의 이중 언어 입력을 지원하고, 주어진 범위 내에서 임의의 해상도의 이미지를 생성하며, 강력한 텍스트 생성 기능을 갖추고 있습니다. 이 모델은 Apache 2.0 프로토콜에 따라 오픈 소스화된 최초의 이미지 생성 모델이기도 합니다.

I. 평가

DPG-Bench(밀도 높은 프롬프트 그래프 벤치마크)는 텍스트-이미지 생성 모델을 평가하기 위한 벤치마크 테스트로, 복잡한 의미 정렬 및 명령어 추종 기능 측면에서 모델의 성능에 중점을 둡니다.

DPG-Bench 벤치마크에서 종합 점수 1위를 기록하고 오픈 소스 Vincennes 그래픽 모델에서 SOTA를 달성한 CogView4-6B.

II. 임의 길이 및 임의 해상도

CogView4 모델은 임의의 길이의 텍스트 설명과 임의의 해상도의 이미지로 구성된 하이브리드 학습 패러다임을 구현합니다.

1, 이미지 위치 코딩

CogView4는 2D 회전 위치 인코딩(2D RoPE)을 사용하여 이미지의 위치 정보를 모델링하고 위치 인코딩을 보간하여 다양한 해상도에서 이미지 생성 작업을 지원합니다.

2. 확산 생성 모델링

이 모델은 다양한 해상도 이미지의 신호 대 노이즈 비율 요구 사항을 수용하기 위해 파라메트릭 선형 동적 노이즈 계획과 결합된 확산 생성을 위한 플로우 매칭 방식을 사용하여 모델링됩니다.

3, 아키텍처 디자인

DiT 모델 아키텍처 측면에서 CogView4는 이전 모델의 공유 매개변수 DiT 아키텍처를 이어받아 텍스트 및 이미지 모달리티를 위한 독립적인 적응형 LayerNorm 레이어를 별도로 설계하여 효율적인 모달리티 간 적응을 달성합니다.

4. 다단계 교육

CogView4는 기본 해상도 훈련, 팬 해상도 훈련, 고품질 데이터 미세 조정 및 사람 선호도 정렬 훈련을 포함하는 다단계 훈련 전략을 사용합니다. 이러한 단계적 훈련 접근 방식은 광범위한 이미지 분포를 포괄할 뿐만 아니라 생성된 이미지가 미적으로 매우 만족스럽고 사람의 선호도에 맞게 정렬되도록 보장합니다.

5. 교육 프레임워크 최적화

텍스트 관점에서 보면, CogView4는 더 높은 토큰 상한선을 허용하고 학습 중 텍스트 토큰 중복을 크게 줄임으로써 기존의 고정 토큰 길이 제한을 극복합니다. 훈련 캡션의 평균 길이가 200-300 토큰 범위인 경우, CogView4는 고정 512 토큰을 사용하는 기존 방식에 비해 토큰 중복성을 약 50% 줄이고 모델의 점진적 훈련 단계에서 5%-30%의 효율성 향상을 달성합니다.

이미지 관점에서 혼합 해상도 학습을 사용하면 모델이 광범위한 범위에서 임의의 해상도 생성을 지원할 수 있으므로 창작의 자유도가 크게 향상됩니다. 목표 해상도는 다음 조건만 충족하면 됩니다:

이 두 가지 모두 창작의 자유를 크게 높일 수 있습니다.

예: 매우 긴 스토리(4컷 만화)

네 개의 장면이 포함된 네 컷 만화 그림을 만화책의 애니메이션 일러스트레이션 스타일로 생성해 주세요. 등장하는 주요 캐릭터는 다음과 같습니다: 샤오밍: 용감한 마음을 가진 인간 소년으로 검을 들고 단순한 전사 의상을 입고 있습니다.

공주: 아름답고 우아한 인간 여성으로, 화려한 공주 의상을 입고 괴물의 소굴에 갇혀 있습니다.

왕: 장엄하고 자애로운 인간 남성으로, 화려한 왕복을 입고 왕국의 왕좌에 앉아 있는 위엄 있는 모습입니다.

화염 드래곤: 불꽃 같은 비늘로 덮여 있고, 화염을 내뿜는 거대한 크기의 괴물입니다.

어둠의 군주: 거대한 몸집에 어둠에 가려진 괴물로, 강력한 마법력을 지니고 있습니다.

장면 1: 샤오밍이 여행을 떠나다

웅장한 왕국 안뜰을 배경으로 애니메이션 스타일의 장면을 만들어 보세요. 이 장면의 주인공은 용감한 마음을 가진 인간 소년 코토미네(검을 들고 간단한 전사 의상을 입은 소년)로, 여행을 떠나는 포즈를 취하고 있습니다. 안뜰의 꽃과 멀리 보이는 성의 디테일과 함께 아침 햇살의 빛이 용기와 결단력을 전달합니다. 품질: 걸작, 최고 품질, 매우 디테일, 4K

장면 2: 밍이 화염룡을 물리치다

불타는 분화구를 배경으로 애니메이션 스타일의 장면을 만들어 보세요. 이 장면의 주인공은 불타는 용을 물리치고 승리의 순간에 있는 용감한 마음을 가진 인간 소년 코토미네(검을 들고 단순한 전사 의상을 입은 소년)입니다. 분화구의 바위와 용암이 디테일하게 표현되어 있으며, 불타는 붉은 조명은 맹렬함과 용기를 전달합니다. 품질: 걸작, 최고 품질, 매우 디테일, 4K

장면 3: 밍이 어둠의 군주와 싸우다!

그림자가 드리워진 괴물의 은신처를 배경으로 애니메이션 스타일의 장면을 만들어 보세요. 이 장면의 주인공은 다크로드와 치열한 전투를 벌이고 있는 용감한 마음과 검을 손에 들고 단순한 전사 의상을 입은 인간 소년 밍(Ming)입니다. 은신처의 어둠과 마법의 에너지가 디테일하게 표현되어 있으며, 우울한 조명이 강렬함과 긴장감을 전달합니다. 화질: 걸작, 최고 화질, 매우 디테일, 4K

장면 4: 밍이 공주를 구출하다

버려진 성의 내부를 배경으로 애니메이션 스타일의 장면을 만들어 보세요. 이 장면의 주인공은 밍(용감한 마음을 가진 인간 소년으로 검을 들고 단순한 전사 의상을 입은)과 공주(아름답고 우아한 인간 여성으로 화려한 공주 의상을 입은)로, 밍이 공주를 구하는 가슴 따뜻한 장면에 등장합니다. 성 내부 폐허의 디테일과 은은한 조명이 감동과 구원을 전달합니다. 화질: 걸작, 최고 화질, 매우 디테일, 4K

C. 중국어 및 영어 지원

기술적 구현 측면에서 CogView4는 텍스트 인코더를 영어 전용 T5 인코더에서 이중 언어 GLM-4 인코더로 전환하고 이중 언어 그래픽 쌍으로 학습하여 CogView4 모델이 이중 언어 프롬프트 단어를 입력할 수 있도록 합니다.

지금까지 CogView4는 이중 언어 단서 단어 입력을 지원하는 최초의 오픈 소스 텍스트 생성 그래픽 모델로, 특히 중국어 단서를 이해하고 따르고 화면에 한자를 생성하는 데 능숙합니다. 이 두 가지 기능은 국내 광고, 짧은 동영상 및 기타 분야의 다양한 크리에이티브 요구에 더 적합합니다.

이 이미지는 펑크에서 영감을 받은 밝고 강렬한 색상의 벽을 보여줍니다. 짙은 검은색으로 덮인 벽은 반항과 자유의 정신을 반영하는 날카로운 선, 리벳, 반짝이는 금속 스티커 등 밝은 색상의 그래피티로 여러 겹으로 덮여 있습니다. 벽 중앙에는 대담한 흰색 스프레이 페인트로 가장자리가 닳고 튄 대담한 레터링으로 "CogView-4"가 대담하게 쓰여 있어 거친 거리 예술의 미학을 더합니다. "CogView-4" 아래에는 같은 흰색 스프레이 페인트로 위와 같은 스타일이지만 약간 더 작은 크기로 "Unbroken, Unreliant"라는 단어가 적혀 있어 시각적인 위계감을 더합니다. 이 네 단어 주변에는 별, 해골, 화염과 같은 작은 그래피티 기호가 있어 펑크 문화의 상징적인 요소를 더욱 강조합니다. 벽의 배경에는 균열과 벗겨진 페인트가 희미하게 보이는데, 이는 세월의 흔적과 끊임없는 변화의 힘을 암시합니다. 전체 그림은 펑크 문화의 반항적인 정신과 혁신적인 아이디어를 완벽하게 해석하여 활기와 긴장감으로 가득 차 있습니다.