인셉션 랩, 최초의 상용 등급 확산 빅 언어 모델 출시

26.7K 00

Inception Labs는 기존 LLM보다 최대 10배 빠르고 저렴한 확산형 대규모 언어 모델(dLLM)인 Mercury 제품군을 출시하여 언어 모델링의 지능과 속도를 새로운 지평으로 끌어올렸습니다.

센터

Inception Labs는 새로운 세대의 LLM의 탄생을 알리고 새로운 차원의 빠르고 고품질의 텍스트 생성 기술을 예고하는 확산형 대규모 언어 모델(dLLM)인 Mercury 제품군의 출시를 발표했습니다.
Mercury는 현재 속도에 최적화된 LLM보다 10배 더 빠릅니다. 이전에는 커스텀 칩으로만 가능했던 초당 1,000개 이상의 토큰을 처리할 수 있는 속도로 NVIDIA H100 GPU에서 Mercury 모델이 실행됩니다.
코드 생성 모델 머큐리 코더 지금 놀이터 플랫폼 오픈 베타에서는 API 및 기본 배포를 통해 엔터프라이즈 고객을 위한 코드 모델 및 일반 모델에 액세스할 수 있습니다.

인셉션 랩의 비전 - 차세대 LLM의 역량을 강화하는 확산

현재 대규모 언어 모델(LLM)은 일반적으로 자동 회귀 모델을 사용하는데, 이는 사람이 글을 쓰는 것처럼 왼쪽에서 오른쪽으로 한 줄씩 작성하는 것을 의미합니다. 토큰 텍스트 생성. 이 생성은 본질적으로 직렬적이어서 이전 토큰이 생성되어야 후속 토큰이 생성될 수 있으며, 생성된 각 토큰은 수십억 개의 매개변수가 있는 신경망을 평가해야 합니다. 업계를 선도하는 LLM 회사들은 모델의 추론 및 오류 수정 기능을 개선하기 위해 추론 시간 계산을 늘리는 데 투자하고 있지만, 추론 프로세스가 길어지면 추론 비용이 급증하고 지연 시간이 늘어나 궁극적으로 제품 사용이 어려워지고 있습니다. 고품질의 AI 솔루션을 진정으로 보편화하기 위해서는 패러다임의 전환이 필수적입니다.

확산 모델은 이러한 패러다임 전환의 가능성을 제공합니다. 이러한 모델은 "거친 것에서 미세한 것으로" 생성 프로세스를 사용합니다. 비디오에서 볼 수 있듯이 모델의 출력은 순수한 노이즈로 시작하여 여러 "노이즈 제거" 단계를 거쳐 점진적으로 최적화됩니다.

자동 회귀 모델과 달리 확산 모델은 이전에 출력된 것만 고려해야 한다는 제약이 없습니다. 따라서 응답을 추론하고 구조화하는 데 더 효과적입니다. 또한 확산 모델은 지속적으로 출력을 최적화할 수 있기 때문에 오류를 효과적으로 수정하고 착시를 줄일 수 있습니다. 이러한 장점에 기반하여 확산 모델은 현재 비디오, 이미지, 오디오 생성 분야에서 뛰어난 성능을 자랑하는 많은 AI 솔루션의 핵심 동력이 되고 있으며, 그 예로 Sora, Midjourney, Riffusion 등을 들 수 있습니다. 하지만 텍스트나 코드와 같은 불연속 데이터에 확산 모델을 적용하려는 시도는 지금까지 단 한 번도 성공하지 못했습니다. Mercury가 나오기 전까지는 이러한 상황이 완전히 깨졌습니다.

머큐리 코더 - 초당 1000개 이상의 토큰, 최첨단 인텔리전스를 손끝에서!

인셉션 랩은 최초의 공개용 dLLM인 머큐리 코더의 출시를 발표하게 되어 기쁘게 생각합니다.

머큐리 코더는 AI 기능의 한계를 뛰어넘는 제품으로, 현 세대 LLM보다 5~10배 빠르며 훨씬 저렴한 비용으로 고품질 응답을 제공합니다. 머큐리 코더는 이미지 확산 모델을 개척했을 뿐만 아니라 직접 선호도 최적화(DPO), 플래시 주의, 결정 변환기 등 여러 핵심 생성 AI를 공동 개발한 Inception Labs의 창립 팀의 획기적인 연구 결과물입니다. 머큐리 코더는 이미지 확산 모델을 개척했을 뿐만 아니라 직접 선호도 최적화(DPO), 플래시 어텐션, 디시전 트랜스포머 등 여러 핵심 생성 AI 기술을 공동 개발한 Inception Labs 창립팀의 획기적인 연구 결과물입니다.

dLLM은 기존의 자동 회귀 LLM을 직접 대체하여 사용할 수 있으며 RAG(검색 증강 생성), 도구 사용 및 에이전트 워크플로우를 포함한 모든 애플리케이션 시나리오를 지원합니다. dLLM은 사용자 쿼리가 수신될 때 토큰 단위로 답변을 생성하지 않습니다. 사용자 쿼리를 수신할 때 dLLM은 토큰별로 답변을 생성하지 않고 위의 애니메이션과 같이 거칠게 세분화된 방식으로 답변을 생성합니다. 대량의 데이터로 학습된 트랜스포머 모델(Mercury Coder에 사용)은 여러 토큰을 병렬로 수정하여 결과를 지속적으로 개선하면서 전체적으로 답변의 품질을 최적화할 수 있습니다. Transformer 모델(Mercury Coder에 사용)은 대량의 데이터로 학습되어 전 세계적으로 답변 품질을 최적화하고 여러 토큰을 병렬로 수정하여 결과를 지속적으로 개선할 수 있습니다.

머큐리 코더는 코드 생성에 최적화된 dLLM으로, 표준 코드 벤치마크 리뷰에서 머큐리 코더는 다양한 벤치마크에서 뛰어난 성능을 발휘하며 종종 GPT-4o Mini와 [...]를 능가합니다. Claude 3.5 하이쿠와 같은 속도에 최적화된 자동 회귀 모델도 최대 10배 더 빠릅니다.

dLLM의 독특한 특징은 놀라운 속도입니다. 속도에 최적화된 자동 회귀 모델도 초당 최대 200 토큰으로 실행되는 반면, Mercury Coder는 범용 NVIDIA H100 GPU에서 초당 1000 토큰 이상으로 실행되어 5배 빠른 속도를 자랑합니다. 심지어 초당 50토큰 미만으로 실행되는 일부 프론티어 모델보다 20배 이상 빠릅니다.

이전에는 Groq, Cerebras, SambaNova와 같은 전용 하드웨어만이 dLLM과 같은 처리량을 달성할 수 있었습니다. 머큐리 코더의 알고리즘 개선과 하드웨어 가속은 함께 진행되며, 더 빠른 칩에서는 속도가 훨씬 더 빨라집니다.

속도 비교: 초당 출력되는 토큰 수, 코드 작성 워크로드

더욱 흥미로운 점은 개발자들이 Mercury Coder의 코드 완성 기능을 선호한다는 점입니다. 코드 완성 기능은 부조종사 Arena의 벤치마크에서 Mercury Coder Mini는 GPT-4o Mini 및 Gemini-1.5-Flash와 같은 속도 최적화 모델을 능가하고 심지어 GPT-4o와 같은 대형 모델의 성능과 동등한 수준으로 2위를 차지했습니다. 동시에 Mercury Coder는 가장 빠른 모델로 GPT-4o Mini보다 약 4배 빠른 속도를 기록했습니다.

인셉션 랩은 머큐리 코더의 강력한 성능을 직접 경험해 보실 수 있도록 여러분을 초대합니다.인셉션 랩은 람다 랩과 파트너십을 맺어 놀이터 이 플랫폼에서는 Mercury Coder 체험판을 제공합니다. 아래 동영상에서 Mercury Coder가 짧은 시간에 고품질 코드를 생성하는 방법을 경험해 보세요.

이는 AI 애플리케이션에 어떤 의미가 있을까요?

고객 지원, 코드 생성 및 엔터프라이즈 자동화 분야의 시장 리더를 비롯한 Mercury dLLM의 얼리 어답터들은 표준 자동 회귀 기본 모델에서 Mercury dLLM으로 직접 대체하여 성공적으로 전환하고 있습니다. 이러한 전환은 더 나은 사용자 경험과 비용 절감으로 직결됩니다. 지연 시간에 민감한 애플리케이션 시나리오에서 파트너는 과거에는 엄격한 지연 시간 요건을 충족하기 위해 더 작고 성능이 떨어지는 모델을 선택해야 하는 경우가 많았습니다. 이제 파트너는 dLLM의 뛰어난 성능 덕분에 더 크고 강력한 모델을 사용하면서도 원래의 비용 및 속도 요구 사항을 충족할 수 있습니다.

Inception Labs는 API와 로컬 배포를 통해 Mercury 모델 제품군에 대한 액세스를 제공하며, Mercury 모델은 기존 하드웨어, 데이터 세트, 감독형 미세 조정(SFT) 및 정렬(RLHF) 프로세스와 완벽하게 호환되며, 미세 조정은 API와 로컬 배포 모두에서 지원됩니다.