QwQ-32B 대형 모델의 로컬 배포: PC를 위한 쉬운 가이드

39.2K 00

인공 지능(AI) 모델링 분야는 항상 놀라움으로 가득하며, 모든 기술 혁신은 업계의 신경을 건드릴 수 있습니다. 최근 알리바바의 QwQ 팀은 새벽에 최신 추론 모델인 QwQ-32B를 발표하여 다시 한 번 많은 관심을 끌었습니다.

공식 발표에 따르면QwQ-32B는 매개변수 규모가 320억 개에 불과한 추론 모델입니다.하지만 그는 경쟁할 수 있다고 주장했습니다. DeepSeek-R1 등 업계를 선도하는 최첨단 모델을 선보였습니다. 공식 블로그, 허깅 페이스 모델 라이브러리, 모델 다운로드, 온라인 데모, 사용자들이 제품에 대해 자세히 알아보고 체험할 수 있는 웹사이트 링크가 포함된 이 발표는 기술 커뮤니티를 순식간에 뜨겁게 달궜습니다.

출시 정보는 간단하고 간결하지만, 그 뒤에 숨겨진 기술력은 결코 간단하지 않습니다. 일반적으로 모델의 파라미터 수가 많을수록 성능이 강력해지는 경향이 있지만, 이는 컴퓨팅 리소스에 대한 수요도 높다는 것을 의미한다는 점을 고려하면 "DeepSeek-R1에 필적하는 320억 개의 파라미터"라는 문구는 충분히 인상적입니다. QwQ-32B 적은 수의 파라미터로 메가 모델과 유사한 성능을 달성하는 것은 의심할 여지없이 중요한 돌파구이며, 이는 자연스럽게 기술 애호가와 전문가들 사이에서 큰 관심을 불러 일으켰습니다.

QwQ-32B의 성능을 보다 직관적으로 보여주기 위해 공식 벤치마크 테스트 차트를 동시에 공개했습니다. 벤치마킹은 AI 모델의 기능을 평가하는 중요한 수단으로, 미리 설정된 일련의 표준화된 데이터 세트에서 모델을 테스트하여 다양한 작업에서 모델의 성능을 측정함으로써 사용자에게 객관적인 성능 참조를 제공합니다.

이 벤치마킹 차트에서 다음과 같은 핵심 정보를 빠르게 파악할 수 있습니다:

경이로운 확산 속도: 모델 출시 정보 достига́ть는 단 12시간 만에 169만 명 이상이 읽었으며, 이는 고성능 AI 모델에 대한 시장의 긴급한 수요와 QwQ-32B에 대한 높은 기대감을 충분히 반영한 것입니다.
뛰어난 성능: 벤치마크 테스트에서 320억 개의 매개변수만으로 6,710억 개의 매개변수를 가진 전체 매개변수 버전의 DeepSeek-R1과 경쟁하여 놀라운 에너지 효율 비율을 보여준 QwQ-32B. 작은 모델이 큰 모델을 능가하는 이러한 현상은 모델 성능과 파라미터 크기 사이의 관계에 대한 기존의 인식을 확실히 깨뜨립니다.
동급 증류기 모델보다 성능이 뛰어납니다: QwQ-32B는 DeepSeek-R1의 32B 증류 버전보다 성능이 훨씬 뛰어납니다. 증류는 더 작은 모델을 훈련하여 더 큰 모델의 동작을 모방함으로써 성능을 유지하면서 계산 비용을 절감하는 것을 목표로 하는 모델 압축 기법입니다. QwQ-32B가 32B 증류 모델보다 성능이 뛰어나다는 사실은 그 아키텍처와 훈련 방법론이 얼마나 정교한지를 잘 보여줍니다.
다차원적 성과 리더십: QwQ-32B는 여러 벤치마킹 측면에서 OpenAI의 비공개 소스 모델인 o1-mini보다 우수한 성능을 보였습니다. 이는 범용 기능 측면에서 최고의 비공개 소스 모델과 경쟁할 수 있음을 보여줍니다.

특히 주목할 만한 점은 320억 개의 매개변수만 있는 QwQ-32B가 20배 이상의 매개변수를 가진 거대 모델을 능가할 수 있다는 사실이며, 이는 AI 기술의 또 다른 도약을 의미합니다. 더욱 흥미로운 점은 이제 사용자들이 RTX3090 또는 RTX4090급 소비자 그래픽 카드로 양자화된 버전의 QwQ-32B를 로컬에서 쉽게 실행할 수 있다는 점입니다. 로컬 배포는 사용 장벽을 낮출 뿐만 아니라 데이터 보안과 개인화된 애플리케이션을 위한 더 많은 가능성을 열어줍니다. 그래픽 카드 성능이 낮은 사용자의 경우 권장 클라우드 배포 솔루션으로 시작할 수 있습니다:무료 GPU 성능으로 딥시크-R1 오픈 소스 모델을 온라인으로 배포하기를 클릭하거나 직접 신청하여 무료 API를 사용하세요.알리바바(화산) 는 하루 100만 토큰(180일 동안)을 제공하고 아카시 API는 등록 없이 바로 무료로 사용할 수 있습니다.

DeepSeek는 더 이상 한 방 먹은 조랑말이 아닌데, OpenAI는 어떻게 선두를 유지할 수 있을까요?

QwQ-32B가 이처럼 강력한 경쟁력을 보임에 따라 200달러짜리 프로 버전과 20달러짜리 플러스 버전인 OpenAI의 기존 제품들은 가격 대비 성능 면에서 심각한 도전에 직면하게 되었습니다. 특히 사용자들로부터 "멍청하다"는 비판을 받아온 OpenAI 모델들의 성능 변동이 가끔씩 발생한다는 점을 고려할 때, QwQ-32B는 시장에 생각할 거리를 던져주었습니다. 그럼에도 불구하고 OpenAI는 여전히 AI 분야에서 깊은 역사와 광범위한 생태계를 보유하고 있으며, 특정 영역에서 모델을 미세 조정하고 애플리케이션을 최적화하는 데 여전히 유리할 수 있습니다. 그러나 QwQ-32B의 출시는 의심할 여지없이 시장의 기존 패턴을 깨뜨리고 모든 플레이어가 자신의 기술적 장점과 시장 전략을 재검토하도록 강요합니다.

QwQ-32B의 실제 기능을 보다 완벽하게 평가하기 위해서는 현지에 설치하여 자세히 테스트해야 하며, 특히 현지 운영 환경에서 추론 성능과 'IQ' 수준을 조사할 필요가 있습니다.

다행히도 Ollama Ollama와 같은 도구의 등장으로 이제 개인용 컴퓨터에서 대규모 언어 모델을 로컬에 배포하고 실행하는 것이 매우 간단해졌습니다. 오픈 소스 경량 모델 실행 프레임워크인 Ollama는 대규모 로컬 모델을 배포하고 관리하는 프로세스를 크게 간소화합니다.

올라마는 효율성과 사용 편의성으로 유명합니다. 올라마는 QwQ-32B 출시 직후 이 모델에 대한 지원을 신속하게 발표하여 사용자가 최신 AI 기술을 경험할 수 있는 장벽을 더욱 낮추고 누구나 쉽게 QwQ-32B의 강력한 기능을 시작할 수 있도록 했습니다.

1. 올라마 설치 및 운영

먼저 Ollama 공식 웹사이트(ollama.com)를 방문하여 다운로드 버튼을 클릭하여 운영 체제에 맞는 설치 패키지를 다운로드하세요.

올라마는 macOS(인텔 및 애플 실리콘), 윈도우, 리눅스 등 모든 주요 운영체제를 완벽하게 지원하므로 모든 플랫폼에서 QwQ-32B 모델을 쉽게 사용할 수 있습니다.

다운로드가 완료되면 설치 프로그램을 두 번 클릭하고 마법사를 따라 설치 프로세스를 완료하세요. 설치가 완료되면 Windows의 작업 표시줄 트레이 또는 macOS의 메뉴 표시줄에 귀여운 알파카 아이콘이 표시되며, 이는 올라마가 성공적으로 시작되어 백그라운드에서 실행되고 있음을 의미합니다.

2. QwQ-32B 모델 다운로드

반드시 읽어야 합니다:Unsloth, 양자화된 버전의 QwQ-32B에서 중복 추론 문제 해결

Ollama를 성공적으로 설치하고 실행했으면 이제 QwQ-32B 모델 다운로드를 시작할 수 있습니다.

Ollama 클라이언트에서 모델 모델 페이지에서 QwQ-32B 모델이 인기 모델 목록의 최상위에 빠르게 올라간 것을 볼 수 있으며, 이는 그 인기를 증명하는 것입니다. "qwq" 모델 항목을 찾아 클릭하여 모델 세부정보 페이지로 이동합니다. 세부정보 페이지에서 빨간색 테두리로 강조 표시된 명령을 복사합니다.

로컬 터미널(macOS/Linux) 또는 명령 프롬프트(Windows)를 엽니다.

터미널 또는 명령 프롬프트에서 다음 명령을 붙여넣고 실행합니다:ollama run qwq

ollama run qwq

올라마는 클라우드에서 QwQ-32B 모델 파일 다운로드를 자동으로 시작하고 다운로드가 완료되면 모델 런타임 환경을 자동으로 실행합니다.

다음 사항을 언급할 가치가 있습니다.모델 다운로드 프로세스에는 사용자의 추가 네트워크 구성이 필요하지 않은 것으로 보입니다. 이는 의심할 여지없이 국내 사용자에게 매우 친숙한 기능입니다. 결국, 다운로드 속도가 너무 느리거나 특별한 네트워크 환경이 필요한 경우 20GB에 가까운 크기의 모델 파일은 사용자 경험을 크게 저하시킬 수 있습니다.

단, 현재 QwQ-32B 모델이 매우 인기 있고 다운로드하는 사용자가 많기 때문에 실제 다운로드 속도가 어느 정도 영향을 받아 다운로드 시간이 길어질 수 있으므로 사용자는 인내심을 가지고 기다려야 합니다.

잠시 기다린 후 마침내 모델이 다운로드되었습니다. 12GB 비디오 메모리가 장착된 RTX3060 데스크톱급 그래픽 카드가 장착된 컴퓨터에서 QwQ-32B 모델을 실행하여 사용해 본 결과, 모델이 성공적으로 로드되었을 뿐만 아니라 사용자의 입력에 따라 원활하게 응답할 수 있었고, 무엇보다도 전체 과정에서 비디오 메모리 오버플로 문제가 발생하지 않아 놀라움을 금치 못했습니다. 더 중요한 것은 전체 프로세스 동안 메모리 오버플로 문제가 없었다는 것입니다. 이는 메인스트림 그래픽 카드도 QwQ-32B 정량 모델의 요구 사항을 충족할 수 있다는 것을 의미합니다.

실제 추론 성능 측면에서 QwQ-32B의 능력은 이미 사용자들이 농담 삼아 "IQ 밑줄"이라고 부르는 일부 OpenAI 모델을 능가했습니다. 이는 성능 측면에서도 QwQ-32B의 우수성을 확인시켜 줍니다.

Windows 작업 관리자를 통해 모델의 리소스 사용량을 실시간으로 모니터링할 수 있습니다. 결과에 따르면 모델 추론 프로세스 중에 CPU, 메모리 및 그래픽 메모리가 모두 높은 부하를 받는 것으로 나타났는데, 이는 대규모 모델을 로컬에서 실행하는 데 필요한 높은 하드웨어 리소스 요구 사항도 반영합니다.

RTX3060 그래픽 카드에서는 "다, 다, 다, 다..." 정도의 템포로 응답하여 기본적인 사용 요구 사항을 충족할 수 있지만 응답성과 부드러움 측면에서는 여전히 개선의 여지가 있습니다. 보다 극단적인 로컬 모델 실행 환경을 원한다면 더 높은 수준의 하드웨어 구성이 필요할 수 있습니다.

모델의 실행 속도를 더욱 향상시키기 위해 최고급 RTX3090 그래픽 카드가 장착된 기기에서 QwQ-32B 모델을 다시 다운로드하여 실행했습니다. 실험 결과, 고급 그래픽 카드를 교체한 후 모델의 실행 속도가 크게 향상되었으며 "날아갈 듯이 빠르다"고 표현해도 과언이 아닙니다. 이는 또한 로컬 대형 모델 실행 경험에서 하드웨어 구성의 중요성을 다시 한 번 확인시켜 줍니다.

3. 클라이언트에 QwQ-32B 통합

명령줄 인터페이스에서 모델과 직접 대화하는 것은 간단하고 직관적인 방법이지만, 자주 사용하거나 더 나은 상호작용 경험을 원하는 사람들에게는 그래픽 클라이언트를 사용하는 것이 더 편리한 선택입니다. 시중에는 우수한 AI 모델 클라이언트 소프트웨어가 많이 있으며 이미 ChatWise와 같은 많은 소프트웨어를 소개했습니다. ChatWise를 선택한 주된 이유는 간단하고 직관적인 인터페이스 디자인, 명확하고 이해하기 쉬운 작동 로직, 사용자에게 좋은 경험을 제공하는 능력 때문입니다.

다음은 ChatWise 클라이언트에 QwQ-32B 모델을 구성하는 단계에 대한 간략한 설명입니다.

ChatWise 클라이언트와 Ollama 서비스가 동일한 컴퓨터에서 실행되고 있는 경우 일반적으로 추가 구성 없이 ChatWise 클라이언트를 열고 QwQ-32B 모델을 바로 사용할 수 있습니다. 대부분의 사용자, 즉 Ollama 서비스와 클라이언트 애플리케이션이 모두 동일한 장치에 설치되어 있는 경우가 이에 해당합니다.

그러나 작성자와 같이 다른 컴퓨터(예: 서버)에 올라마 서비스를 설치했고 ChatWise 클라이언트가 로컬 컴퓨터에서 실행 중인 경우에는 ChatWise의 다음과 같이 수동으로 수정해야 합니다. BaseURL 설정을 변경하여 클라이언트가 원격 올라마 서비스에 연결할 수 있도록 합니다. 클라이언트에서 BaseURL 설정에서 올라마 서비스를 실행하는 컴퓨터의 IP 주소와 올라마 서버에서 구성한 포트 번호를 입력해야 합니다. Ollama의 기본 포트는 13434이므로 특별히 설정하지 않은 경우 기본 포트를 그대로 사용하면 됩니다.

이행 BaseURL 구성이 완료되면 ChatWise 클라이언트에서 사용할 모델을 선택할 수 있습니다.

ChatWise의 모델 선택 목록에서 Ollama 모델 카테고리를 찾은 다음 그 아래에서 다음을 선택합니다. QWQ:최신. QWQ:최신 일반적으로 4비트 양자화 버전인 QwQ-32B 모델의 최신 버전을 나타냅니다. 선택 QWQ:최신 그 후 ChatWise 클라이언트에서 QwQ-32B 모델의 강력한 기능을 경험할 수 있습니다.

4. QwQ-32B 모델 지능 수준 테스트

QwQ-32B 모델의 지능 수준을 보다 객관적으로 평가하기 위해 이전에 OpenAI 모델의 '지능 저하' 문제를 테스트하기 위해 개발된 고전적인 질문 세트를 사용했습니다. 이 세트는 다음과 같은 경우에 유용한 것으로 경험적으로 입증된 엄선된 네 가지 질문으로 구성됩니다. ChatGPT (특히 GPT-3 또는 GPT-4 모델의 경우) "지능이 떨어진다"는 사용자 피드백이 있는 경우 이러한 질문에 올바르게 답하기 어려운 경우가 많습니다. 따라서 이 질문 세트는 더 큰 모델의 지능 수준을 테스트하기 위한 참고 자료로 어느 정도 사용할 수 있습니다.

다음으로 로컬에서 실행되는 QwQ-32B 모델을 하나씩 테스트하여 모든 질문에 성공적으로 답변할 수 있는지 확인합니다.

질문 1: deepseek이라는 단어에 알파벳 e는 몇 글자인가요?

QwQ-32B 모델은 16초 만에 정답인 3을 맞혔습니다. 정답이 맞습니다..

이 질문은 단순해 보이지만 실제로는 모델이 세부 정보를 정확하게 이해하고 추출하는 능력을 테스트하는 질문입니다. 놀랍게도 이러한 질문에 정확하게 답하지 못하는 대형 모델이 여전히 상당수 존재합니다.

질문 2: 11.9와 11.12 중 어느 값이 더 큰가요?

QwQ-32B 모델은 47초 만에 11.12가 더 크다는 정답을 맞혔습니다. 정답이 맞습니다..

다시 말하지만, 이것은 기본적이면서도 고전적인 문제입니다. 많은 대규모 모델이 단순한 수치 비교를 혼동하거나 잘못 판단하는 경우가 많은데, 이는 모델의 기본 논리적 추론에 결함이 있을 수 있음을 반영합니다.

문제 3: n(n!)의 계승이 2의 n번째 거듭제곱(2^n)으로 나눌 수 있는 양의 정수 n을 구합니다.

QwQ-32B 모델은 121초 만에 정답을 제시합니다: 그러한 양의 정수 n은 존재하지 않습니다. 정답이 맞습니다..

이 질문의 요점은 구체적인 수치 답을 찾는 것이 아니라 모델이 추상적으로 사고하고 논리적으로 추론할 수 있는지, 문제의 본질을 이해하고 궁극적으로 "존재하지 않는다"는 결론에 도달할 수 있는 능력을 갖추고 있는지 살펴보는 것입니다. QwQ-32B는 이 질문에 정답을 맞히며 논리적 추론 능력을 어느 정도 보여주었습니다.

문제 4: 고전적인 논리 추론 - 모자 색깔 퍼즐

"5명이 한 줄로 서 있고 각자의 머리에 빨간색 또는 파란색의 모자를 쓰고 있습니다. 각 사람은 줄에 있는 앞사람의 모자 색깔만 볼 수 있고 자신의 머리 색깔은 볼 수 없습니다. 진행자가 그룹에게 "이 5명 중 빨간 모자를 쓴 사람이 한 명 이상 있습니다."라고 미리 알려줍니다. 이제 줄 맨 끝에 있는 사람부터 차례로 앞으로 나아가면서 각 사람에게 "당신의 모자가 어떤 색인지 아십니까?"라고 질문합니다. 각 사람은 "예" 또는 "아니오"라고만 대답할 수 있습니다. 다섯 번째 사람이 "아니요"라고 대답하고 네 번째 사람이 "예"라고 대답한다고 가정할 때, 가능한 모든 모자 색의 분포는 어떻게 될까요?"

이 논리적 추론 문제는 처음 세 문항에 비해 훨씬 더 어려웠으며 모델에게 더 많은 논리적 분석과 추론 능력을 요구했습니다.

첫 번째 질문을 하는 동안 QwQ-32B 모델은 마치 '뇌'가 고속으로 작동하는 것처럼 화면에 "생각 중..."이라는 단어가 깜박이면서 장기간 생각하는 상태에 들어갔고, 사람들은 하드웨어가 이러한 강렬한 계산 부하를 견딜 수 있는지 걱정하게 만들었습니다. 심지어 하드웨어가 이런 엄청난 연산 부하를 견딜 수 있을지 걱정하게 만들기도 합니다. 시간과 하드웨어 실행 상태를 고려하여 10분 이상 기다린 후 모델 사고 과정을 수동으로 중단했습니다.

그런 다음 작성자는 새 대화 세션을 다시 열고 QwQ-32B 모델에 동일한 질문을 다시 했습니다.

이번에는 QwQ-32B 모델이 마침내 196초 만에 완전히 정답을 맞추고 그 이유를 자세히 설명했습니다. 정답이 맞습니다..

모델의 추론 과정 기록을 보면, QwQ-32B의 비교적 작은 매개변수 크기에도 불구하고 복잡한 논리적 추론 문제에 직면했을 때 매우 '어려운' 사고와 분석 과정을 보여준다는 것을 알 수 있습니다. 이 모델은 최종적으로 올바른 결론에 도달하기까지 수많은 논리적 계산과 확률 추론을 백그라운드에서 수행합니다.

위의 일련의 엄격하고 상세한 IQ 테스트 결과, QwQ-32B 4비트 모델의 정량화된 버전이 특히 논리적 추론과 퀴즈에서 인상적인 전반적인 성능을 보였으며 동급의 다른 모델보다 성능이 뛰어났다고 예비적으로 결론을 내릴 수 있습니다. 정량화되지 않은 버전의 QwQ-32B의 성능이 훨씬 더 우수할 것이라고 믿는 것이 합리적입니다. 32B 풀 블러드 에디션 모델 성능 평가 보고서 QwQ-32B는보다 포괄적 인 성능 데이터 및 분석을 제공합니다. 따라서 기본적으로 QwQ-32B 모델 출시 당시 알리바바 QwQ 팀이 한 성능 홍보는 과장된 것이 아니라고 판단할 수 있으며, QwQ-32B는 실제로 671억 개의 매개변수 규모를 가진 320억 개의 매개변수 DeepSeek-R1 모델과 경쟁하는 강점을 달성한 우수한 새로운 추론 모델이라고 할 수 있습니다.

국내 오픈소스 빅모델의 급부상은 AI 기술 분야에서 중국의 활발한 혁신과 거대한 발전 잠재력을 충분히 보여줍니다.

더 좋은 점은 QwQ-32B 32B 버전의 모델은 24GB RAM이 장착된 그래픽 카드만 있으면 원활하고 인상적인 속도로 실행할 수 있다는 것입니다. 몇 년 전만 해도 이러한 고성능의 대규모 모델을 실행하려면 수백만 달러에 달하는 특수 장비가 필요했지만, 이제는 QwQ-32B와 올라마와 같은 기술의 발전 덕분에 사용자가 1만 달러짜리 PC로 로컬에서 배포하고 경험할 수 있습니다. QwQ-32B 모델의 출시는 고성능 AI 모델의 대중화가 가속화되고 있으며 '모두를 위한 AI' 시대가 가속화되고 있다는 신호이며, 고성능 AI 기술은 개인용 단말기 및 다양한 산업에서 더 폭넓게 적용될 것입니다.

지금이 바로 QwQ-32B의 힘을 활용하고, 탐색하고, 충분히 활용할 수 있는 최고의 시기입니다! AI 기술의 밝은 미래를 함께 맞이하세요!