"에이전트"라는 단어는 우울하고, GPT-4 모델은 더 이상 언급할 가치가 없으며, 위대한 프로그래머들은 "빅 모델 2024"를 재고합니다.

35.4K 00

전문가들은 대체로 2024년이 AGI의 해라는 데 동의합니다. 이 해는 대형 모델링 산업이 완전히 바뀌는 해입니다:

이미지 및 비디오 생성 모델에 대한 작업이 점점 더 현실화되고 있으며, 멀티모달 대규모 언어 모델, 추론 모델, 지능(에이전트)에서 획기적인 발전이 이루어지고 있으며, 인간은 점점 더 AI에 관심을 갖고 있습니다 .......

그렇다면 노련한 업계 관계자에게 있어 대형 모델 업계는 한 해 동안 어떻게 변화했을까요?

며칠 전, 유명한 독립 프로그래머이자 소셜 컨퍼런스 디렉토리의 공동 창립자이자 장고 웹 프레임워크의 공동 창시자인 래니어드(Lanyrd)는 다음과 같이 말했습니다. 사이먼 윌슨 라는 제목의 보고서에서 2024년 LLM에 대해 배운 것들 이 문서에서는 다음 사항을 자세히 검토합니다. 2024년 대형 모델 산업의 변화, 놀라움 및 단점.

“agent”一词令人沮丧，GPT-4级模型已不值一提，大神程序员盘点「大模型的2024」

몇 가지 요점은 아래에 설명되어 있습니다:

2023년에 GPT-4 등급 모델을 교육하는 것은 큰 의미가 있습니다. 하지만 2024년에는 특별히 주목할 만한 성과도 아닙니다.
지난 한 해 동안 저희는 트레이닝과 추론 성능에서 놀라운 성과를 거두었습니다.
가격을 낮추는 요인에는 경쟁 심화와 효율성 향상이라는 두 가지가 있습니다.
LLM의 느린 발전에 대해 불평하는 사람들은 멀티모달 모델링의 엄청난 발전을 무시하는 경향이 있습니다.
프롬프트 중심의 앱 생성은 이제 필수품이 되었습니다.
SOTA 모델을 무료로 이용할 수 있는 시대는 지났습니다.
아직 태어나지 않은 지식인.
LLM 기반 시스템에 대한 자동화된 평가를 잘 작성하는 것은 이러한 모델을 기반으로 유용한 앱을 구축하는 데 가장 필요한 기술입니다.
o1 확장 모델에 대한 새로운 접근 방식 선도: 추론에 더 많은 연산량을 투입하여 더 어려운 문제를 해결합니다.
중국 GPU 수출에 대한 미국의 규제가 매우 효과적인 훈련 최적화에 영감을 준 것으로 보입니다.
지난 몇 년 동안 프롬프트 실행에 따른 에너지 소비와 환경에 미치는 영향이 크게 감소했습니다.
인공 지능이 생성한 원치 않는 무수정 콘텐츠는 '슬롭'입니다.
LLM을 최대한 활용하기 위한 핵심은 신뢰할 수 없지만 강력한 기술을 사용하는 방법을 배우는 것입니다.
LLM은 실질적인 가치가 있지만, 그 가치를 깨닫는 것은 직관적이지 않으며 지침이 필요합니다.

원문의 큰 줄기는 바꾸지 않고 전체 내용을 다음과 같이 압축했습니다:

2024년 대규모 언어 모델링(LLM) 분야에서는 많은 일이 일어나고 있습니다. 지난 12개월 동안 이 분야에 대해 밝혀진 사실과 주요 주제 및 핵심 순간을 파악하기 위한 저의 시도를 되돌아보겠습니다. 포함 19 측면:

1. GPT-4의 해자가 "뚫렸습니다".

2023년 12월 리뷰에서 다음과 같이 썼습니다."아직 GPT-4를 구축하는 방법을 알지 못합니다.-- 당시 GPT-4는 출시된 지 거의 1년이 지났지만 다른 AI 연구소에서는 아직 더 나은 모델을 만들지 못했습니다.OpenAI는 다른 사람들이 모르는 것을 무엇을 알고 있을까요?

다행히도 지난 12개월 동안 완전히 바뀌었습니다. 이제 챗봇 아레나 순위표에는 다음이 표시됩니다.18개 조직의 모델2023년 3월에 출시된 GPT-4(GPT-4-0314)의 원래 버전보다 높은 순위로, 이 수치는 70에 이릅니다.

가장 먼저 도전장을 내민 것은 구글이 2024년 2월에 출시한 쌍둥이자리 1.5 Pro. GPT-4 수준의 출력을 제공하는 것 외에도 다음과 같은 몇 가지 새로운 기능을 현장에 제공합니다.가장 주목할 만한 점은 100만(이후 200만) 토큰 입력 컨텍스트 길이와 동영상 입력 기능입니다..

Gemini 1.5 Pro는 2024년의 주요 테마 중 하나인 컨텍스트 길이를 늘립니다.2023년에는 대부분의 모델에서 4096 또는 8192 토큰만 사용할 수 있습니다.리비아 아랍 자마히리야 Claude 예외는 200,000개의 토큰을 허용하는 2.1이며, 현재 모든 모델 제공자는 100,000개 이상의 토큰을 허용하는 모델을 보유하고 있습니다. 토큰 모델인 구글의 제미니 시리즈는 최대 2백만 개의 토큰을 수용할 수 있습니다.

입력이 길어지면 LLM을 사용하여 해결할 수 있는 문제의 범위가 크게 늘어납니다. 이제 책 전체를 입력하고 그 내용에 대해 질문할 수도 있지만, 더 중요한 것은 모델이 코딩 문제를 올바르게 해결할 수 있도록 많은 양의 샘플 코드를 입력할 수 있다는 점입니다. 저에게는 모델 가중치에 대한 정보에만 의존하는 짧은 프롬프트보다 긴 입력을 포함하는 LLM 사용 사례가 훨씬 더 흥미롭습니다. 제 도구 중 상당수가 이 모델을 사용하여 구축되었습니다.

GPT-4를 '이긴' 모델로 넘어가자면, 3월에 출시된 앤트로픽의 클로드 3 시리즈 중 클로드 3 오푸스는 제가 가장 좋아하는 모델이 되었습니다. 6월에는 클로드 3.5 소네트를 출시했고, 6개월이 지난 지금도 제가 가장 좋아하는 모델입니다! 6개월이 지난 지금도 여전히 제가 가장 좋아하는 모델입니다.

물론 다른 챗봇도 있습니다. 오늘 챗봇 아레나 순위표를 살펴 보면GPT-4-0314는 약 70위로 떨어졌습니다.. 모델 점수가 높은 18개 조직은 Google, OpenAI, Alibaba, Anthropic, Meta, Reka AI, Zero One Thing, Amazon, Cohere, DeepSeek, NVIDIA, Mistral, NexusFlow, Smart Spectrum, xAI, AI21 랩, 프린스턴 대학교, 텐센트입니다.

2023년에 GPT-4 수준의 모델을 교육하는 것은 큰 일입니다. 하지만2024년, 이는 특별히 주목할 만한 성과도 아닙니다.하지만 저는 개인적으로 여전히 새로운 조직이 목록에 합류할 때마다 축하를 보냅니다.

2. GPT-4 레벨 모델을 실행할 준비가 된 노트북

제 개인 노트북은 2023년형 64GB M2 MacBook Pro입니다. 강력한 컴퓨터이지만 거의 2년이 지났고, 더 중요한 것은 2023년 3월부터 제 컴퓨터에서 LLM을 처음 실행했을 때와 같은 노트북을 사용하고 있다는 점입니다.

2023년 3월에도 이 노트북은 여전히 하나의 GPT-3 레벨 모델만 실행할 수 있습니다.이제 GPT-4 모델에서 여러 GPT-4 레벨 모델을 실행할 수 있습니다!

여전히 놀랍습니다. GPT-4의 기능과 출력 품질을 달성하려면 4만 달러 이상의 GPU가 장착된 데이터센터급 서버가 하나 이상 필요할 것이라고 생각했습니다.

이 모델은 64GB의 메모리를 차지하기 때문에 자주 실행하지 않아 다른 용도로 사용할 공간이 많이 남지 않습니다.

이러한 모델이 작동한다는 사실은 지난 한 해 동안 놀라운 학습 및 추론 성능 향상을 이뤘다는 증거입니다. 결과적으로 모델 효율성 측면에서 많은 가시적인 결실을 거두었습니다. 앞으로도 더 많은 성과가 있기를 바랍니다.

Meta의 Llama 3.2 시리즈 모델은 특별히 언급할 가치가 있습니다. GPT-4 등급은 아니지만 1B 및 3B 크기에서 기대 이상의 결과를 보여줍니다.

3. 경쟁과 효율성 향상으로 인해 LLM 가격이 크게 하락했습니다.

지난 12개월 동안 LLM 사용 비용이 급격히 하락했습니다.

2023년 12월, OpenAI, GPT-4에 30달러/백만 달러의 입력 토큰을 청구합니다.(엠톡) 비용또한, 당시 새로 도입된 GPT-4 터보의 경우 미화 10달러/톡, GPT-3.5 터보의 경우 미화 1달러/톡의 수수료가 부과되었습니다.

현재 OpenAI의 가장 비싼 o1 모델은 $30/mTok에 구입할 수 있습니다!GPT-4o는 2.50달러(GPT-4보다 12배 저렴), GPT-4o 미니는 0.15달러/m톡으로 GPT-3.5보다 약 7배 저렴하고 더 강력합니다.

다른 모델 제공업체의 요금은 더 저렴하며, Anthropic의 Claude 3 하이쿠는 $0.25/mTok, Google의 Gemini 1.5 플래시는 $0.075/mTok, Gemini 1.5 플래시 8B는 $0.0375/mTok으로 2023년 GPT-3.5 터보보다 27배 더 저렴합니다. 2023년 터보.

가격을 낮추는 두 가지 요인은 경쟁 심화와 효율성 향상입니다.. 효율성 개선은 LLM이 환경에 미치는 영향에 대해 우려하는 모든 사람들에게 중요합니다. 이러한 가격 인하는 프롬프트를 실행하는 데 소비되는 에너지와 직접적인 관련이 있습니다.

AI 데이터센터 구축이 환경에 미치는 영향에 대해서는 아직 걱정할 것이 많지만, 개별 프롬프트의 에너지 비용에 대한 우려는 더 이상 신뢰할 수 없습니다.

흥미로운 계산을 해보겠습니다. Google의 가장 저렴한 Gemini 1.5 플래시 8B를 사용하여 개인 사진 라이브러리에 있는 68,000장의 사진 각각에 대한 간단한 설명을 생성하는 데 드는 비용은 얼마일까요?

각 사진에는 260개의 입력 토큰과 약 100개의 출력 토큰이 필요합니다.

260 * 68000 = 17680000 토큰 입력

17680000 * $0.0375/백만 = $0.66

100 * 68000 = 6800,000 출력 토큰

6800000 * $0.15/백만 = $1.02

68,000개의 이미지를 처리하는 데 드는 총 비용은 $1.68입니다.. 너무 저렴해서 제대로 계산했는지 확인하기 위해 세 번이나 계산을 해보기도 했습니다.

이 설명이 얼마나 좋은가요? 이 명령에서 정보를 얻었습니다:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

캘리포니아 과학 아카데미의 나비 사진입니다:

사진에 벌새나 나비 모이통일 수 있는 빨간색 얕은 접시가 있습니다. 접시에는 오렌지 과일 조각이 있습니다.

모이통에는 두 마리의 나비가 있는데, 한 마리는 흰색/크림색 무늬가 있는 짙은 갈색/검은색 나비입니다. 다른 나비는 밝은 갈색, 베이지색, 검은색 무늬가 있고 눈에 띄는 눈 반점이 있는 더 큰 갈색 나비였습니다. 이 큰 갈색 나비는 접시에서 과일을 먹고 있는 것처럼 보입니다.

입력 토큰 260개, 출력 토큰 92개, 약 0.0024센트(400분의 1센트 미만)의 비용입니다.

2024년에 가장 기대되는 트렌드는 효율성 향상과 가격 인하입니다.저는 매우 낮은 에너지 비용으로 LLM의 유용성을 원했고, 이것이 바로 우리가 달성하고 있는 목표입니다.

4. 멀티모달 비전이 보편화되고 오디오와 비디오가 '등장'하기 시작함

위의 나비 예시는 2024년의 또 다른 주요 트렌드인 MLLM(멀티모달 대형 언어 모델)의 부상도 잘 보여줍니다.

1년 전인 2023년 11월 OpenAI 데브데이에서 발표된 GPT-4 비전이 가장 주목할 만한 사례입니다. 반면에 구글은 2023년 12월 7일에 멀티모달 제미니 1.0을 출시했습니다.

2024년에는 거의 모든 모델 제공업체가 멀티모달 모델을 출시했습니다.3월에 확인했습니다. 인류학 의 클로드 3 시리즈, 4월에는 제미니 1.5 프로(이미지, 오디오, 비디오)를, 9월에는 미스트랄 의 픽스트랄 12B와 Meta의 라마 3.2 11B 및 90B 시각 모델을 사용했습니다. 10월에는 OpenAI로부터 오디오 입출력을, 11월에는 Hugging Face로부터 SmolVLM을, 12월에는 Amazon Nova로부터 이미지 및 비디오 모델을 확보했습니다.

제 생각에는LLM의 느린 발전에 대해 불평하는 사람들은 이러한 멀티모달 모델의 엄청난 발전을 무시하는 경향이 있습니다.. 이미지(오디오 및 비디오뿐만 아니라)에 대한 프롬프트를 실행하는 기능은 이러한 모델을 적용할 수 있는 새로운 방법입니다.

공상 과학을 현실로 만드는 음성 및 실시간 비디오 모드 5.

특히 오디오 및 실시간 비디오 모델이 등장하기 시작했습니다.

와 함께 ChatGPT 대화 기능은 2023년 9월에 출시되지만, 이는 대부분 착각에 불과하다. Whisper 음성-텍스트 모델과 새로운 텍스트-음성 모델(tts-1로 명명됨)을 통해 ChatGPT와 대화할 수 있지만, 실제 모델은 텍스트만 볼 수 있습니다.

5월 13일에 출시된 OpenAI의 새로운 음성 모델인 진정한 멀티모달 GPT-4o("o"는 "옴니"를 의미) 모델의 데모에는 오디오 입력과 출력이 가능한 새로운 음성 모델이 포함되어 있습니다. 사실적인 음성 입출력이 가능합니다.

마침내 ChatGPT 고급 음성 모드가 도입되었을 때 그 결과는 놀라웠습니다.반려견과 산책할 때 이 모드를 자주 사용하는데, 음색이 너무 좋아져서 놀라워요!. 저는 OpenAI 오디오 API를 사용하는 것도 정말 즐거웠습니다.

멀티모달 오디오 모델을 갖춘 팀은 OpenAI뿐이 아닙니다. 구글의 제미니도 오디오 입력을 받아들이고 ChatGPT와 유사한 방식으로 말할 수 있습니다. Amazon도 예정보다 앞서 Amazon Nova용 음성 모델을 발표했지만, 이 모델은 2025년 1분기에 출시될 예정입니다.

Google 노트북LM 9월에 출시된 이 앱은 사용자가 입력하는 모든 것에 대해 실감나는 대화를 나눌 수 있는 두 명의 '팟캐스트 호스트'를 통해 오디오 출력을 새로운 차원으로 끌어올렸으며, 나중에 사용자 지정 명령어를 추가했습니다.

12월부터 적용된 가장 최근의 새로운 변화는 실시간 동영상으로, 이제 ChatGPT 음성 모드에서 모델과 카메라 영상을 공유하고 실시간으로 보고 있는 것에 대해 이야기할 수 있는 옵션을 제공합니다. 구글의 제미니도 동일한 기능을 갖춘 프리뷰 버전을 출시했습니다.

6. 상품이 된 프롬프트 중심의 앱 생성

GPT-4는 이미 2023년에 이를 달성할 수 있지만, 그 가치는 2024년에야 드러납니다.

LLM은 코드 작성에 놀라운 재능을 가진 것으로 알려져 있습니다. 프롬프트만 제대로 작성할 수 있다면 HTML, CSS, JavaScript를 사용하여 완벽한 대화형 앱을 단 한 번의 프롬프트만으로 구축할 수 있습니다.

앤트로픽은 클로드 아티팩트 출시로 이 아이디어를 한 단계 더 발전시켰습니다.이는 획기적인 새 기능입니다. 아티팩트를 사용하면 클로드에서 온디맨드 인터랙티브 앱을 작성하여 클로드 인터페이스에서 바로 사용할 수 있습니다.

이 앱은 전적으로 Claude가 만든 URL 추출용 앱입니다:

저는 정기적으로 사용하고 있습니다. 10월에 제가 얼마나 이 기능에 의존하고 있는지 깨달았습니다.아티팩트를 사용하여 7일 동안 14개의 가젯을 만들었습니다!.

그 이후로 수많은 다른 팀들이 유사한 시스템을 구축했고, 10월에는 GitHub에서 GitHub Spark 버전을 출시했으며, 11월에는 미스트랄 채팅에서 캔버스라는 기능으로 추가했습니다.

발 타운의 스티브 크라우스 에 응답했습니다. 뇌 초당 2000개의 토큰을 사용하는 LLM이 어떻게 앱을 반복하고 1초 이내에 변경 사항을 확인할 수 있는지 보여주기 위해 버전을 만들었습니다.

그리고 12월에 Chatbot Arena 팀은 사용자가 두 가지 다른 모델을 사용하여 동일한 대화형 앱을 두 번 만들고 답변에 투표하는 새로운 리더보드를 출시했습니다. 이 기능이 이제 모든 주요 모델과 효과적으로 경쟁할 수 있는 상품이 되었다는 것은 이보다 더 설득력 있는 주장은 없을 것입니다.

저는 사용자가 프롬프트를 사용해 사용자 지정 가젯을 빌드하고 반복하며 자신의 데이터를 기반으로 데이터를 시각화할 수 있도록 하기 위해 데이터세트 프로젝트를 위해 이 릴리스를 고민해 왔습니다. 또한 uv를 통해 일회성 Python 프로그램을 작성할 때도 비슷한 패턴을 발견했습니다.

이러한 프롬프트 중심의 사용자 지정 인터페이스는 매우 강력하고 구축하기 쉬우므로(브라우저 샌드박싱의 복잡성을 이해하면) 2025년까지 다양한 제품에 기능으로 등장할 것으로 예상합니다.

7. 불과 몇 달 만에 강력한 모델이 대중화되었습니다.

2024년 단 몇 달 후면 전 세계 대부분의 국가에서 강력한 모델을 무료로 사용할 수 있게 됩니다.

OpenAI는 5월에 모든 사용자에게 GPT-4o를 무료로 제공했으며, 6월에는 Claude 3.5 Sonnet을 출시하면서 무료로 제공했습니다. 지난 1년 동안 무료 사용자는 대부분 GPT-3.5 수준의 모델만 사용할 수 있었기 때문에 신규 사용자는 LLM의 실제 기능에 대해 명확하게 알 수 없었기 때문에 이는 중요한 변화입니다.

OpenAI의 ChatGPT Pro가 출시됨에 따라, 이 시대는 영원히 끝날 것 같습니다!월 $200의 구독 서비스는 가장 강력한 모델인 o1 Pro를 이용할 수 있는 유일한 방법입니다. 월 200달러의 구독 서비스는 가장 강력한 모델인 o1 Pro를 이용할 수 있는 유일한 방법입니다.

O1 시리즈와 향후 출시될 모델의 핵심은 더 나은 결과를 얻기 위해 더 많은 계산 시간을 소비하는 것입니다. 따라서 SOTA 모델을 무료로 이용할 수 있는 시대는 지났다고 생각합니다.

8. 아직 실제로 태어나지 않은 지적인 신체

제 개인적인 의견입니다."에이전트"라는 단어는 매우 실망스럽습니다.. 명확하고 널리 이해되는 하나의 의미가 부족합니다 ...... 그러나 이 용어를 사용하는 사람들은 이를 인정하지 않는 것 같습니다.

"에이전트"를 구축 중이라고 말씀하신다면 저에게는 아무 말도 하지 않으시는 것입니다. 여러분의 마음을 읽지 않고는 수십 가지의 가능한 정의 중 어떤 것을 말하는지 알 방법이 없습니다.

제가 만나는 사람들은 크게 두 가지 유형이 있습니다.한 그룹은 에이전트를 사용자를 대신하여 행동하는 것, 즉 이동하는 에이전트로 생각하는 반면, 다른 그룹은 에이전트를 문제의 일부로 반복적으로 실행할 수 있는 도구에 대한 액세스 권한을 가진 LLM으로 생각합니다. '자율성'이라는 용어도 많이 사용되지만 이 역시 명확한 정의는 없습니다. (몇 달 전에 저는 에이전트에 대한 211개의 정의 모음을 트위터에 올렸고 gemini-exp-1206에게 이를 요약해 달라고 요청했습니다).

용어가 무엇을 의미하든 상관없습니다.상담원님, 여전히 "곧 출시될 것"이라는 느낌이 남아 있습니다.. 용어는 제쳐두고.실용성에 대해서는 여전히 회의적입니다.이는 속기 쉽다는 점에 기반한 문제입니다. LLM은 여러분이 말하는 모든 것을 믿습니다. 여행사나 디지털 비서, 심지어 리서치 도구가 진실과 거짓을 구분할 수 없다면 얼마나 유용할까요?

며칠 전, 존재하지도 않는 영화 '엔칸토 2'에 대해 완전히 잘못된 설명을 제공하는 구글 검색이 발견되었습니다.

적시 주입은 이러한 속임수의 당연한 결과입니다. 2022년 9월부터 논의해 온 이 문제를 해결하는 데 2024년에는 거의 진전이 없을 것으로 예상됩니다.

프롬프트 인젝션 공격은 이러한 '속임수'의 자연스러운 결과입니다. 2022년 9월부터 논의해 온 이 문제를 해결하기 위해 2024년에도 업계에서 거의 진전이 없을 것으로 예상됩니다.

가장 인기 있는 에이전트 개념이 AGI에 의존하게 될 것 같다는 생각이 들기 시작했습니다.'속임수'에 강한 모델을 만드는 것은 정말 어려운 일입니다!.

9. 평가, 매우 중요

앤트로픽의 아만다 애스켈(클로드의 경우). 캐릭터 그 뒤에 있는 대부분의 작업)는 이렇게 말했습니다:

좋은 시스템 프롬프트에는 지루하지만 중요한 비밀이 하나 있는데, 바로 테스트 중심 개발입니다. 시스템 프롬프트를 작성한 다음 테스트하는 방법을 알아내는 것이 아닙니다. 테스트를 작성한 다음 해당 테스트를 통과하는 시스템 프롬프트를 찾아야 합니다.

2024년에 이르러서는 다음과 같은 사실이 분명해졌습니다.LLM 기반 시스템을 위한 우수한 자동 평가 작성는 이러한 모델을 기반으로 유용한 앱을 구축하는 데 가장 필요한 기술입니다. 강력한 평가 제품군을 보유하고 있다면 경쟁사보다 더 빠르게 새로운 모델을 채택하고, 더 잘 반복하며, 더 안정적이고 유용한 제품 기능을 구축할 수 있습니다.

Vercel의 최고 기술 책임자인 Malte Ubl은 이렇게 말합니다:

v0(웹 개발 에이전트)를 처음 도입했을 때는 온갖 복잡한 전처리와 후처리를 통해 프롬프트를 보호하는 데 신경을 많이 썼습니다.

저희는 완전히 자유로이 실행되도록 내버려 두었습니다. 평가, 모델링, 특히 UX 프롬프트가 없는 것은 지침이 없는 고장난 ASML 기계와 같습니다.

저는 여전히 제 작업에 더 나은 모델을 찾기 위해 노력하고 있습니다. 평가가 중요하다는 것은 누구나 알고 있지만평가를 가장 잘 수행하는 방법에 대한 적절한 지침이 아직 부족합니다..

10. Apple 인텔리전스는 형편없지만 MLX는 훌륭합니다!

Mac 사용자로서 저는 이제 제가 선택한 플랫폼에 대해 훨씬 더 기분이 좋습니다.

2023년에는 NVIDIA GPU가 탑재된 Linux/Windows 머신이 없어서 새로운 모델을 사용해보기에는 큰 단점이 있는 것 같습니다.

이론적으로 64GB Mac은 CPU와 GPU가 동일한 양의 메모리를 공유할 수 있으므로 모델 실행에 적합한 컴퓨터여야 합니다. 실제로는 많은 모델이 모델 가중치와 라이브러리로 게시되며, 다른 플랫폼보다 NVIDIA의 CUDA를 선호합니다.

llama.cpp 에코시스템이 많은 도움을 주었지만, 진정한 돌파구는 Apple의 MLX 라이브러리였습니다.

Apple의 mlx-lm Python 지원은 내 Mac에서 다양한 mlx 호환 모델을 뛰어난 성능으로 실행합니다. Hugging Face의 mlx 커뮤니티는 필요한 형식으로 변환된 1000개 이상의 모델을 제공합니다. prince Canuma의 mlx-vlm 프로젝트는 훌륭하고 빠르게 진행되고 있으며, Apple에 비주얼 LLM을 가져다주었습니다. 카누마 왕자의 mlx-vlm 프로젝트는 훌륭하고 빠르게 진행되고 있으며, Apple Silicon에 시각적 LLM을 제공하기도 했습니다.

MLX는 게임 체인저였지만, Apple의 자체 Apple Intelligence 기능은 대부분 실망스러웠습니다.. 저는 지난 6월에 초기 출시에 대한 기사를 썼는데, 당시에는 Apple이 사용자 개인 정보를 보호하고 사용자가 LLM 앱에 대해 오해를 받는 것을 최소화하는 데 중점을 두었다고 낙관적으로 평가했습니다.

이제 이러한 기능을 사용할 수 있게 되었지만 여전히 상대적으로 비효율적입니다. 저는 LLM의 헤비 유저로서 이러한 모델이 어떤 기능을 제공하는지 잘 알고 있으며, Apple의 LLM 기능은 최첨단 LLM 기능의 모조품에 불과합니다. 대신 뉴스 헤드라인을 왜곡하는 알림 요약이 표시되고, 글쓰기 도우미 도구도 전혀 유용하지 않다고 생각합니다. 그래도 젠모지는 꽤 재미있습니다.

11. 추론 확장, '추론' 모델의 부상

2024년 마지막 분기에 가장 흥미로운 발전은 9월 12일에 출시된 OpenAI의 o1 모델인 o1-preview와 o1-mini로 대표되는 새로운 LLM 모폴로지의 등장이었습니다. 이러한 모델에 대해 생각하는 한 가지 방법은 생각의 사슬 프롬프트 기법의 확장으로 볼 수 있습니다.

요령은 주로 다음과 같습니다.모델이 해결하려는 문제에 대해 열심히 생각(큰 소리로 말)하게 하면, 일반적으로 다른 방법으로는 얻을 수 없었던 결과를 얻을 수 있습니다..

o1은 이 프로세스를 모델에 더 포함시킵니다. 세부 사항은 약간 모호합니다. o1 모델은 '추론 토큰'을 사용하여 사용자가 직접 볼 수 없는 문제를 생각한 다음(ChatGPT UI에 요약이 표시되기는 하지만) 최종 결과를 출력합니다.

여기서 가장 큰 혁신은 모델을 확장하는 새로운 방법을 열었다는 점입니다. 이제 모델은 추론에 더 많은 계산 노력을 기울여 더 어려운 문제를 해결할 수 있습니다.훈련 시 계산량을 늘려 모델 성능을 향상시키는 대신.

o1의 후속작인 o3는 12월 20일에 출시되었으며, 100만 달러 이상의 계산 시간 비용이 소요되었음에도 불구하고 ARC-AGI 벤치마크에서 인상적인 결과를 달성했습니다!

O3는 1월에 출시될 예정입니다. 이 정도의 컴퓨팅 비용으로 이득을 볼 수 있는 실제 문제가 있는 사람은 많지 않을 것 같습니다. 하지만 더 어려운 문제를 해결하기 위한 LLM 아키텍처의 진정한 다음 단계가 될 것 같습니다.

12월 19일, 구글은 이 분야의 첫 번째 참가자인 gemini-2.0-flash-thinking-exp를 출시했습니다.

알리바바의 Qwen 팀은 11월 28일에 Apache 2.0 라이선스에 따라 QwQ 모델을 출시했습니다. 그리고 12월 24일에는 QvQ라는 시각적 추론 모델을 출시했습니다.

DeepSeek 11월 20일에 채팅 인터페이스를 통해 DeepSeek-R1-Lite-프리뷰 모델을 시험 사용할 수 있게 되었습니다.

편집자 주: 지혜 스펙트럼도 2024년 마지막 날에 출시되었습니다.심층 추론 모델 GLM-Zero.

인공 지능과 메타는 아직 진전이 없지만 자체 추론 확장 모델을 가지고 있지 않다면 매우 놀랄 것입니다.

12. 현재 중국에서 최고의 LLM이 교육되고 있나요??

정확히는 아니지만 거의 비슷합니다! 눈길을 사로잡는 멋진 헤드라인이 되긴 합니다.

DeepSeek v3는 공개 라이선스 모델 중 가장 큰 685B 파라메트릭 모델이며, Meta의 라마 제품군 중 가장 큰 모델인 라마 3.1 405B보다 훨씬 큰 규모입니다.

벤치마크 결과 Claude 3.5 Sonnet과 동등한 수준으로 나타났으며, Vibe 벤치마크에서는 현재 Gemini 2.0 및 OpenAI 4o/o1 모델에 이어 7위에 랭크되어 있습니다. 이는 현재까지 공개 라이선스 모델 중 가장 높은 순위입니다.

정말 인상적인 점은DeepSeek v3교육 비용이 모델은 $5576000의 예상 비용으로 2788000 H800 GPU 시간으로 훈련되었습니다. 모델은 $5576000의 예상 비용으로 2788000 H800 GPU 시간으로 훈련되었습니다.Llama 3.1 405B는 30840000 GPU 시간으로 훈련되어 DeepSeek v3보다 11배 더 많았지만 모델의 기본 성능은 다소 떨어졌습니다.

중국 GPU 수출에 대한 미국의 규제가 매우 효과적인 훈련 최적화에 영감을 준 것으로 보입니다.

13. 운영 프롬프트의 환경 영향이 개선되었습니다.

호스팅 모델이든 로컬에서 실행하는 모델이든, 효율성 향상으로 인한 반가운 결과 중 하나는 지난 몇 년 동안 프롬프트 실행에 따른 에너지 소비와 환경 영향이 크게 감소했다는 것입니다.

OpenAI의 자체 프롬프트 요금은 당시 GPT-3의 요금보다 100배나 낮습니다.제가 알기로는 가장 저렴한 두 가지 모델 제공 업체인 Google Gemini와 Amazon Nova 모두 프롬프트가 손실로 운영되고 있다고 합니다.

즉, 개인 사용자로서 우리는 대부분의 프롬프트가 소비하는 에너지에 대해 전혀 죄책감을 느낄 필요가 없습니다. 길을 운전하거나 YouTube에서 동영상을 시청하는 것과 비교하면 그 영향은 무시할 수 있을 정도입니다.

딥서치 v3의 교육 비용은 600만 원 미만이며, 이는 교육 비용이 계속 하락할 수 있고 계속 하락해야 한다는 매우 좋은 신호입니다.

14. 새로운 데이터 센터, 여전히 필요한가요?

더 큰 문제는 앞으로 이러한 모델에 필요한 인프라를 구축하기 위한 경쟁이 치열해질 것이라는 점입니다.

구글, 메타, 마이크로소프트, 아마존 같은 기업들은 새로운 데이터 센터에 수십억 달러를 투자하고 있으며, 이는 전력망과 환경에 큰 영향을 미치고 있습니다. 심지어 새로운 원자력 발전소 건설에 대한 이야기도 나오고 있지만 이는 수십 년이 걸릴 것입니다.

이 인프라가 필요한가요? 600만 달러에 달하는 DeepSeek v3의 교육 비용과 지속적인 LLM 가격 인하로 충분히 그럴 수 있습니다. 하지만 이 인프라에 반대했다가 몇 년 후 틀렸다는 것이 증명된 대기업 임원이 되고 싶으신가요?

흥미로운 대조를 이루는 것은 19세기 전 세계 철도의 발전입니다. 이러한 철도의 건설에는 막대한 투자가 필요했고, 환경에 큰 영향을 미쳤으며, 건설된 노선 중 상당수는 불필요한 것으로 판명되었습니다.

그 결과 거품은 여러 차례 금융 붕괴로 이어졌고, 유용한 인프라는 물론 많은 파산과 환경 파괴를 남겼습니다.

15.2024, "슬롭"의 해

2024년은 '슬롭'이라는 단어가 예술 용어가 되는 해입니다. 딥페이트가 트위터에 쓴 글입니다:

'스팸'이 원치 않는 이메일의 고유명사가 된 것처럼, '슬롭'도 AI가 생성하는 원치 않는 콘텐츠의 고유명사로 사전에 등재될 예정입니다.

지난 5월에 이 정의를 조금 더 확장한 포스팅을 작성한 적이 있습니다:

"슬롭"은 인공지능에 의해 생성된 원치 않는 무수정 콘텐츠를 의미합니다.

'슬롭'이라는 단어가 마음에 드는 이유는 제너레이티브 AI를 사용해서는 안 되는 한 가지 방법을 간결하게 요약하고 있기 때문입니다!

16. 매우 효과적인 합성 훈련 데이터

놀랍게도 '모델 붕괴'라는 개념, 즉 재귀적으로 생성된 데이터로 학습할 때 AI 모델이 무너진다는 개념은 대중의 의식 속에 깊이 뿌리내리고 있는 것 같습니다. .

AI가 생성한 '슬롭'이 인터넷에 넘쳐나면 모델 자체가 성능이 저하되어 스스로의 생산량을 먹어치우며 결국에는 종말을 맞이하게 될 것입니다!

분명히 이런 일은 일어나지 않았습니다.. 대신 모델을 올바른 방향으로 유도하는 데 도움이 되는 인공 데이터를 생성하여 합성 콘텐츠를 학습하는 AI 연구소가 점점 더 많아지고 있습니다.

제가 본 가장 좋은 설명 중 하나는 Phi-4 기술 보고서에서 나온 것입니다.다음은 프로그램의 일부 요소입니다:

합성 데이터는 사전 학습의 중요한 부분으로 점점 더 보편화되고 있으며, Phi 모델 제품군은 항상 합성 데이터의 중요성을 강조해 왔습니다. 합성 데이터는 실제 데이터에 대한 저렴한 대안이라기보다는 실제 데이터에 비해 몇 가지 직접적인 이점이 있습니다.

구조화된 점진적 학습. 실제 데이터 세트에서 토큰 간의 관계는 복잡하고 간접적인 경우가 많습니다. 현재 토큰을 다음 토큰과 연결하기 위해 많은 추론 단계가 필요할 수 있으므로 모델이 다음 토큰 예측을 효과적으로 학습하기 어려울 수 있습니다. 반면 언어 모델에서 생성되는 각 토큰은 이전 토큰에 의해 예측되므로 모델이 결과 추론 패턴을 더 쉽게 따라갈 수 있습니다.

또 다른 일반적인 기법은 더 큰 모델을 사용하여 더 작고 저렴한 모델을 위한 학습 데이터를 생성하는 것이며, 점점 더 많은 연구소에서 이 기법을 사용하고 있습니다.

DeepSeek v3는 다음을 사용합니다. DeepSeek-R1 생성된 '추론' 데이터: Meta의 Llama 3.3 70B 미세 조정은 2,500만 개 이상의 합성 생성 예제를 사용합니다.

LLM에 사용되는 학습 데이터를 신중하게 설계하는 것이 이러한 모델을 만드는 데 있어 핵심인 것 같습니다. 웹에서 모든 데이터를 가져와 무분별하게 학습에 투입하던 시대는 이미 오래 전에 지나갔습니다.

17. LLM을 제대로 사용하는 것은 쉽지 않습니다!

저는 항상 LLM이 강력한 사용자 도구라고 강조해 왔습니다. 마치 전기톱으로 위장한 전기톱과도 같죠. 사용하기 쉬워 보이지만 챗봇에게 메시지를 입력하는 것이 얼마나 어려울까요? 하지만 실제로는 그렇지 않습니다.이러한 기능을 최대한 활용하고 많은 함정을 피하려면 다음과 같은 깊은 이해와 많은 경험이 필요합니다..

2024년에는 이 문제가 더욱 심각해질 것입니다.

인간의 언어로 대화할 수 있는 컴퓨터 시스템을 구축하여 질문에 대답할 수 있으며, 대개는 정답을 맞힙니다! ...... 질문이 무엇인지, 어떻게 질문하는지, 기록되지 않은 비밀 훈련 세트에 정확하게 반영할 수 있는지에 따라 다릅니다.

오늘날 사용 가능한 시스템의 수가 급증하고 있습니다. 시스템마다 문제를 해결하는 데 사용할 수 있는 도구가 다릅니다(예: Python, JavaScript, 웹 검색, 이미지 생성, 심지어 데이터베이스 쿼리 ......). 따라서 이러한 도구가 무엇인지, 무엇을 할 수 있는지, LLM이 이러한 도구를 사용하고 있는지 확인하는 방법을 더 잘 이해해야 합니다.

이제 ChatGPT를 실행하는 완전히 다른 두 가지 방법이 있다는 사실을 알고 계셨나요?

외부 API와 통신하는 Claude 아티팩트를 구축하려면 CSP 및 CORS HTTP 헤더에 대해 알아두는 것이 좋습니다.

이러한 모델의 기능은 개선되었지만 대부분의 한계는 여전히 남아 있습니다. OpenAI의 o1은 마침내 스트로베리의 'r'을 계산할 수 있게 되었지만 LLM으로서의 특성과 런타임 하네스로 인해 여전히 기능이 제한됩니다. o1은 웹 검색이나 코드 인터프리터를 사용할 수 없지만 GPT-4o는 가능하며 둘 다 동일한 ChatGPT UI에서 사용할 수 있습니다. GPT-4o는 웹 검색이나 코드 통역기를 사용할 수 있지만, 둘 다 동일한 ChatGPT UI에서 가능합니다.

우리는 어떻게 했나요? 아무것도 하지 않았습니다. 대부분의 사용자는 '초보자'입니다. 기본 LLM 채팅 UI는 컴퓨터를 처음 접하는 사용자에게 Linux 터미널을 던져주고 모든 것을 스스로 처리하기를 기대하는 것과 같습니다.

동시에, 최종 사용자가 이러한 기기의 작동 방식과 기능에 대해 부정확한 사고 모델을 개발하는 경우가 점점 더 많아지고 있습니다. 저는 이러한 사례를 많이 보았는데, 이러한 모델의 본질적인 불안정성과 올바른 프롬프트만 제공하면 무엇이든 말하게 만들 수 있다는 사실을 감안할 때, ChatGPT의 스크린샷으로 논쟁에서 이기려는 사람들이 많았습니다.

반대로 많은 '노련한' 사용자들은 결함이 많은 도구로 어떤 이점을 얻을 수 있는지 알지 못해 LLM을 완전히 포기하기도 합니다. LLM을 최대한 활용하기 위한 핵심은 이 불안정하지만 강력한 기술을 사용하는 방법을 배우는 것입니다. 이것은 분명 분명한 기술이 아닙니다!

유용한 교육 콘텐츠는 너무나도 많지만, 우리는 이 모든 것을 맹렬하게 트윗하는 인공지능에게 맡기는 것보다 더 나은 일을 해야 합니다.

18. 인지력 저하, 여전히 존재함

지금.ChatGPT에 대해 들어본 사람은 많지만 클로드에 대해 들어본 사람은 얼마나 될까요?

이러한 문제에 대해 적극적으로 우려하는 사람들과 그렇지 않은 99% 사람들 사이에는 다음과 같은 차이가 있습니다.위대한 지식 격차.

지난 달에는 휴대폰 카메라로 무언가를 가리키고 음성으로 이야기할 수 있는 실시간 인터페이스가 인기를 끌었습니다(......). 크리스마스 할아버지인 척하는 옵션도 있습니다. 대부분의 자칭 '괴짜'들은 아직 시도해 보지 않았습니다.

이 기술이 사회에 미치는 지속적인 (그리고 잠재적인) 영향을 고려할 때, 저는 현재의이러한 구분은 건강하지 않습니다.. 상황을 개선하기 위해 더 많은 노력을 기울여 주셨으면 합니다.

19.LLM, 더 나은 비판 필요

많은 사람들이 LLM을 정말 싫어합니다. 제가 자주 방문하는 일부 사이트에서는 "LLM이 매우 유용하다"는 제안만으로도 전쟁이 시작될 정도입니다.

이해합니다. 환경 영향, 학습 데이터의 신뢰성 부족, 긍정적이지 않은 애플리케이션, 사람들의 일자리에 미칠 수 있는 잠재적 영향 등 사람들이 이 기술을 좋아하지 않는 이유는 많습니다.

LLM은 분명 비판받아 마땅합니다.우리는 이러한 문제를 논의하고, 이를 완화할 방법을 찾고, 사람들이 이러한 도구를 책임감 있게 사용하는 방법을 배워 긍정적인 활용이 부정적인 영향을 상쇄할 수 있도록 도와야 합니다.

저는 이 기술에 회의적인 사람들을 좋아합니다. 2년이 넘는 기간 동안 과대광고가 난무하고 잘못된 정보가 방송에 넘쳐났습니다. 이러한 과대광고에 기반한 잘못된 결정도 많이 내려졌습니다.비판은 미덕입니다.

의사 결정권을 가진 사람들이 이러한 도구를 적용하는 방법에 대해 올바른 결정을 내릴 수 있도록 하려면 먼저 실제로 좋은 애플리케이션이 있다는 것을 인식하고, 비실용적인 많은 함정을 피하면서 이를 실제로 적용하는 방법을 설명해 주어야 합니다.

제 생각에는이 분야 전체가 아무리 많은 진실을 대변하더라도 끊임없이 무언가를 만들어내는 환경 적으로 재앙적인 표절 기계라고 사람들에게 말하는 것은이 사람들에게 해를 끼칩니다... 여기에는 진정한 가치가 있지만 그 가치를 깨닫는 것은 직관적이지 않으며 지침이 필요합니다.

이러한 내용을 이해하는 사람은 다른 사람들이 이를 이해할 수 있도록 도와야 할 책임이 있습니다.