이번 주에 엔비디아는 아마존과 구글의 모회사인 알파벳을 제치고 시가총액 1조 8,300억 달러로 세계에서 세 번째로 높은 기업 가치가 있는 기업으로 등극했습니다. 재미있는 사실을 하나 알려드리자면, 엔비디아가 마지막으로 아마존의 시가총액을 넘어선 것은 2002년에였습니다. AI의 놀라운 부상!
이제 몇 가지 인기 있는 서비스를 살펴보겠습니다.
비디오 프로덕션 세계에 혁신을 가져온 OpenAI
불과 1년 전만 해도 AI 기반 텍스트 생성 동영상 기술은 매우 형편없었습니다(윌 스미스 동영상 기억하시나요?). . 하지만 바로 어제 OpenAI는 첫 번째 동영상 생성 모델인 Sora를 출시했고, 단 하루 만에 AI 동영상에 대한 대중의 인식을 완전히 뒤바꿔 놓았습니다.
간단히 말해, 소라는 텍스트 단서를 기반으로 최대 60초 분량의 동영상을 제작할 수 있는 AI 모델이며, OpenAI의 이전 연구인 DALL-E 및 GPT 모델을 기반으로 하는 확산 모델입니다.
Sora의 특별한 점은 기존 동영상 생성기보다 10배 이상의 동영상 길이로 매우 사실적인 고품질 장면을 생성한다는 것입니다. 모든 종류의 세부 사항을 정확하게 고려하고 실제 세계에 어떻게 존재하는지 이해할 수 있습니다.
이미지 생성(중간 여정 주의), 이미지 기반 동영상 생성, 텍스트 프롬프트로 동영상 편집, 두 개의 동영상 병합, 무한 루프 생성도 가능합니다.
단점은 무엇인가요? OpenAI는 '연구 목적'(또는 화제를 불러일으키기 위해)으로 이 모델을 공개했지만, 아직 보안 평가 팀이 위험 평가를 완료하기를 기다리고 있습니다.
OpenAI는 또한 모델에 단점이 있다는 것을 인정합니다. 소라는 때때로 공간적 세부 사항과 물리적 법칙을 포착하는 데 문제가 있습니다. 러닝머신에서 조깅하는 사람이 뒤로 달리는 동영상을 생성하는 등 완전히 비논리적인 결과를 생성하는 경우도 있습니다.
사용해 보기: 지금 당장 Sora를 직접 체험할 수 있는 방법은 없지만, OpenAI의 연구 논문에서 동영상 생성 시뮬레이터를 체험해 볼 수 있습니다. 또는 Platform X에서 샘 알트만에게 끊임없이 프롬프트 요청을 보내는 수많은 사람들과 함께 이 기술을 사용해 볼 수 있습니다(개인적으로 좋아하는 예는 다음과 같습니다).
세부적인 것부터 전체적인 것까지: OpenAI의 AI 비디오 분야에서의 혁신은 놀랍기 그지없으며, 불과 1년 만에 이루어진 이러한 발전으로 2025년까지 비디오 생성 기술이 도달할 수 있는 최고치를 누가 상상할 수 있었을까요?
Google, 업그레이드된 Gemini 1.5 출시
쌍둥이자리 1.5 Pro는 402페이지 분량의 대본을 분석하여 추론을 보여줍니다.
구글은 더 강력한 Gemini Ultra를 출시한 지 일주일 후, 새로운 표준을 제시하는 멀티 모델 Gemini 1.5를 출시했습니다.
어떻게 작동하나요제미니 1.5는 전문적인 하이브리드 아키텍처 덕분에 매우 효율적입니다. 각 쿼리에 대해 전체 모델이 아닌 모델의 특정 부분만 활성화합니다.
왜 중요한가요? Gemini 1.5는 한 번에 엄청난 양의 정보를 처리할 수 있으며, 정확하게는 최대 1백만 개의 토큰을 처리할 수 있습니다. 즉, 75만 단어의 입력, 11시간 분량의 오디오, 1시간 분량의 비디오, 수만 줄의 코드를 처리할 수 있습니다.
실제 성능: Gemini 1.5는 아폴로 11호의 달 탐사 기록 402페이지를 이해하고 추론하며, 44분짜리 무성 영화의 수많은 줄거리와 사건을 정확하게 분석하고, 최대 10만 줄의 코드를 수정하고 해석할 수 있는 것으로 나타났습니다.
고지 사항: 아직 일반에 공개되지는 않았지만, Google은 곧 128,000개의 표준 컨텍스트 창을 갖춘 1.5 Pro를 출시하고 향후 토큰 처리 능력을 최대 100만 개까지 확장할 예정입니다.
ChatGPT는 마침내
ChatGPT로 채팅을 하다가 "잠깐만요, 누구세요?"라는 끝없는 반복에 갇힌 듯한 경험을 해본 적이 있으신가요? "누구세요? 이제 OpenAI가 해결책을 제시합니다. ChatGPT에는 메모리 기능이 있습니다.
OpenAI 혁신: 메모리 기능(아직 베타 버전)이 추가되어 이전 채팅에서 공유한 정보를 저장하고 불러올 수 있으므로 더 이상 모든 대화에서 처음부터 다시 시작할 필요가 없습니다.
사용 방법: 특정 세부 정보를 기억하도록 ChatGPT에 명시적으로 요청하거나 자동으로 정보를 캡처하여 기억하도록 할 수 있습니다. 예시:
밀가루를 사용하지 않는 빵집에 대해 ChatGPT에 알려주면 브라우니 레시피를 요청하면 밀가루를 사용하지 않는 레시피만 추천해줍니다.
ChatGPT에 회의록을 글머리 기호 열과 굵은 제목으로 표시하고 싶다고 말하면 향후 모든 회의 요약에 이 형식을 적용합니다.
개인 정보 보호 문제는 어떻게 되나요? OpenAI는 사용자가 자신의 기억을 저장하는 것을 제어할 수 있는 다양한 옵션을 제공합니다:
사용자는 ChatGPT에 저장된 메모의 내용을 확인하고 일부 정보를 선택적으로 삭제할 수 있습니다.
스텔스 모드를 사용하면 이전 기억에 의존하지 않고 쿼리를 시작할 수 있습니다.
세부적인 부분부터 전체까지: ChatGPT의 새로운 메모리 기능은 같은 내용을 반복해서 입력하는 번거로움을 줄여 사용자의 시간을 절약하고 좌절감을 방지합니다. 하지만 이 새로운 기능은 편의성 그 이상의 의미로, 인간적인 상호작용을 향한 AI의 큰 도약입니다.
ElevenLabs로 사운드 수익 창출하기
ElevenLabs는 누구나 AI로 수익을 창출할 수 있는 새로운 기회인 보이스 액터 페이 플랜을 출시했습니다.
세부 정보: 사운드 액터 유료 플랜을 사용하면 사운드 전문가(실제로 누구나)가 자신의 목소리를 디지털로 복제하여 공유할 수 있습니다.
사용자는 30분 분량의 음성 샘플을 업로드하고 억양과 성별 등의 세부 정보를 제공하기만 하면 됩니다.
ElevenLab의 사운드 라이브러리에 업로드한 음성은 전 세계에서 보이스오버 및 내레이션 프로젝트에 사용할 수 있습니다.
남용을 방지하기 위해 ElevenLabs 관리자는 사용자의 음성을 사용하는 프로젝트를 추적하고 부적절한 사용에 플래그를 지정합니다. 추가 보호를 위해 자동 필터를 활성화할 수도 있습니다.
미시적인 것부터 거시적인 것까지: AI가 창의적인 일자리를 빼앗을 것이라는 우려가 많습니다. 하지만 ElevenLabs는 크리에이티브와 창작자에게 새롭고 수익성 있는 기회를 제공할 수 있는 AI의 잠재력을 보여주는 사례입니다.
- 메타는 동영상을 통해 실제 세계에 대한 AI 모델을 학습시키는 방법인 V-JEPA를 소개했습니다.
- 샘 알트먼은 새로운 AI 칩 프로젝트에 7조 원('t'자 포함)을 투자할 계획입니다.
- 파키스탄의 한 정치 후보가 감옥에서 AI를 활용해 선거 운동을 관리했습니다.
- 엔비디아는 PC에서 로컬로 실행되는 개인화된 챗봇을 출시했습니다.
- Apple에서 키프레머라는 새로운 이미지 애니메이션 도구를 출시했습니다.
- 올해 슈퍼볼에서 AI가 주류로 떠오른 순간
- Amazon 연구원들은 지금까지 가장 큰 규모의 텍스트 음성 변환 모델을 개발했으며, 그 결과 기대할 만한 성과를 거두었습니다.
- Microsoft는 2024년에 주목해야 할 세 가지 주요 AI 트렌드를 설명했습니다.
© 저작권 정책
이 글은 저작권이 있으며 무단으로 복제해서는 안 됩니다.
관련 문서
댓글 없음...