Обзор недели: начало 2024 года - достаточно шокирующая неделя для начала создания поля ИИ

Новости ИИОпубликовано 2 года назад Круг обмена ИИ
6.8K 00

На этой неделе компания Nvidia обошла Amazon и материнскую компанию Google, Alphabet, и стала третьей в мире компанией с самой высокой рыночной капитализацией - 1,83 триллиона долларов. Интересный факт: в последний раз Nvidia превзошла Amazon по рыночной капитализации в 2002 году. 🤯 Какой шокирующий взлет ИИ!

 

Теперь давайте посмотрим на некоторых из них.

 

 

OpenAI совершает революцию в мире видеопроизводства

 

Чуть меньше года назад технология создания текстовых видео на основе ИИ была исключительно плоха (помните видео с Уиллом Смитом?). . Но буквально вчера OpenAI выпустила Sora, свою первую модель генерации видео, и всего за один день она перевернула представление общественности об ИИ-видео.

Вкратце: Sora - это модель ИИ, которая может создавать до 60 секунд видео на основе текстовых подсказок, и это диффузионная модель, основанная на предыдущих исследованиях OpenAI по моделям DALL-E и GPT.

Особенность Sora заключается в том, что она создает чрезвычайно реалистичные, высококачественные сцены, более чем в десять раз превосходящие по длине видеоролики существующих видеогенераторов. Она способна точно учесть всевозможные детали и понять, как они существуют в реальном мире.

Но это еще не все: он также может генерировать изображения (берегитесь Midjourney), создавать видео на основе изображений, редактировать видео с помощью текстовых подсказок, объединять два видео и даже создавать бесконечные циклы.

Каковы недостатки? OpenAI выпустила модель в "исследовательских целях" (или для создания шумихи), но все еще ждет, когда команда по оценке безопасности завершит оценку рисков.

OpenAI также признает, что у модели есть недостатки: Sora иногда испытывает проблемы с улавливанием пространственных деталей и физических законов. Иногда она выдает совершенно нелогичные результаты, например, генерирует видео бегуна, который бежит задом наперед по беговой дорожке.

Попробуйте: хотя сейчас у нас нет возможности испытать Sora напрямую, вы можете познакомиться с симулятором генерации видео в исследовательской работе OpenAI. Или же вы можете присоединиться к толпе людей, которые постоянно отправляют Сэму Альтману запросы на подсказки на платформе X, и попробовать поиграть с технологией (вот любимый пример).

От деталей до целого: прорыв OpenAI в области искусственного интеллекта для видео просто умопомрачителен. Кто бы мог представить, каких высот достигнет технология генерации видео к 2025 году, если бы такие успехи были достигнуты всего за один год?

 

 

Google запускает обновленную версию Gemini 1.5

 

Близнецы 1.5 Профессионал демонстрирует рассуждения, анализируя 402 страницы стенограмм

 

Через неделю после того, как Google выпустила более мощный Gemini Ultra, компания представила Gemini 1.5, мультимодель Gemini, которая устанавливает новые стандарты.

Как это работает? Gemini 1.5 настолько эффективна благодаря экспертной гибридной архитектуре: для каждого запроса она активирует только определенную часть модели, а не всю модель целиком.

Почему это так важно? Gemini 1.5 способен обрабатывать огромное количество информации одновременно - его контекстное окно вмещает до 1 миллиона лексем, если быть точным. Это означает, что он может обрабатывать 750 000 слов, 11 часов аудио, 1 час видео и десятки тысяч строк кода.

Производительность на практике: Gemini 1.5, как было показано, понимает и осмысливает 402 страницы стенограммы полета "Аполлона-11" на Луну, точно анализирует многочисленные сюжеты и события 44-минутного немого фильма, а также модифицирует и интерпретирует до 100 000 строк кода.

Отказ от ответственности: Пока это недоступно для широкой публики, но Google скоро представит 1.5 Pro со стандартным контекстным окном в 128 000 токенов, а со временем масштабируется до 1 миллиона токенов вычислительной мощности.

 

 

ChatGPT наконец-то может вспомнить

Вы когда-нибудь общались с ChatGPT, и вам казалось, что вы застряли в бесконечном цикле "Подождите, кто вы?"? Кто ты?". Теперь у OpenAI есть решение: у ChatGPT есть функция запоминания.

Инновации OpenAI: добавление функции "Память" (пока в бета-версии) позволяет ChatGPT сохранять и вспоминать информацию, полученную в предыдущих чатах, так что вам больше не нужно начинать каждый разговор заново.

Как это работает: вы можете явно попросить ChatGPT запомнить определенную деталь, или же попросить его автоматически собирать и запоминать информацию. Пример:

Вы сообщаете ChatGPT о своей беззерновой пекарне, и когда вы спрашиваете рецепты пирожных, он рекомендует вам только беззерновые рецепты.

Вы сообщаете ChatGPT, что хотите, чтобы протокол отображался в виде столбцов с пунктиром и заголовков, выделенных жирным шрифтом, и он будет применять этот формат ко всем будущим отчетам о собрании.

OpenAI предлагает ряд опций, позволяющих пользователям контролировать хранение своих воспоминаний:

Пользователи могут просматривать содержимое воспоминаний, хранящихся в ChatGPT, и выборочно удалять часть информации.

Используя скрытый режим, пользователи могут инициировать запросы, не полагаясь на предыдущие воспоминания.

От деталей к целому: новая функция памяти ChatGPT позволяет сократить время, затрачиваемое на ввод одного и того же текста, и избежать разочарования. Однако эта новая функция - нечто большее, чем просто удобство, это большой скачок вперед в развитии искусственного интеллекта в направлении очеловечивания взаимодействия.

 

 

Нажива на звуке с ElevenLabs

Компания ElevenLabs только что запустила план выплат для актеров озвучивания - совершенно новую возможность для всех желающих зарабатывать деньги с помощью искусственного интеллекта.

подробно: Программа Sound Actor Payment Plan позволяет профессионалам звукозаписи (да кому угодно) создавать и распространять цифровые клонированные версии своих собственных голосов.

Пользователям достаточно загрузить 30-минутный образец голоса и указать описательные данные (например, акцент и пол).

После загрузки в звуковую библиотеку ElevenLab ваш голос можно использовать по всему миру для озвучивания и дикторских проектов.

Чтобы предотвратить злоупотребления, администраторы ElevenLabs отслеживают проекты, в которых используется ваш голос, и отмечают любое неуместное использование. Вы также можете включить автоматические фильтры для дополнительной защиты.

От микро до макро: многие опасаются, что искусственный интеллект лишит творческих людей работы. Но ElevenLabs - пример того, что ИИ может открыть новые, финансово прибыльные возможности для творческих людей и авторов.

 

  • Компания Meta представила V-JEPA - способ обучения моделей ИИ реальному миру с помощью видео.
  • Сэм Альтман ищет 7 триллионов долларов (да, с буквой "т") для нового проекта по созданию чипов искусственного интеллекта.
  • Пакистанский политический кандидат использовал искусственный интеллект для управления своей кампанией - из тюрьмы.
  • Компания Nvidia запустила персонального чат-бота, который работает локально на вашем компьютере.
  • Компания Apple только что выпустила новый инструмент для анимации изображений под названием Keyframer.
  • В этом году искусственный интеллект получил свой мейнстрим на Суперкубке
  • Исследователи Amazon разработали самую большую на сегодняшний день модель преобразования текста в речь - и получили многообещающие результаты.
  • Microsoft обозначила три основных тренда в области ИИ, за которыми стоит следить в 2024 году.
© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...