10 объявлений, которые сделали 2024 год знаковым для ИИ

25 декабря, 2024 Дядя Влад

Официально прошла вторая годовщина начала бума искусственного интеллекта, и дела не замедлились. Как раз наоборот. Генеративный ИИ развивается с почти ошеломляющей скоростью, охватывая новые платформы, среды и даже устройства с неумолимой скоростью.

Вот 10 объявлений, которые сделали 2024 год монументальным в мире искусственного интеллекта.

OpenAI выпускает GPT-4o

Когда ChatGPT (под управлением GPT-3.5 ) впервые появился в ноябре 2022 года, это была по сути модная управляемая компьютером игра Mad Libs. Не поймите меня неправильно, даже эта возможность была революционной в то время, но только после выпуска GPT-4o в мае 2024 года генеративные системы искусственного интеллекта по-настоящему вступили в свои права.

Основываясь на способности своего предшественника анализировать и генерировать как текст, так и изображения, GPT-4o обеспечивает более полное контекстное понимание по сравнению с одним только GPT-4 . Это приводит к повышению производительности во всем: от подписей к изображениям и визуального анализа до создания творческого и аналитического контента, такого как графики, диаграммы и изображения.

Расширенный голосовой режим помогает компьютерам говорить как люди

Приложение ChatGPT Advanced Voice Mode для ПК — ОпенАИ

В сентябре OpenAI еще раз продемонстрировала, почему она является ведущей фирмой в области искусственного интеллекта, выпустив расширенный голосовой режим для подписчиков ChatGPT. Эта функция избавила пользователей от необходимости вводить свои вопросы в окно подсказки и вместо этого позволила им общаться с ИИ, как с другим человеком.

Используя время отклика GPT-4o, эквивалентное человеческому, расширенный голосовой режим фундаментально изменил то, как люди могут взаимодействовать с машинным интеллектом, и помог пользователям раскрыть весь творческий потенциал ИИ.

Генеративный ИИ выходит на передний план

Использование визуального интеллекта на iPhone 16 Pro с отображением ответа ChatGPT. — Визуальный интеллект на iPhone полагается на камеру, чтобы понять окружающий мир. Кристин Ромеро-Чан / Digital Trends

Когда ChatGPT дебютировал в 2022 году, это был единственный искусственный интеллект в городе, доступный только в одном месте: ChatGPT.com. О, какая разница в двух годах. Сегодня генеративный искусственный интеллект можно найти во всем: от смартфонов и устройств «умного дома» до автономных транспортных средств и гаджетов для мониторинга здоровья. Например, ChatGPT доступен в виде настольного приложения, API, мобильного приложения и даже по номеру 800 . Microsoft, со своей стороны, интегрировала искусственный интеллект непосредственно в свою линейку ноутбуков Copilot+ .

Пожалуй, самым показательным примером, конечно же, является Apple Intelligence . Возможно, это был не самый успешный запуск (многие функции мы все еще ждем), но с точки зрения максимального доступности возможностей генеративного искусственного интеллекта нет ничего более важного, чем Apple Intelligence.

Ни ПК Copilot+, ни Apple Intelligence не смогли реализовать то, чего, вероятно, хотели участвующие компании — особенно Microsoft — но, как мы все знаем, это только начало.

Возрождение атомной энергетики

До этого года ядерная энергетика считалась в Америке проигрышным предложением. Считается ненадежным и небезопасным, во многом из-за инцидента на Три-Майл-Айленде в 1979 году, когда один из основных реакторов станции частично расплавился и выбросил в атмосферу токсичные радиоактивные материалы. Однако из-за быстро растущего количества электроэнергии, необходимой современным моделям на большом языке, и огромной нагрузки, которую они оказывают на региональные энергосистемы, многие ведущие компании, занимающиеся искусственным интеллектом, внимательно рассматривают возможность управления своими центрами обработки данных с использованием энергии атома.

Amazon, например, приобрела у Talen ядерный центр обработки данных искусственного интеллекта в марте, а затем в октябре подписала соглашение о приобретении миниатюрных автономных малых модульных реакторов (SMR) у Energy Northwest. Microsoft, чтобы не отставать, приобрела производственные мощности самого Три-Майл-Айленда и в настоящее время работает над тем, чтобы снова запустить реактор №1 и начать производить электроэнергию.

Агенты могут стать следующим большим достижением в области генеративного искусственного интеллекта

очки и чатгпт — Матеус Бертелли / Пексельс

Оказывается, на задачу расширения вашей большой языковой модели можно потратить не так много обучающих данных, энергии и воды, пока не столкнетесь с проблемой уменьшающейся отдачи. Индустрия искусственного интеллекта испытала это на собственном опыте в 2024 году и в ответ начала отходить от масштабных программ LLM, которые изначально определяли опыт генеративного искусственного интеллекта в пользу агентов; меньшие по размеру и более отзывчивые модели, предназначенные для выполнения конкретных задач, а не для того, чтобы пытаться сделать все, что от них может попросить пользователь.

Anthropic представила своего агента под названием Computer Use в октябре. Microsoft последовала этому примеру, выпустив Copilot Actions в ноябре, а OpenAI, как сообщается, собирается выпустить свою функцию агента в январе .

Распространение моделей рассуждения

Многие из сегодняшних больших языковых моделей больше ориентированы на максимально быстрое генерирование ответов, часто за счет точности и правильности. Модель рассуждения o1 OpenAI, которую компания выпустила в качестве предварительной версии в сентябре и в качестве полнофункциональной модели в декабре, использует противоположный подход: она жертвует скоростью ответа, чтобы внутренне проверить обоснование данного ответа, гарантируя, что он будет максимально точным и полным. насколько это возможно.

Хотя эта технология еще не полностью принята общественностью (o1 в настоящее время доступна только подписчикам уровней Plus и Pro), ведущие компании, занимающиеся искусственным интеллектом, продолжают разрабатывать свои собственные версии. Google объявила о своем ответе на o1, получившем название Gemini 2.0 Flash Thinking Experimental , 19 декабря, а OpenAI сообщила, что уже работает над преемником o1, который она называет o3 , во время своей прямой трансляции «12 дней OpenAI» 20 декабря.

Поиск с помощью искусственного интеллекта распространяется по всему Интернету

Приложение Perplexity AI, работающее на iPhone 14 Pro. — Джо Маринг / Цифровые тенденции

Генеративный ИИ в наши дни, кажется, повсюду, так почему бы ему не интегрировать его в одну из самых основных функций Интернета? Google экспериментировал с этой технологией в течение последних двух лет, впервые выпустив Search Generative Experience в мае 2023 года, а затем в мае этого года запустил функцию обзора AI .Обзор AI генерирует сводку информации, которую пользователь запрашивает в верхней части страницы результатов поиска.

Perplexity AI развивает эту технику на шаг дальше. Его «система ответов» просматривает Интернет в поисках информации, которую запрашивают пользователи, а затем синтезирует эти данные в последовательный диалоговый (и цитируемый) ответ, эффективно устраняя необходимость переходить по списку ссылок. OpenAI, всегда новатор, разработала почти идентичную систему для своего чат-бота, получившего название ChatGPT Search , который она дебютировала в октябре.

Artifact от Anthropic начинает совместную революцию

Логотип Anthropic на красном фоне. — антропный

Попытка создавать, анализировать и редактировать большие файлы — будь то длинные творческие эссе или фрагменты компьютерного кода — непосредственно в потоке чата может быть утомительной, требуя бесконечной прокрутки вперед и назад, чтобы просмотреть документ целиком.

Функция «Артефакты» Anthropic , дебютировавшая в июне, помогает смягчить эту проблему, предоставляя пользователям отдельное окно предварительного просмотра, в котором можно просматривать текст, созданный искусственным интеллектом, вне основного разговора. Эта функция оказалась настолько популярной, что OpenAI быстро последовала ее примеру, выпустив собственную версию.

Его новейшие модели и функции превратили Anthropic в грозного соперника OpenAI и Google в этом году, что само по себе кажется значительным.

Генераторы изображений и видео наконец-то разобрались с пальцами

Используйте управление камерой, чтобы целенаправленно направлять каждый кадр.
Узнайте, как это сделать, с помощью сегодняшней Runway Academy. pic.twitter.com/vCGMkkhKds
— Подиум (@runwayml) 2 ноября 2024 г.

Раньше обнаружить изображение или видео, сгенерированное ИИ, было так же просто, как подсчитать количество придатков, которые показывает объект — очевидно, что было создано что-то большее, чем две руки, две ноги и 10 пальцев, как это продемонстрировали изображения в стиле Кроненберга в Stable Diffusion 3. Июнь. Тем не менее, по мере того, как 2024 год подходит к концу, отличить контент, созданный человеком, от машинного становится значительно сложнее, поскольку генераторы изображений и видео быстро улучшили как качество, так и физиологическую точность своей продукции.

Видеосистемы искусственного интеллекта, такие как Kling , Gen 3 Alpha и Movie Gen , теперь способны создавать фотореалистичные клипы с минимальными искажениями и точным управлением камерой, в то время как такие системы, как Midjourney , Dall-E 3 и Imagen 3 , могут создавать неподвижные изображения с помощью поразительная степень реализма (и минимум галлюцинаторных артефактов) во множестве художественных стилей.

Ах да, и Sora от OpenAI наконец-то дебютировала в рамках декабрьских анонсов . Битва за видеомодели, генерируемые искусственным интеллектом, накаляется, и в 2024 году они стали шокирующе впечатляющими.

Усилия Илона Маска стоимостью 10 миллиардов долларов по созданию крупнейшего в мире кластера обучения искусственному интеллекту

Илон Маск на Tesla Cyber Rodeo. — Цифровые тенденции

В этом году xAI запустила Grok 2.0, последнюю модель, встроенную прямо в X. Но более важные новости о проекте Илона Маска в области искусственного интеллекта касаются того, к чему оно приведет в будущем. В 2024 году Илон Маск приступил к строительству « крупнейшего в мире суперкомпьютера » недалеко от Мемфиса, штат Теннесси, который был запущен в эксплуатацию 22 июля в 4:20 утра. Суперкластеру, оснащенному 100 000 графическими процессорами Nvidia H100, поручено обучать новые версии xAI. Модель генеративного ИИ Грока , которая, по утверждению Маска, станет «самым мощным ИИ в мире».

Ожидается, что Маск потратит около 10 миллиардов долларов на капитальные затраты и затраты на логические выводы только в 2024 году, но, как сообщается, он работает над удвоением количества графических процессоров, питающих суперкомпьютер, в новом году.