Робот OpenAI взрывается на сцене! ChatGPT наконец-то обрел тело, может говорить, читать и выполнять работу по дому.

14 марта, 2024 Дядя Влад

Большие модели, представленные GPT-4, имеют мозг, и следующим шагом будет потребность в теле робота, способном нести этот мозг.

Вчера поздно вечером компания-звезда роботов-гуманоидов Fig AI шокирующе опубликовала видео, демонстрирующее серию диалоговых взаимодействий, выполняемых их роботом Fig 01 при поддержке мощной модели OpenAI.

Робот на видео демонстрирует гибкую реакцию на действия, а его беглость общения с людьми практически сравнима с беглостью реальных людей.

Это менее чем через полмесяца после того, как Рисунок AI получил инвестиции от OpenAI, Microsoft, NVIDIA и других компаний. Это также позволило мне увидеть, как будет выглядеть с телом самая мощная мультимодальная большая модель OpenAI.

Рисунок 01: робот-гуманоид, который понимает вас лучше всего?

Благодаря мощной поддержке мультимодальной большой модели OpenAI Рисунок 01 теперь является экспертом в распознавании объектов на столе. Яблоки, сушилки, чашки и тарелки — все это для него проще простого!

Когда вы голодны и хотите, чтобы он съел целый глоток, он мгновенно поймет ваши мысли и плавно подаст вам яблоко.

Более того, он может даже подобрать выброшенный вами мусор и объяснить, почему он только что дал вам яблоко. С помощью крупных моделей Рисунок 01 может понять единственную еду на столе — яблоки.

По команде человека Фигура 01 также может выполнять работу по дому и убирать посуду.Этот робот просто лучший партнер в семейной жизни.

Увидев это потрясающее видео, пользователи сети отреагировали по-разному.

Пользователям сети не терпится назначить задачи Рисунок 01. Почему в список задач включены фильмы о предшественниках роботов?

Неужели конкуренты боятся этого увидеть, тревожатся в душе и готовятся тайно готовиться к большому техническому соревнованию?

Более взволнованные пользователи сети заявили, что рассвет AGI, похоже, уже не за горами.

Конечно, всегда есть критические голоса. Некоторые пользователи сети жаловались, почему этот робот заикается?

Пользователи сети также не упустили возможность пошутить.

Бретт Адок, глава Рисунок AI, не пожелал оставаться один и выскочил на X, чтобы дать замечательную интерпретацию.

Видео демонстрирует применение сквозных нейронных сетей. Во время этого процесса дистанционное управление (телеоп) не используется. Видео снимается с фактической скоростью (скорость 1,0x) и непрерывно.
Как вы можете видеть на видео, скорость роботов значительно улучшилась и мы постепенно достигаем скоростей, близких к человеческим.

Дистанционное управление не требуется, самообучение

Так как же это делает Рисунок 01?

Руководитель группы рисования искусственного интеллекта Кори Линч объяснил это на X.

В частности, все действия, продемонстрированные в видео, были изучены (без дистанционного управления) и выполнялись с реалистичной скоростью (скорость 1,0x).

Рисунок AI передает изображения, снятые камерой робота, и текст, расшифрованный голосом, записанный через встроенный микрофон, в мультимодальную модель, обученную OpenAI, которая может понимать как изображение, так и текстовую информацию.

Модель обрабатывает всю историю разговоров, включая прошлые изображения, чтобы сгенерировать вербальный ответ и ответить человеку посредством преобразования текста в речь. Эта же модель также отвечает за принятие решения о том, какое изученное поведение замкнутого цикла выполнять в ответ на данную команду.Она загружает определенные веса нейронной сети в графический процессор и выполняет соответствующую политику.

Соединение рисунка 01 с большой предварительно обученной мультимодальной моделью привносит в нее множество новых интересных функций.

Теперь Рисунок 01 + OpenAI может:

Детализируйте его окружение.
Используйте здравый смысл при принятии решений. Например: «Предметы на столе, такие как тарелка и чашка, скорее всего, будут помещены на сушилку следующим».
Преобразуйте расплывчатые инструкции высокого уровня, такие как «Я голоден», в соответствующее ситуации поведение, например «Передайте этому человеку яблоко».
Объясните простым языком, почему он выполняет конкретное действие. Например: «Это единственный съедобный предмет, который я могу предложить со стола».

Когда дело доходит до прекрасных практических навыков, которыми Фигура 01 овладела в процессе обучения, на самом деле за этим стоит ряд сложных и тонких принципов.

Все действия управляются стратегией преобразования зрения в моторику нейронной сети, которая напрямую сопоставляет пиксели изображения с действиями. Эти сети получают изображения, встроенные в робота, со скоростью 10 кадров в секунду и генерируют 200 движений с 24 степенями свободы (включая позы запястий и углы суставов пальцев) 200 раз в секунду.

Эти движения служат высокоскоростными «заданными точками» для отслеживания высокоскоростными контроллерами всего тела, обеспечивая точное выполнение движений.

Такая конструкция обеспечивает эффективное разделение задач:

Предварительно обученные в Интернете модели выполняют здравые рассуждения над изображениями и текстом для создания общего плана.
Выученная зрительно-моторная стратегия выполняет этот план, выполняя быстрые, реактивные действия, которые трудно указать вручную, например манипулирование деформируемым мешком в любом положении.
При этом полнотелый контроллер отвечает за обеспечение безопасности и стабильности движений, например, за поддержание баланса робота.

Что касается огромного прогресса, достигнутого Рисунок 01, Кори Линч посетовал:

Всего несколько лет назад я мог подумать, что полноценный разговор с роботом-гуманоидом, способным автономно планировать и выполнять выученное поведение, произойдет через десятилетия. Очевидно, что многое изменилось кардинально.

Может ли это стать моментом GPT гуманоидных роботов?

Надо сказать, что скорость развития Рисунка 01 подобна нажатию на педаль газа и гонке до конца.

В январе этого года Фигура 01 освоила навык приготовления кофе.Это достижение стало возможным благодаря внедрению сквозной нейронной сети, позволяющей роботу обучаться и исправлять ошибки автономно, проведя всего 10 часов обучения.

Месяц спустя Фигура 01 освоила новый навык подъема коробок и доставки их на конвейер, хотя и со скоростью всего лишь 16,7% от скорости человека.

В ходе этого процесса темпы коммерциализации компании Рисунок AI не остановились: компания подписала коммерческое соглашение с BMW Manufacturing Company об интеграции технологий искусственного интеллекта и робототехники в производственную линию автомобилей и обосновалась на заводе BMW.

Затем, всего две недели назад, Fig объявила о завершении раунда финансирования серии B на сумму 675 миллионов долларов, при этом оценка компании взлетела до 2,6 миллиарда долларов.

Инвесторы охватывают почти половину Кремниевой долины — Microsoft, OpenAI Venture Fund, NVIDIA, Джеффа Безоса, Parkway Venture Capital, Intel Capital и Align Ventures и др.

В то же время OpenAI и Рисунок также объявили, что они будут совместно разрабатывать модель искусственного интеллекта гуманоидного робота следующего поколения.Мультимодальная модель OpenAI будет расширена до восприятия, рассуждения и взаимодействия роботов.

Теперь, по рисунку 01, мы, кажется, можем увидеть набросок будущей жизни.

Фактически, раньше крупные модели роботы были специализированным оборудованием. Сейчас при общих возможностях крупных моделей начинают появляться общие роботы. Теперь нам нужен не только ChatGPT, но и WorkGPT.

Эти эволюции косвенно подтверждают ясно видимый путь: после того, как большая модель ИИ укоренится, она в конечном итоге войдет в реальный мир, и воплощенный интеллект — лучший путь.

Основатель Nvidia Дженсен Хуанг, который активно работал на передовой линии искусственного интеллекта, однажды сказал: «Воплощенный интеллект возглавит следующую волну искусственного интеллекта».

Интеграция большой модели OpenAI в рисунок 01 также является намеренной стратегической планировкой.

Крупные модели зрелого ИИ действуют как искусственный мозг, имитируя сложную нейронную сеть человеческого мозга, реализуя когнитивные функции, такие как понимание языка, визуальное распознавание и ситуационное мышление, а также решая когнитивные задачи более высокого уровня и задачи принятия решений для роботов.

При этом в корпус робота интегрированы различные датчики, исполнительные механизмы и вычислительные блоки для реализации восприятия и взаимодействия с окружающей средой. Например, системы технического зрения могут захватывать изображения и видео, а тактильные датчики могут определять форму и текстуру объектов.

Основатель компании Fig AI Бретт Адкок ранее заявил в интервью, что в ближайшие 1-2 года рисунок AI сосредоточится на разработке знаковых продуктов и рассчитывает продемонстрировать публике результаты исследований и разработок гуманоидных роботов в ближайшие один-два года. охватывающие системы искусственного интеллекта, низкоуровневый контроль и т. д., и, наконец, появится робот, который сможет проявить свои таланты в повседневной жизни.

Он также сообщил, что с точки зрения стоимости робот-гуманоид состоит из около 1000 деталей и весит около 150 фунтов (68 кг), в то время как электромобиль может состоять из около 10 000 деталей и весить 4000–5000 фунтов (1800–2250 кг). Поэтому в долгосрочной перспективе ожидается, что стоимость человекоподобных роботов будет ниже, чем у дешевых электромобилей, в зависимости от стоимости приводов, компонентов двигателя, датчиков и вычислительных затрат.

Эксперт по роботам Эрик Джанг однажды высказал свою точку зрения: «Хотя многие исследователи искусственного интеллекта считают, что универсальные роботы потребуют десятилетий, чтобы стать популярными, не забывайте, что ChatGPT родился практически в одночасье».

Ровно год назад OpenAI выпустила GPT-4, доказав миру силу больших моделей.

Сегодня, год спустя, мы не дождались GPT-5, но также приветствовали рисунок 01. Станет ли это моментом GPT-4 для человекоподобных роботов?

# Добро пожаловать на официальную общедоступную учетную запись aifaner в WeChat: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.

Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo