Цукерберг, этот новый продукт, который не будет выпущен, снова исследует окончательную форму очков искусственного интеллекта.
С тех пор, как Цукерберг переименовал FaceBook в Meta, компания полностью конкурировала с очками.
Есть немного знаний одновременно горячих и холодных. Название Мета взято из первых четырех букв слова «метавселенная». Когда в 2021 году название было изменено, сам Цукерберг заявил очень уверенно:
В течение следующего десятилетия Метавселенная затронет миллиард людей, и Метавселенная затронет каждый продукт, который мы разрабатываем.
▲ Изображение взято: Google
Прошло четыре года, и Метавселенная стала часто встречаться в научно-фантастических романах, творческих анимационных фильмах, кино- и телевизионных работах, но она все дальше и дальше отдаляется от реального мира. Лишь немногие вещи, которые привлекают внимание людей, — это те раздражающие вещи, которые время от времени попадают в заголовки популярных поисковых запросов и используют облик Метавселенной и виртуальных активов для мошенничества.
С точки зрения популяризации и распространения метавселенной, Meta не сильно изменилась, как четыре года назад, но они сделали много интересных новых вещей на головных устройствах VR/AR, входе в метавселенную.
Meta Quest, позиционируемая как новая игровая консоль, открыла новый мир интерактивных VR-игр. В 2024 году серия Meta Quest займет 73% доли рынка, и это далеко впереди.
Ray-Ban Meta стал модным аксессуаром в эпоху искусственного интеллекта. После двух поколений его поставок в феврале этого года официально превысили 2 миллиона единиц. Он объединяет традиционные очки, логотипы брендов, Bluetooth-гарнитуры, голосовые помощники и камеры для видеоблогов. Он не только выполняет декоративную роль пары традиционных очков, но и незаметно внедряет технологии в повседневную жизнь.
На первый взгляд, Meta выпустила несколько успешных продуктов на потребительском рынке в частном порядке, они также спокойно работают над треком toB, а выпуск умных очков для предприятий и профессиональных учреждений начался даже раньше, чем они сменили названия.
Пятилетнее соглашение прибыло, и Мета сдала документы.
В 2020 году Meta выпустила свои первые экспериментальные умные очки Meta Aria Gen 1. По сравнению с традиционными очками Aria Gen 1 немного раздуты, особенно у них есть два утолщенных дужка, которые очень бросаются в глаза.
▲ Изображение взято: Google
Огромный внешний вид — это не просто украшение, он содержит большое количество сенсорных пакетов, таких как RGB-камеры, камеры слежения за позиционированием, инерциальные измерительные блоки (IMU), барометры, магнитометры и т. д. Основная функция этих компонентов — сбор визуальных, движущихся и пространственных данных от первого лица.
Теоретически Aria Gen 1 специально разработана для исследований систем машинного восприятия, искусственного интеллекта и робототехники. Благодаря интеграции мультимодальных датчиков она помогает исследователям преодолеть основные технические проблемы AR-очков, такие как восприятие окружающей среды, пространственное позиционирование и т. д.
Когда дело доходит до реального опыта, у Aria Gen 1 очень далекая и захватывающая миссия:
Представьте себе день, когда мы сможем пользоваться всеми преимуществами подключения без необходимости опускать головы и смотреть на свои устройства. Представьте себе, что вы звоните другу и болтаете с реалистичным аватаром через стол.
Представьте себе цифрового помощника, достаточно умного, чтобы обнаруживать дорожные опасности, предоставлять статистику во время деловых встреч или даже помогать вам лучше слышать в шумной обстановке.
Это мир, в котором сами устройства полностью исчезают в перипетиях повседневной жизни.
Будучи прототипом этого эксперимента и продуктом первого поколения, Aria Gen 1 не произвела большого фурора. После пяти лет разработки Meta официально выпустила Aria Gen 2 на этой неделе. По сравнению с первым поколением произошла комплексная модернизация.
Наиболее очевидное изменение касается сенсорной системы. В машине первого поколения используются самые базовые компоненты измерения окружающей среды, только камеры и инерциальные датчики. Поэтому в Aria Gen 2 добавлено множество новых аксессуаров, включая камеры RGB, камеры 6DOF SLAM, камеры слежения за взглядом, космические микрофоны, IMU, барометры, магнитометры и GNSS.
В частности, новое поколение продуктов имеет два инновационных датчика, встроенных в носовые упоры: датчик PPG для измерения частоты сердечных сокращений и контактный микрофон для распознавания голоса пользователя от голоса окружающих.
Если сравнивать первое поколение с «видением мира только в очках», то можно сказать, что у Aria Gen 2 открыты все чувства. Оно может воспринимать, наблюдать и собирать внешнюю информацию из большего количества измерений. Оно может одновременно получать все более и более точные данные, а эффективность работы и обучения машины будет выше.
Кроме того, произошло качественное изменение способа обработки данных. Aria Gen 1 использует для вычислений внешние устройства. Хотя он не выполняет локальные вычисления, он может в определенной степени уменьшить вес и давление устройства, но за этим следует медленный отклик. Вычислительная мощность в облаке достаточна, но будет неловкий период ответа, когда сеть не работает. Друзья, которые часто используют умных помощников, наверняка сталкивались с подобными ситуациями, если вы носите с собой мобильную вычислительную платформу.
В Aria Gen 2 используется чип собственной разработки Meta, который может обрабатывать данные на стороне устройства. Скорость отклика очень высокая, она не ограничена сетью, а интерактивные возможности также значительно улучшены.
Вообще говоря, оборудование с чипами собственной разработки обладает возможностями конечных вычислений, но оно также увеличивает вес оборудования. Но данные Meta говорят сами за себя, и последние пять лет они действительно были заняты: Aria Gen 1 весит 98 г, а Aria Gen 2 весит 75 граммов. Увеличивайте дозировку без обострения, и многолетний опыт не приведет к увеличению веса.
Aria Gen 2 также известна своими интерактивными методами. Основанная на голосовом взаимодействии первого поколения, машина второго поколения добавила «отслеживание глаз + жесты + контактные операции». Голосовое взаимодействие очень прямое, и путь поиска будет значительно сокращен, но он подходит не для всех жизненных сценариев, например, на станциях метро в часы пик и в сверхтихих офисах.
Само собой разумеется, что увеличение количества датчиков и интерактивных функций повлияет на срок службы батареи. Чип собственной разработки действительно влияет на время автономной работы Aria Gen 2, но в положительном смысле. Официальные представители утверждают, что его хватает на 6-8 часов использования. Судя по текущему времени использования беспроводных гарнитур, Aria Gen 2 может иметь всепогодные интеллектуальные функции.
Как только аппаратная основа будет заложена, появится больше возможностей для последующего использования. Обновление Aria Gen 2 отражает два стратегических направления Meta по внедрению технологии AR:
Первый — это скрытая интеграция: уменьшение присутствия устройства за счет облегченной конструкции и сокрытия датчиков (например, когда световой индикатор камеры выключен, внешний вид аналогичен обычным очкам); второй — за счет открытой экосистемы, которая предоставляет базовые интерфейсы API и возможности модульного расширения, чтобы побудить ученых разрабатывать индивидуальные наборы инструментов и ускорять трансформацию технологий.
Таким образом, сценарии применения Aria Gen 2 также перешли от предыдущей навигации в помещении и фундаментальных исследований дополненной реальности к более масштабным областям: медицина, промышленность, городское планирование и т. д. — все это может стать почвой для развития Aria Gen 2.
На этом этапе давайте подведем итоги прогресса и значения Aria Gen 2:
- Модернизация аппаратного обеспечения восприятия для объединения биологических данных и более глубокого понимания окружающей среды;
- Оснащен чипом собственной разработки для повышения производительности в режиме реального времени и поддержки сценариев без использования наружной сети;
- Расширять методы взаимодействия, уменьшать акустические помехи и адаптироваться к сложным экспериментальным условиям;
- Срок службы батареи составляет весь день, продлевая время непрерывного использования и повышая комфорт при ношении;
- Расширяйте сценарии применения и продвигайте междисциплинарную интеграцию и стандартизацию технологий.
«Тёмная сторона» Цукерберга
Если вы прочитали интерпретацию и введение Meta Aria, вы все еще немного озадачены ее применением на потребительском рынке. Это нормально, поскольку Meta четко заявила, что этот продукт «не будет продаваться потребителям». Тогда вы можете спросить, для чего он используется? Чтобы прояснить цель его создания, нам придется вернуться более чем на десять лет назад.
В 2014 году Цукерберг испытал новейшее VR-оборудование и различные игровые сценарии в Стэнфордской лаборатории виртуального взаимодействия с людьми (VHIL). Он прошел по однодощатому мосту, пролетел над городом и срубил несколько деревьев в VR-очках.
Коди Вопутц, тогдашний менеджер лаборатории VHIL, однажды рассказал, что, переживая сцену падения с большой высоты, он (Цукерберг) так испугался, что положил руку на грудь.
Этот опыт произвел на Цукерберга глубокое впечатление. С одной стороны, поскольку VR все еще находился на ранней стадии исследования, система позиционирования работала нестабильно, из-за чего опыт неоднократно прерывался, а оборудование приходилось останавливать и перекалибровывать. Кроме того, VR в то время не был универсальной машиной. Вычислительный терминал ПК VR находился за пределами фюзеляжа, и для передачи сигналов и питания его нужно было подключать с помощью толстого и длинного кабеля.
▲ Изображение взято: Google
С другой стороны, Цукерберг также увидел огромные возможности этой революционной технологии в будущем. Именно этот опыт побудил его приобрести Oculus за 2 миллиарда долларов США. Цукерберг объяснил причины приобретения в своем заявлении:
Мобильная версия — это текущая платформа, и приобретение Oculus готовит платформу завтрашнего дня.
После этого Цукерберг взял Facebook, чтобы начать изучать технологии и оборудование AR/VR/MR. По мере накопления целей и аппаратных технологий в 2020 году Meta официально запустила проект Aria, цель которого — «ускорить AR и AI с человеческой точки зрения».
▲ Изображение взято: Google
Немного загадочно смотреть на это с такой точки зрения. Немного популярное объяснение состоит в том, что очки используются в качестве моста, позволяющего устройству наблюдать и понимать мир с точки зрения человека, а также изучать интерактивные отношения между людьми и окружающей средой. Это будет способствовать развитию технологий программного обеспечения и оборудования и, в конечном итоге, позволит машинам начинать с людей и обслуживать людей.
Очки в Project Aria могут помочь исследователям собирать информацию с точки зрения пользователя с помощью революционных технологий, особенно новых датчиков Aria Gen 2, которые могут захватывать аудио и видео окружающей среды пользователя, а также движения его глаз и информацию о местоположении.
Если начать с точки зрения пользователя, исследователям будет проще понять, как AR может играть реальную роль в реальном мире и повседневной жизни, а не просто выполнять причудливые, но непрактичные функции.
Более того, для мультимодального ИИ очень важно собирать информацию из реального мира с точки зрения человека. Этот метод обучения может имитировать человеческие мультимодальные когнитивные методы.
Мы воспринимаем мир с помощью множества чувств, таких как зрение, слух, осязание и т. д., а мультимодальный ИИ может быть ближе к естественной когнитивной модели человека за счет интеграции текста, изображений, аудио, видео и других данных. Более того, возможность кросс-модальной интеграции информации не может быть достигнута с помощью одномодального ИИ.
Мультимодальный сбор и обучение также могут повысить точность принятия решений ИИ в сложных сценариях. Если мир не понимается с помощью многомерной информации, неизбежно возникнут различия между «показами покупателей» и «показами продавцов».
▲ Изображение взято: Google
Само взаимодействие на самом деле мультимодально, помимо языка, на наше понимание влияют выражения, жесты, тон и даже одежда. Таким образом, мультимодальный ИИ может обеспечить более естественный интерактивный опыт, одновременно обрабатывая текст, изображения и звук.
Meta также рассказала некоторые подробности своего исследования в Project Aria. В Project Aria способ познания мира с помощью умных очков очень простой и грубый: оцифровка. Технология под названием SceneScript представляет собой метод представления и определения геометрии сцены с использованием авторегрессионных структурированных языковых моделей и сквозного обучения.
▲ Изображение из: Мета
Проще говоря, все сцены и объекты, видимые от первого лица, можно с помощью очков превратить в конкретные числа и имена. Какой длины стол? Прозрачные и правильные отверстия в стене называются «окнами».
Чтобы модель, встроенная в очки, не только видела мир, но и лучше понимала мир, Meta использует собственную разработанную технологию трехмерного изображения EMF3D, чтобы «четко маркировать» все объекты реального мира отрезками линий разного цвета, унифицируя веса и меры вещей из разных материалов, форм и размеров.
▲ Изображение из: Мета
Когда очки могут считывать и записывать окружающую среду, становится более возможным воссоздать виртуальный мир. Технология синтеза окружающей среды в проекте воспроизводит крупномасштабный, полностью смоделированный набор данных сцены в помещении, созданный программой посредством сбора большого объема данных. Она также устанавливает новый стандарт для «цифровых двойников» и ускоряет исследования по таким задачам, как обнаружение трехмерных объектов, реконструкция сцены и обучение моделированию в реальности.
▲ Изображение из: Мета
У этого метода обучения «системы развития» есть свои плюсы и минусы. Хорошо то, что, как только обучение станет очень прочным, сложность состоит в том, что если вы хотите быть основательным, вам придется обрабатывать огромные объемы данных. Поэтому для участия в проекте «Ария» необходимо много добровольцев и носить мета-очки в течение длительного времени.
Вместо того, чтобы искать людей, наиболее важным является то, как заставить людей использовать его с уверенностью, потому что сбор данных и защита конфиденциальности — это пара врагов, которых трудно примирить. Решение, предложенное Meta, представляет собой новую модель искусственного интеллекта с «саморазмытием», которая защищает конфиденциальность путем обнаружения и размытия личных данных на изображениях и напрямую кодирует конфиденциальную информацию, такую как лица и номерные знаки.
▲ Изображение из: Мета
Массовое обучение также может позволить модели лучше понять намерения пользователя. Например, сканируя и суммируя сцены повседневной жизни пользователя, она может определить, что пользователь с большей вероятностью сделает в какой момент времени. Будь то спуск вниз на тренировку, поход в гостиную, чтобы поиграть в игры, или поход на кухню, чтобы приготовить еду. Возможность предсказывать поведение людей может заранее предоставить более удобные функции.
Это похоже на функцию умного помощника на нашем мобильном телефоне, который в определенное время открывает окно, чтобы напомнить нам о дорожной обстановке дома и погоде на завтра.
▲ Изображение из: Мета
За пять лет, прошедших с момента основания проекта «Ария», они добились таких результатов, как набор данных Ego-Exo4D, собранный с помощью очков Aria первого поколения, которые стали фундаментальным инструментом в современном компьютерном зрении и постоянно развивающейся области робототехники.
Некоторые компании также начали изучать, как следует использовать Aria в своем рабочем процессе? BMW, например, придумывает, как интегрировать системы дополненной и виртуальной реальности в умные автомобили.
▲ Изображение из: Мета
Исследователи из Технологического института Джорджии также недавно продемонстрировали, как Aria может помочь снять стресс от работы по дому, когда дело касается вашего дома.
▲ Изображение из: Мета
Давным-давно в опытной статье о мобильных умных помощниках мы сделали вывод: с современной точки зрения наибольшее значение сочетания искусственного интеллекта и различных электронных устройств должно заключаться в том, чтобы помочь пожилым людям и людям с ограниченными возможностями лучше интегрироваться в новую эпоху и новую жизнь. «Ария» также добилась определенного прогресса в развитии безбарьерных технологий:
Университет Карнеги-Меллона использует первое поколение очков Aria в проекте по разработке технологии, помогающей слепым и слабовидящим людям ориентироваться в помещении.
▲ Изображение из: Мета
Функция голоса AI второго поколения Aria также была интегрирована Envision в собственный AI Ally и пространственный звук для улучшения навигации в помещении и безбарьерного опыта.
▲ Изображение: Envision
Если бы мне пришлось использовать одно предложение, чтобы описать связь между Project Aria, Meta и его продуктами, я думаю, это было бы похоже на корни, ствол и ветви дерева. Проект «Ария» находится в самом низу. Обычно он невидим и нематериален, но технические достижения, накопленные за годы, в конечном итоге будут реализованы в компании и различных продуктах различными способами.
В конце сентября прошлого года Цукерберг достал из сейфа на пресс-конференции умные очки Meta Orion, которые выглядели обычными, но на самом деле являлись сверхсекретным проектом в течение десяти лет. Судя по демонстрационному экрану на пресс-конференции, он может выполнять интерактивные функции, очень похожие на Vision Pro. Что еще более важно, Orion представляет собой пару настоящих голографических очков AR.
Они выглядят немного толще обычных очков, но надев их, вы можете видеть как реальный мир через линзы, так и проецируемое изображение.
Хотя четкость не так хороша, как у традиционных телевизоров и проекций, ее более чем достаточно для просмотра изображений и текста. Удивительно то, что мы не обнаружили на глазах больших призм. Эффект реальности, который настолько близок к реальности и появляется из воздуха, на самом деле проецирует изображение на линзу из карбида кремния через светодиодный проектор вокруг линзы.
7 камер и датчиков вокруг кадра позволяют Мета Ориону по-настоящему реализовать способность воплощать виртуальную реальность в реальность и интегрировать ее в реальность. Он может точно парить в воздухе голографические изображения, а также идентифицировать предметы перед вами. Например, он может составить для вас рецепт на основе ингредиентов на столе.
▲ Изображение из: Мета
Не будет преувеличением сказать, что Orion так же хорош, как Vision Pro, с точки зрения интерактивного взаимодействия, поскольку он действительно поддерживает отслеживание рук и глаз, а руки являются ручками. Соответствующий нейронный браслет также может превратить руку в мышь. Он может распознавать нервные сигналы тела, обнаруживая изменения в токе мышц, и тем самым различать различные движения пальцев.
- Сведите большой и указательный пальцы, чтобы выбрать
- Большой и средний пальцы совместно вызывают меню
- Сожмите кулак и проведите большим пальцем, чтобы прокрутить экран.
На пресс-конференции мы также увидели настоящую демонстрацию разборки Мета Ориона. Очень сложная и чрезвычайно точная внутренняя структура, а окончательно собранный корпус весил всего 98 г.
Нетрудно обнаружить, что отношения между Мета Арией Ген 2 и Мета Орионом в зеркале похожи друг на друга. Однако Цукерберг тогда сказал в интервью, что из-за высокой стоимости (каждая единица стоит около 10 000 долларов США, примерно 70 000 юаней) компании пришлось остановить план массового производства и произвести только 1000 единиц для внутренних исследований и разработок.
Однако Meta также планирует постепенно интегрировать технологию Aria в потребительские очки дополненной реальности, включая Orion, после 2026 года. Цель состоит в том, чтобы реализовать трансформацию AR-очков посредством взаимодействия нейронного интерфейса и голографического дисплея, тем самым открывая «момент iPhone» умных очков.
# Добро пожаловать на официальную общедоступную учетную запись WeChat aifaner: aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo