Разговор с командой идеального интеллектуального вождения: каков «окончательный ответ» на вопрос автономного вождения?
В 2013 году автономное вождение все еще было очень передовой и привлекательной концепцией, как и нынешние AGI и Metaverse несколько лет назад. В эпоху полного развития интернет-компаний Tencent каждый год проводила конференцию WE, чтобы рассказать об этом. Некоторые темы, связанные со звездами и морем, такие как редактирование генов, интерфейс «мозг-компьютер», исследование космоса и т. д.
Впервые я столкнулся с концепцией «автономного вождения» на первой конференции Tencent WE в 2013 году. Тогда гость высказал следующие мнения:
- Технические проблемы решить несложно, а вот юридические вопросы решить сложно.
- Через десять лет потребители смогут покупать беспилотные автомобили.
- Если точность решения, вынесенного машиной, достигнет 95%, она все равно может быть лучше и быстрее, чем человек.
Наступил десятилетний период, и эти слова в целом сбылись. Когда Carrot Run уже широко используется во многих городах, высококлассные модели основных новых энергетических брендов обладают высококлассными интеллектуальными возможностями вождения, а также Выпуск версии Tesla FSD V12. Технология автономного вождения переходит с уровня L2+ на уровень L4. «Автомобилем нельзя управлять сидя» уже не за горами.
Подождите, когда я достану эту фотографию, как вы отреагируете?
Это обычная картина повседневной дорожной ситуации в городе Гуанчжоу: не только полосы движения автотранспорта заполнены большим количеством двухколесных электросамокатов, но даже электрические инвалидные коляски, движущиеся на чрезвычайно низкой скорости, также движутся по полосам движения автотранспорта.
В настоящее время преимущества и проблемы умного вождения отражаются вместе: преимущество в том, что умное вождение не вызывает эмоций, не злится и не страдает от ярости на дороге, проблема заключается в медленной электрической инвалидной коляске и двухколесном автомобиле; Автомобили с аккумуляторами, которые суетятся и вторгаются на автомагистрали. Для разумного вождения этот сценарий очень сложно предсказать и справиться.
Фактически, прогнозы развития автономного вождения десять лет назад во многом основывались на одной логике: автомобили и люди на дороге должны соблюдать правила дорожного движения, останавливаться на красный свет и ездить на зеленый свет, и на моторе не появятся никакие вредные люди. полосы движения транспортных средств.
Но когда производители поставляют потребителям автомобили с интеллектуальными функциями вождения, ситуация, с которой сталкиваются автомобили, аналогична картине выше: дорога — мой дом, а правила дорожного движения игнорируются.
Классическая логика умного вождения: «Восприятие – Планирование – Контроль».
Текущие основные интеллектуальные решения для вождения, будь то высокоточные картографические решения или решения без карт, полагаются на то, что большое количество инженеров пишут правила, основанные на различных дорожных сценариях, чтобы исчерпать все дорожные условия и соответствующие меры и достичь как можно большего максимально разумное поведение при вождении.
Однако реальные дорожные условия не только сложны и не могут быть исчерпывающими, но и реальный мир постоянно меняется, и в любое время появляются новые дорожные сцены. Таким образом, предыдущие исследования и разработки интеллектуального вождения были «бесконечной войной».
Например, до июля лишь немногие автомобильные компании могли освоить сцену въезда и выезда с кольцевых развязок, потому что сцена была сложной, восприятие было ограниченным, а планирование и принятие решений были трудными.
Проще говоря, до того, как версия Tesla FSD V12 примет «сквозное» техническое решение, почти все решения для интеллектуального вождения можно свести к трем основным модулям: «Восприятие – Планирование – Контроль». разнообразие сцен, таких как классическое правило третей: сцены на шоссе, городские сцены и сцены с парковкой.
Эти большие сцены можно подразделять и подразделять. Интеллектуальные инженеры-водители пишут коды правил в соответствии со сценами. Лидар автомобиля, радар миллиметрового диапазона, камера и система позиционирования работают вместе, чтобы распознавать и записывать информацию о дороге, окружающей среде и местоположении, а затем BEV ( Технология Birds-Eyes-View), технология OCC (Occupancy Network) или другие технологии используют информацию, полученную этими датчиками, для формирования «виртуальной проекции реального мира», которую затем может понять интеллектуальная система вождения. проекция мира», планируются разумный маршрут движения и план движения, а затем принимается управляющее решение. Наконец, автомобиль реагирует на решение, формируя «снизить скорость, изменить направление налево, повернуть на левый разворот в полосе движения». заранее, экстренное торможение, чтобы избежать Если двухколесный автомобиль с аккумуляторной батареей выезжает на середину дороги, продолжайте движение и сделайте разворот. Это разумное поведение при вождении.
▲ Диаграмма занятости сети Jiyue Auto OCC
Если в интеллектуальном вождении используется сетевая технология OCC, то мы можем провести аналогию. В системе интеллектуального вождения внешний мир похож на «Minecraft», который состоит из квадратов (вокселей). Если дорога впереди, если дорога гладкая. квадратов на дороге теоретически не будет, и машина может смело двигаться вперед. Если перед ней есть небольшой неподвижный квадрат, возможно, ведерко с мороженым забрело на середину дороги. длинная, медленно движущаяся полоса справа, возможно, это просто пешеходы. Если это очень большой прямоугольный блок, быстро движущийся по левой полосе, это может быть большой грузовик…
В соответствии с этой общей логикой «восприятие – планирование (решение) – контроль», будь то предыдущее решение, основанное на высокоточных картах, или последующее безкартовое NOA (автоматическая навигационная помощь), которое больше полагается на объединение нескольких датчиков и высокие локальные вычисления. power Driving) не отклоняются от этой базовой логики. Структура исследований и разработок и работа инженеров также выполняют свои соответствующие обязанности в каждом модуле.
До появления «сквозных».
Что такое «сквозной»?
Есть три знаковых события в области искусственного интеллекта, которые вызвали широкую общественную дискуссию.
Первый раз это произошло в 1997 году, когда шахматный робот IBM «Deep Blue» победил шахматного мастера Гарри Каспарова. Но если вы посмотрите на «Deep Blue» в этот момент, вы почувствуете, что он не такой уж и умный. Устройство хранения Мы собираем огромное количество шахматных записей дебюта и эндшпиля, а затем используем эффективные алгоритмы поиска и системы оценки, чтобы выбрать наиболее подходящий способ игры.
Другими словами, когда Deep Blue играет в шахматы, промежуточные решения объяснимы и логически понятны человеку.
Затем в области Го, которая более сложна, чем шахматы, AlphaGo от DeepMind победила Ли Седоля и Кэ Цзе, заявив, что уровень искусственного интеллекта намного превышает уровень всех шахматистов-людей.
Логика AlphaGo заключается не в поиске и сопоставлении шахматных записей. В конце концов, количество досок и шахматных фигур в Го намного превышает количество шахматных фигур, и содержащиеся в них возможности слишком велики. Современные компьютеры не могут рассчитать все возможности. Но благодаря глубокому обучению нейронных сетей AlphaGo может учиться и развиваться самостоятельно, а также знать, как играть дальше, чтобы приблизиться к победе. Для людей методы игры AlphaGo полностью отличаются от логики человеческого мышления, но то, что произошло, произошло. средний, эксперты по искусственному интеллекту знают его логику.
Затем появилось ChatGPT. Между вводом и выводом технологии больших языковых моделей существует «черный ящик», который даже эксперты по искусственному интеллекту трудно объяснить. Что именно произошло между заданием вопроса и ChatGPT. отвечать.
Если использовать это в качестве метафоры, технология интеллектуального вождения ранее была основана на логике исследований и разработок «восприятие – планирование (решение) – контроль», аналогично тому, как сверточные нейронные сети AlphaGo (CNN) могут обрабатывать двумерную структуру. шахматная доска и извлечение пространственных характеристик. Сеть ценностей и политическая сеть могут обеспечить планирование и принятие решений в дополнение к обучению с подкреплением и технологии поиска по дереву Монте-Карло для оптимизации принятия решений.
▲ Схема комплексной архитектуры идеального интеллектуального вождения
«Сквозная» технология интеллектуального вождения аналогична технологии большой языковой модели, лежащей в основе ChatGPT: от необработанных данных датчиков (таких как камеры, радар миллиметрового диапазона, лидар и т. д.) до инструкций окончательного управления (например, ускорение). , торможение и т. д.), рулевое управление и т. д.). Конечно, этот метод прямого управления транспортным средством на данном этапе все еще слишком радикален, поэтому идеальным сквозным решением является только вывод траектории, но не управление. Перед управлением транспортным средством еще существует множество ограничений и избыточных мер. Цель этого метода — упростить архитектуру системы и выполнить всю задачу с помощью одной нейронной сети или модели. Он больше не опирается на массивные коды правил сцены. Это совершенно другое техническое направление.
Подобно тому, как в большой языковой модели ранее подчеркивалось большое количество параметров, мультимодальная модель, лежащая в основе сквозного подхода, также имеет такой процесс количественных изменений, ведущих к качественным изменениям. Тесла взял на себя инициативу в использовании сквозного подхода. технология на FSD V12 и Маск. Просто скажите следующее:
Обучение с 1 миллионом фрагментов видео вряд ли достаточно; 2 миллиона — немного лучше; 3 миллиона — это ничего себе (вау);
Однако люди, которые часто используют ChatGPT или другие генеративные инструменты искусственного интеллекта, обнаружат, что эти инструменты ненадежны и часто уверенно выдают неправильные ответы, что называется «иллюзией».
Как правило, инструменты искусственного интеллекта на компьютерах не имеют катастрофических последствий для слепого ответа на вопросы, но интеллектуальное вождение связано с безопасностью жизни. «Комплексное» решение поведения вождения требует дополнительных мер проверки и страхования. и, что более важно, инженерные проблемы.
Разговор с командой идеального интеллектуального вождения: «Комплексное» — это реальное использование искусственного интеллекта для автономного вождения
Пройдя долгое вводное введение, мы, наконец, можем перейти к сути: воспользовавшись возможностью взять интервью у идеальной команды умных водителей, давайте поговорим о том, как «сквозной» переход от теории к вождению?
Лан Сяньпэн, вице-президент по исследованиям и разработкам идеального умного вождения, рассказал Aifaner и Dongchehui:
Важным моментом на нашем весеннем совещании по стратегии в этом году является то, что мы слишком сильно гонимся за конкуренцией. Например, мы всегда фокусируемся на Huawei, на том, сколько городов она открыла и каковы ее показатели. На самом деле мы просто фокусируемся на показателях. Например, я лучше, чем Huawei. Немного лучше или немного хуже, чем Huawei, не отражает реальных потребностей пользователей.
Возвращаясь к потребностям пользователей в вождении, реальные потребности пользователей заключаются не в том, насколько низок показатель скорости внедрения. Пользователям нужно умное вождение, чтобы водить как опытный водитель, и эта антропоморфная потребность опирается на оригинальные регулярные и модульные исследования и разработки. сложно реализовать. Но «сквозное» идеальное внутреннее предварительное исследование принесет больше результатов.
Исходя из этого, в течение года идеальное решение в области технологий интеллектуального вождения претерпело три поколения корректировок: от графового к NPN (нейронной сети) к безграфическому, а затем к сквозному.
Лан Сяньпэн объясняет существенную разницу от начала до конца:
На первый взгляд, сквозное движение — это одна большая модель, заменяющая несколько маленьких моделей. На самом деле, это переломный момент, когда мы действительно можем использовать искусственный интеллект для автономного вождения. еще не тот случай.
Поскольку он управляется данными и объединяет вычислительную мощность с данными и моделями, это высокоавтоматизированный процесс самоитерации. Этот процесс повторяет возможности самой модели или системы. Итак, что мы делали раньше? Мы выполняем всевозможные системные функции, такие как функция въезда и съезда с пандуса или функция проезда через пункт взимания платы.
Существует большая разница между функциями и способностями.
Но на самом деле система автономного вождения следующего поколения, представленная на летней конференции Ideal Intelligent Driving, представляет собой двухсистемное решение «сквозное + VLM (визуальная языковая модель)».
Поскольку предпосылка состоит в том, чтобы сделать вождение умным, как опытный водитель, и быть как можно более антропоморфным, то мы должны рассмотреть, как люди действуют, теоретической основой здесь является книга лауреата Нобелевской премии Даниэля Канемана «Мышление. Теория быстрых и медленных систем в мире». «Быстро и медленно»:
Быстрая система человека полагается на интуицию и инстинкт для поддержания высокой эффективности в 95% сценариев; медленная система человека опирается на сознательный анализ и мышление, что устанавливает высокий верхний предел в 5% сценариев;
Сквозная идеальная двойная система «сквозная + VLM» — это быстрая система, способная быстро обрабатывать информацию в повседневных сценариях вождения, в то время как модель визуального языка VLM обладает способностью мыслить логически. в сложных сценариях.
Насколько быстра эта быстрая система?
Цзя Пэн, руководитель отдела исследований и разработок в области идеальных интеллектуальных технологий вождения, сказал:
Теперь наша сквозная задержка составляет более 100 миллисекунд от датчика до управляющего выхода, что меньше 200 миллисекунд. Раньше субмодуль, вероятно, занимал от 300 до почти 400 миллисекунд.
Зачем нужна эта медленная система?
Лан Сяньпэн объяснил:
Сейчас мы изучаем некоторые из его возможностей (VLM). Без него не было бы проблем с безопасностью. Наша основная вспомогательная роль в интеллектуальном вождении уровня L3 — сквозная, которая отражает способность человека к вождению при нормальном поведении.
Но когда дело доходит до интеллектуального вождения на уровне L4, более важную роль должны играть VLM или большие модели. Это может не работать более чем в 90% случаев, но это содержимое определяет, является ли система уровнем L3 или L4. Ключевым моментом уровня является то, что VLM действительно может справиться с этим неизвестным сценарием.
В идеале не использовать сквозную модель, а использовать более надежное двухсистемное решение для покрытия всей сцены. Сквозное решение отвечает за то, чтобы сделать поведение вождения более похожим на человеческое. Опытный водитель, хотя модель визуального языка VLM поддерживает нижний предел, может даже поднять верхний предел и, как ожидается, достигнет более высокого уровня автономного вождения.
Если присмотреться, то в отличие от фундаменталистского сквозного, который в конечном итоге отвечает за управление автомобилем, идеальный сквозной фактически не управляет автомобилем напрямую, а выходит на выходной траекторный уровень.
Цзя Пэн сказал:
Наша сквозная модель достигает траектории, и после траектории добавляются некоторые карманы безопасности, потому что до того, как модель достигнет верхнего предела, еще есть некоторые вещи, с которыми нужно справиться, например, от сильного поворота руля, чтобы избавиться это.
В реальном процессе интеллектуального вождения обе системы также работают одновременно. Цзя Пэн подробно объяснил, как они работают вместе:
Эти две системы работали в режиме реального времени, и их совместная работа является сквозной. Поскольку модель меньше, ее частота относительно высока, например, работает на частоте дюжины герц. Кроме того, размер модели имеет гораздо большее количество параметров, 2,2 миллиарда параметров. В настоящее время она может работать с частотой от 3 до 4 Гц и фактически работает все время.
VLM отправляет результаты принятия решений в контрольные точки. Например, когда ETC выезжает на трассу, машине на самом деле сложно определить, по какой полосе двигаться: механическую или ETC. В это время всегда был VLM. Если вы хотите выбрать ETC, вы можете выбрать путь ETC. Если вы хотите пойти вручную, вы можете выбрать ручной путь. Однако он отбрасывает результаты решения и справочные траектории до конца. Сквозная модель. Эта информация затем используется после вывода сквозной модели.
Фактически модель визуального языка VLM представляет собой вспомогательную информацию. Конечный результат траектории является результатом рассуждений модели и имеет определенную вероятность принятия.
Почему комплексное решение может создать такую большую волну в области интеллектуального вождения? Или это из-за огромных возможностей, стоящих за ним, и его направленного значения в поиске «окончательного ответа».
Короче говоря, в этом плане все еще далеки от достижения потолка возможностей, а исследования технологий и инженерная практика вышли в дикую местность.
Цзя Пэн далее объяснил принципы и возможности двойных систем:
На самом деле люди представляют собой двойственные системы. сквозное. В качестве системы для развития логического мышления естественно приходит на ум VLM.
Хотя VLM не управляет автомобилем напрямую, он будет обеспечивать принятие решений.
Как это дело будет развиваться в дальнейшем? Возможно, с увеличением вычислительной мощности, например, в Tesla FSD версий с 12.3 по 12.5 параметры увеличились в 5 раз, что позволяет поддерживать достаточно большую модель.
Я думаю, что в будущем будут две тенденции. Первая заключается в том, что масштаб модели станет больше. Система 1 и Система 2 по-прежнему представляют собой две сквозные модели плюс VLM. Эти две модели могут быть объединены в одну. в настоящее время относительно слабо связаны, и в будущем их можно будет сравнить с тесно связанными.
Во-вторых, мы также можем извлечь уроки из нынешней тенденции развития мультимодальных моделей. Они движутся к такому виду собственной мультимодальности, которая может использовать как язык, так и речь, зрение и лидар. Я думаю, это что-то. подумать о будущем.
Наша парадигма должна помочь нам достичь уровня автономного вождения L4, потому что мы уже видели прототип ее применения в роботе, воплощенном в интеллекте. Что касается человеческого мыслительного процесса, этот набор вещей может быть тем, к чему мы хотим стремиться. , Окончательный ответ.
Окончательный ответ означает, что мы используем эту теорию и эту структуру для создания настоящего искусственного интеллекта.
Но прежде чем говорить об окончательном ответе, Цзя Пэн объяснил, почему только комплексное решение может решить проблему умного вождения «въезда и выезда с острова»:
Если это сегментированное решение (интеллектуальное вождение), то для управления необходимо сделать различные допущения. Для выполнения разворота линия разворота не должна быть проложена. одинаковые и кривизна. Они все разные, поэтому вам сложно использовать один набор кода для разворота всех круговых перекрестков. Их слишком много.
Еще есть интересная история про карусель. Когда у нас (включая данные модели) было около 800 000 клипов (видеоклипов), мы не могли пройти через карусель. Потом мы вдруг обнаружили, что однажды мы (скормили) 1 миллион клипов. он мог бы сделать это самостоятельно. Я думаю, что в 1 миллионе (видеоклипе) были некоторые данные о кольцевой развязке.
Модель действительно очень мощная. Она может изучать любые данные, которые вы ей передаете. В этом прелесть модели, как и ETC. Я думаю, если вы откроете нашу текущую сквозную версию, вы обнаружите, что ETC может ее передать. само по себе, но проблема в том, что теперь он не знает, по какой дороге я хочу идти, будь то дорога ETC или искусственная дорога. Он выберет одну наугад, что заставит вас чувствовать себя небезопасно. Что мы хотим сделать позже. заключается в том, что VLM может дать ему это руководство, потому что VLM может понимать китайские иероглифы и светодиодные индикаторы.
Что касается «Что» и «Почему» в комплексной теоретической части, то теперь у нас есть приблизительный план. После того, как мы получим данные и модели, мы действительно приступим к работе, то есть «Как?».
▲Идеальный цех по производству автомобилей
«Обучение сквозной модели ничем не отличается от приготовления эликсира».
Лан Сяньпэн рассказал Ай Фанеру и Дун Чехуэю очень странную историю об обучении сквозной модели:
Ранее в этом году, когда мы впервые начали работать над проектом, мы обнаружили, что после обучения модели можно было нормально ездить, однако в ожидании красного света машина вела себя странно и всегда хотела пересесть на следующий. переулок. Мы не знали почему.
Позже мы поняли, что когда мы обучали сквозную модель, мы удалили много данных, ожидающих красного света. Мы почувствовали, что данные бесполезны после ожидания в течение десятков секунд или минуты. Но позже я обнаружил, что эти данные очень важны. Эта модель научила тому, что иногда нужно подождать, когда вы замедляетесь, вам не нужно врезаться или менять полосу движения.
Этот короткий рассказ показывает, что данные во многом определяют качество модели, но размер модели ограничен, поэтому то, какие данные подавать для обучения модели, на самом деле является одной из основных задач.
Лан Сяньпэн привел аналогию:
Обучение сквозной модели ничем не отличается от древней алхимии. В древние времена при очистке пороха основное внимание уделялось мононитрату, дисульфиду и древесному углю, а производимые взрывчатые вещества были относительно мощными. Другие соотношения также могут стать причиной возгорания.
Однако для производителей автомобилей, желающих обучать сквозные модели, «алхимия» — это всего лишь метафора, а не конкретный метод реализации проекта. Как получить данные, как их выбрать и как их обучить — все это научно. проблемы.
К счастью, у компании Ideal есть некоторые врожденные преимущества. Например, ее автомобили хорошо продаются, а объем продаж часто занимает первое место среди компаний, производящих новые силовые автомобили. На дорогах находится более 800 000 автомобилей Lideal, и каждые 40 000–50 000 добавляются. в месяц эти транспортные средства предоставляют более одного миллиарда километров данных.
Кроме того, компания Ideal уже давно осознает важность данных и разработала базовые возможности, такие как цепочки инструментов для данных. Например, внутренняя база данных Ideal реализовала поиск по абзацам, чтобы найти предложение «Пешеходы, проходящие мимо с зонтиками рядом». стоп-линия красного света в дождливый день». За этим стоят некоторые небольшие облачные модели, такие как модели интеллектуального анализа данных и модели понимания сцены.
Лан Сяньпэн даже считает, что возможности цепочки инструментов и инфраструктуры этих баз данных в некотором смысле (важны) даже больше, чем возможности моделей, потому что без этой хорошей инфраструктуры и данных, какой бы хорошей ни была модель, она будет невозможно его обучить.
Изменение базовых технических решений также означает изменение методов работы. При обнаружении плохого случая модель идеальной внутренней системы «сортировочного стола» автоматически анализирует, к какому типу сценария относится проблема, и выдает «предложения по сортировке». Затем вернитесь к обучению модели, чтобы решить проблему.
Это также предполагает изменение способа нашей работы. Люди, которые изначально решали конкретные проблемы, теперь стали людьми, разрабатывающими инструменты для решения проблем.
Чтобы повысить эффективность «диагностики и лечения», Ideal одновременно обучает несколько моделей. Этот процесс возвращается к концепции «алхимии», объяснил Цзя Пэн:
Есть два основных аспекта обучения модели. Один из них — рецепт данных. Сколько нужно добавить в схожих сценариях, чтобы решить задачу? Второй момент — это гиперпараметры модели. Как настроить параметры модели после добавления новых данных? Обычно для обучения одновременно отправляются 5–6 версий модели, а затем посмотреть, какая версия решает проблему? проблему и получает более высокие баллы.
Одновременное обучение нескольких моделей выдвигает требования к инфраструктуре баз данных и огромные требования к вычислительной мощности. В этот момент в игру вступает «сила денег». Идеальным преимуществом здесь является то, что автомобили продаются больше и стоят дороже. Благодаря лучшим доходам и положительному денежному потоку среди компаний, производящих новые автомобили с электроприводом, они могут поддерживать огромные затраты вычислительной мощности.
Лан Сяньпэн сказал:
По нашим оценкам, если будет достигнуто автономное вождение L3 и L4, ежегодные затраты вычислительной мощности на обучение составят 1 миллиард долларов США. В будущем мы будем бороться за вычислительную мощность и данные, а за деньги или прибыль.
Когда сквозная модель заменяет большую часть работы в традиционной логике интеллектуального вождения «восприятие-планирование-контроль», наиболее трудоемкая работа команды интеллектуального вождения, связанной с идеалом, также концентрируется на «голове и хвосте». ", голова – данные, Конец – проверка.
В дополнение к двум скоростным системам сквозной модели и модели визуального языка VLM, внутри Ideal есть еще три системы, которые называются экспериментальной моделью или моделью мира. По сути, это экзаменационная система. оценить уровень всей интеллектуальной системы вождения и безопасности.
Лан Сяньпэн сравнил эту экзаменационную систему с набором из трех банков вопросов:
- Реальный банк вопросов: Правильное поведение людей, едущих на дороге
- Неправильный банк вопросов: во время обычного тестирования и вождения происходит захват пользователя, выход пользователя и другие действия.
- Вопросы для моделирования: на основе всех данных сделайте выводы из одного случая и создайте виртуальные тесты по схожим сценариям для конкретных повторяющихся проблем.
Например, как упоминалось ранее, если вы хотите, чтобы ваше умное вождение было персонифицировано, как у опытного водителя, то поведение вождения в этом реальном наборе тестов должно быть поведением опытного водителя. «Настоящий банк тестов» в идеальной тестовой модели. выбирает внутренний балл 90 и выше. Поведение водителей, эта группа составляет всего 3% идеальных водителей автомобилей, будет зависеть от плавности их вождения, степени опасности вождения и т. д. Например, если водитель часто активирует автоматическое экстренное торможение AEB, тогда его поведение при вождении будет слишком радикальным.
После обширного тестирования экспериментальной модели также появится тестовая версия для «ранних пользователей». Это означает, что тысячи пользовательских автомобилей получат новую версию интеллектуальной системы вождения, которая сможет работать в реальных сценах и сценариях. неперцепционный «теневой режим». Проводить проверку и тестирование в реальных условиях на дороге, которая больше, чем испытательный парк любого производителя автомобилей.
Данные, проверенные и проверенные тысячами ранних пользователей, будут автоматически отправлены обратно, автоматически проанализированы и автоматически итеративно обучены для нового раунда тестирования и доставки.
Другими словами, сбор данных, обучение моделей, экспериментальные исследования и доставка пользователям — это процессы, наполненные автоматизированной циклической логикой, с очень небольшим участием человека.
По словам Лан Сяньпэна и Цзя Пэна, после перехода на «сквозной + VLM» отрасль достигла ничейной зоны. Существует волнение по поводу невозможности увидеть верхний предел возможностей системы. в настоящее время, но, конечно, необходимо быть прагматичным. Например, в настоящее время только сквозная модель выводит траекторию, и управление после траектории должно быть безопасным. Другой пример – размышления о вычислительной мощности. : количество инженеров было необходимо раньше, и количество видеокарт понадобится в будущем.
Без вычислительной мощности это все фантастика.
Прибыли нет, а вычислительные мощности — это всего лишь фантазия.
Давайте еще раз поговорим об «окончательном ответе»: идеалы, Tesla и OpenAI достигают одной и той же цели разными путями.
Так же, как Маск неоднократно подчеркивал, что «Tesla — это компания по искусственному интеллекту и робототехнике, а не просто автомобильная компания». В интервью Лан Сяньпэн и Цзя Пэн также сравнили идеальный автомобиль с роботом на колесах, а также рассказали о приложении-прототипе. воплощенных интеллектуальных носителей, таких как гуманоидные роботы, с использованием структуры «сквозная + VLM».
Робот Tesla Optimus воплощает в себе более широкое видение Маска и, конечно же, является еще одним носителем FSD, поскольку робот Optimus выдает относительно мало информации, но у него есть «сквозная» модель, которая опирается на локальные камеры и датчики, вводящие информацию об окружающей среде. а затем напрямую выводить последовательности совместного управления.
Кроме того, компания Fig Robots с инвестициями OpenAI и NVIDIA только что выпустила своего второго робота-гуманоида, Рисунок 02, заявив, что это «самое передовое оборудование искусственного интеллекта в мире», в котором важной особенностью является модель визуального языка VLM. Фигурка 02, оснащенная шестью RGB-камерами на голове, передней и задней части туловища, способна ощущать и понимать физический мир с помощью своей системы зрения, управляемой искусственным интеллектом. В официальном описании Фигура 02 «обладает сверхчеловеческим зрением».
Конечно, у него, естественно, также есть большая языковая модель, предоставляемая OpenAI для общения с людьми.
Точно так же робот Optimus начал работать (и обучаться) на автомобильном заводе Tesla, а Рисунок 02 также был протестирован и обучен на автомобильном заводе BMW. Оба они способны выполнять некоторые простые задачи и постоянно развиваются.
Хотя идеальная машина, робот Tesla Optimus и робот-фигура, похоже, мало связаны друг с другом, если копнуть глубже, основная техническая логика и размышления об искусственном интеллекте действительно представляют собой разные подходы к одной и той же цели. Это также является источником «окончательного ответа». .
Мы говорили об искусственном интеллекте на протяжении десятилетий, и наконец акцент сместился с искусственного интеллекта на интеллект.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo