Другие только начали «сквозной подход», но Ideal Smart Driving снова повторил свою попытку.
Технология автономного вождения развивалась с течением времени. Что является самым большим изменением?
За день до написания этой статьи к Айфанеру пришли двое друзей из автомобильной отрасли и сели с нами поболтать. Мы говорили о многом, от продвижения продукта до отраслевых анекдотов, и автономное вождение, как ветвь горячих дискуссий в отрасли, естественно, стало одним из фокусов нашей дискуссии.
Оглядываясь назад на развитие автономного вождения за прошедшие годы, можно увидеть, что на самом деле произошло много изменений, включая итерации датчиков, улучшение вычислительной мощности на стороне транспортного средства, переход от высокоточных карт к занятым сетям и т. д. Но среди этих изменений самым ярким прорывом является добавление крупных моделей.
Большие модели делают возможным применение технологий автономного вождения.
23 октября официально начал полноценный выпуск двухсистемного интеллектуального решения Li Auto нового поколения «сквозной + VLM». С тех пор интеллектуальное вождение Li Auto вступило в эпоху больших моделей искусственного интеллекта.
Думай как человек, води как человек – идеальный автомобиль сегодняшнего дня воплощает это видение.
Наконец, после полного понимания того, что такое VLM?
Что такое сквозной? С какого «конца» и до какого «конца»? Не говоря уже о рядовых потребителях, даже многие работники СМИ этого не поняли.
Это объяснили многие производители, и самый понятный из них — Li Auto:
На одном конце расположены датчики: камеры, лидары и другие датчики. Они похожи на человеческие глаза и отвечают за ввод информации об окружающей среде. Кроме того, имеется специально разработанная входная информация, такая как положение автомобиля, положение и навигационная информация.
Другой конец — траектория движения: после получения информации от датчика система выдаст «динамические препятствия», «дорожную структуру», «сеть занятости Occ» и «запланированную траекторию». Первые три задачи восприятия в основном представляются пользователю через экран, а четвертая «траектория движения» — это то, что нам в конечном итоге нужно отобразить с датчика.
▲Схема комплексной архитектуры идеального интеллектуального вождения
Нетрудно обнаружить, что процесс от получения информации датчиком до системы, выдающей траекторию движения, очень похож на вождение самостоятельно – за получение информации отвечают наши глаза, а руки, естественно, будут управлять рулем, чтобы привести автомобиль в движение. на правильную траекторию.
Да, благодаря комплексной модели идеальная интеллектуальная система вождения нового поколения может управлять автомобилем как человек.
В течение долгого времени как OEM-производители, так и компании, занимающиеся беспилотным вождением, постоянно пропагандировали, насколько «человечными» и «опытными водителями» являются их интеллектуальные системы вождения. Однако некоторые сцены, к которым привыкли «водители-ветераны», уже давно сложно решить в отрасли.
Наиболее типичным из них является сцена с кольцевой развязкой. Поскольку сцена сложна и восприятие ограничено, до июля этого года лишь немногие автомобильные компании могли въезжать и выходить из кольцевой развязки, как «старый водитель».
Цзя Пэн, руководитель отдела исследований и разработок идеальной технологии интеллектуального вождения, однажды сказал Ай Фанеру и Дун Чехуэю, что для сегментированного решения интеллектуального вождения, которое разделяет восприятие и контроль, в сценарии кругового движения модель восприятия должна делать «различные вещи» для модель управления. Все виды предположений».
Чтобы сделать разворот, вам придется подогнать линию разворота. Развороты на разных перекрестках неодинаковые, и кривизны разные, поэтому сделать все развороты на круговых развязках одним комплектом сложно. Код слишком много типов.
Интегрированное комплексное решение отличается тем, что оно обладает большей способностью понимать сложные дорожные конструкции. Оно может использовать данные водителя для обучения различным типам кольцевых развязок, траекториям въезда и выезда для разных въездов и выездов, а также самостоятельно выбирать подходящие маршруты движения. .
Таким образом, исходная топология дороги и определяемые вручную правила больше не нужны.
Что касается обхода острова, Цзя Пэн также поделился «забавной историей».
Когда наши (данные модели содержали) около 800 000 клипов (видеоклипов), он не мог пересечь кольцевую развязку. Затем однажды мы внезапно обнаружили, что мы (скормили) 1 миллион клипов (после), я думаю, может пересечь кольцевую развязку самостоятельно. это было 100. В Ване (видеоклипе) есть некоторые косвенные данные.
«Модель действительно очень мощная, — добавил Цзя Пэн, — она может изучать любые данные, которые вы ей передаете. В этом прелесть модели».
Полная версия, выпущенная Ideal сегодня, основана на модели V4.8.6, которая является 16-й версией, созданной на основе 4 миллионов клипов. По сравнению с предыдущими моделями улучшена способность новой модели понимать сценарии обгона и навигационную информацию. В то же время обнаружение препятствий стало более точным, а диапазон объезда стал более разумным.
Таким образом, современная интеллектуальная система вождения «сквозная + VLM» может справиться не только с круговыми перекрестками, но и с традиционными сложными сценами, такими как развороты, ползание и игры в пробках и перекрестках, и даже поддерживает P Активация файла——
При парковке на обочине пользователь дважды щелкает рычаг, чтобы активировать интеллектуальную систему вождения. Ее больше не нужно активировать на полосе движения, как раньше.
После внедрения возможностей сквозной модели следующим шагом является модель VLM.
Модель VLM представляет собой модель визуального языка. Ideal является первым производителем, который успешно внедрил модель визуального языка в автомобильные чипы, давая автономному вождению возможность логически мыслить в неизвестных сценариях.
То есть он может думать как человек.
Например, сквозная модель, которая может генерировать траектории движения, полностью способна проезжать через пункты взимания платы за взимание платы. Однако, когда она сталкивается с пунктом взимания платы за проезд, она не знает, по какой полосе ей следует двигаться, и в конечном итоге может только это сделать. выберите один наугад.
Модель VLM может понимать сложную дорожную среду и китайскую семантику физического мира, как и люди, может четко различать полосы ETC и искусственные полосы движения и помогать сквозной модели принимать правильные решения.
На самом деле существует множество подобных сценариев, таких как определение полос для автобусов и приливных полос, идентификация дорожных знаков, таких как школьные участки, въезд и выезд с основных и второстепенных дорог и т. д. Мало того, что при столкновении со строительными сценами, выбоинами и даже лежачими полицейскими модель VLM также может хорошо это понимать, напоминать и замедлять движение.
На сегодняшний день модель визуального языка VLM от Li Auto имеет 2,2 миллиарда параметров и более человечно понимает сложную дорожную среду в физическом мире.
Кроме того, в версии OTA 6.4 была оптимизирована функция высокоскоростного NOA. На высокоскоростных и городских скоростных автомагистралях система может раньше распознавать впереди идущие медленные автомобили, что делает действия по обгону более эффективными и безопасными.
В общем, с помощью двойной системы сквозная + VLM ориентированная на пользователя ОТА 6.4 вышла на новый уровень антропоморфизма.
Идеально «быстро» и «медленно»
С точки зрения технической архитектуры, Li Auto за последние два года претерпела три крупных изменения.
От сетей NPN, которым требуется априорная информация, до NOA без графиков, основанного на BEV и сетях занятости, до сегодняшних интегрированных сквозных технологических маршрутов.
Архитектура NPN первого поколения была относительно сложной и включала в себя восприятие, позиционирование, планирование, навигацию, NPN и другие модули, которые в то время вместе поддерживали городское продвижение NOA Li Auto в 100 городах.
Во втором поколении безкартовой NOA Li Auto представляет сквозную большую модель, при этом количество модулей значительно сокращается. Остается только восприятие и планирование, и нет необходимости ждать обновления априорной информации. .
Этот идеальный шаг позволит автомобильным компаниям больше не ограничивать свои «объемы» скучным количеством открытых городов и по-настоящему позволит ездить с навигацией.
В мае этого года Li Auto набрала 1000 пользователей и официально запустила публичную бета-версию NOA, также известную как AD Max 3.0. Отзывы пользователей на тот момент намного превзошли ожидания Li Auto. Всего два месяца спустя Li Auto запустила это обновление для более чем 240 000 пользователей Li Auto AD Max.
Однако сквозное решение в настоящее время по-прежнему является сегментированным сквозным. Решение для интеллектуального вождения третьего поколения действительно является комплексным — от ввода до вывода все реализовано в одной модели. , без каких-либо правил.
В прошлом, будь то решение на основе карт или решение без карт, инженерам приходилось писать правила, основанные на различных дорожных сценариях, пытаясь исчерпывающе охватить все дорожные условия и соответствующие решения, чтобы возможности интеллектуального вождения может быть максимально широким.
Вообще говоря, производители условно делят сцены на три типа: высокоскоростные сцены, городские сцены и сцены парковки. Эти основные сценарии можно подразделить далее, и инженерам по регулированию необходимо написать код для этих сценариев.
Но перед лицом сложного реального мира такой подход явно недостаточно реалистичен. Интегрированная комплексная система может изучать процесс вождения человека и напрямую выводить траекторию движения после получения информации от датчиков.
Заметили ли вы, что в настоящее время наиболее важным фактором в улучшении возможностей интеллектуального вождения стали не инженеры, а данные. А в идеале самое необходимое — это данные.
14 октября компания Li Auto спустила с конвейера своей базы в Чанчжоу, провинция Цзянсу, миллионный автомобиль, ознаменовав рождение первой в Китае компании по производству новых автомобилей, выпускающей миллион единиц. Согласно данным, опубликованным Li Auto, доля пользователей AD Max среди моделей Li Auto стоимостью более 300 000 юаней достигает 70% ——
Ежемесячно эти транспортные средства могут предоставлять компании Ideal более одного миллиарда километров тренировочных данных.
Кроме того, компания Ideal уже давно осознает важность данных и разработала базовые возможности, такие как цепочки инструментов для данных. Например, внутренняя база данных Ideal реализовала поиск по абзацам, чтобы найти предложение «Пешеходы, проходящие мимо с зонтиками рядом». стоп-линия красного света в дождливый день», вы можете найти соответствующие данные.
Именно опираясь на огромные данные обучения и совершенную цепочку управления, компания Ideal Smart Driving сумела «догнать» отрасль, используя сквозное использование и VLM для формирования собственных «быстрых» и «медленных».
В идеале это двухсистемное интеллектуальное решение вождения похоже на теорию быстрых и медленных систем лауреата Нобелевской премии Даниэля Канемана в книге «Думай, быстро и медленно»:
Быстрая система человека полагается на интуицию и инстинкт для поддержания высокой эффективности в 95% сценариев; медленная система человека опирается на сознательный анализ и мышление, что устанавливает высокий верхний предел в 5% сценариев;
Среди них сквозная — это «быстрая система», а VLM — это, естественно, «медленная система».
Ланг Сяньпэн считает, что от сквозного уровня не зависит, будет ли система автономного вождения L3 или L4. Модель VLM является ключом к тому, чтобы по-настоящему справиться с неизвестными сценариями и повысить верхний предел возможностей.
«Идеальный одноклассник, я хочу пойти сюда».
Помимо обновлений в области умного вождения, OTA 6.4 также привносит инновации в взаимодействие с пользователем.
Он также разделен на две части: «быструю» и «медленную».
В качестве «быстрой системы» сквозная модель обычно соответствует текстовому всплывающему окну, которое предоставляет водителю логику выполнения и действия в реальном времени, такие как навигация, правила дорожного движения, эффективность и игры.
Для модели визуального языка VLM «медленной системы» компания Ideal подготовила для нее новое графическое окно. В особых сценариях воспринимаемая впереди картинка проецируется на страницу, а процесс мышления и результаты модели объясняются совместно с копирайтингом.
Благодаря сочетанию всплывающих текстовых и графических окон водитель может заранее знать, какие действия по управлению транспортным средством выполняет система. Для потребителей, которые впервые испытывают умное вождение, этот интуитивно понятный информационный дисплей также помогает быстро завоевать доверие к системе умного вождения.
Я должен признать, что понимание потребностей пользователей в Li Auto действительно очень точное.
В нашем представлении о будущем «умное» вождение и «умные» кабины всегда связаны друг с другом. В версии OTA 6.4 компания Ideal также внесла множество обновлений в свое «умное» пространство.
Прежде всего, недавно добавленный Task Master 2.0 полностью интегрирует возможности Ideal Classmate и Mind GPT. Благодаря поддержке больших моделей производительность Task Master становится более интеллектуальной.
Идеальные одноклассники, поддерживаемые Mind GPT, могут не только участвовать в двух сценариях семейных экскурсий на выходных и отвечать на ежедневные небольшие вопросы. В сочетании с недавно обновленной навигационной картой версии Amap AutoSDK 750 идеальные одноклассники могут использовать способ «сенсорный + голос». , что позволяет водителям быстро искать пункты назначения.
Например, укажите определенное место на карте, и оно поможет вам найти зарядные устройства любой марки на зарядной станции, и вы даже сможете указать мощность.
Короче говоря, новый Ideal Classmate полностью избавляет вас от необходимости брать в руки телефон. Вы можете легко настроить путь навигации самым естественным и интуитивно понятным способом.
Заботясь о вождении, VLM думает за вас, а вы просто указываете путь.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo