Основатель Ideal Ли Сян снова высказывается: не гонитесь за Tesla FSD, ваш учитель — DeepSeek
В марте этого года на весенней конференции NVIDIA GTC 2025 Цзя Пэн, руководитель отдела исследований и разработок технологий автономного вождения в Li Auto, представил на сцене свое последнее достижение: большую модель MindVLA.
Это модель «Видение-Язык-Действие» (VLA) с 2,2 миллиардами параметров. Цзя Пэн также сказал, что они успешно установили эту модель на автомобиле. В идеале модель VLA — наиболее эффективный способ решить проблему взаимодействия ИИ и физического мира.
В прошлом году сквозная архитектура стала технологической точкой в области интеллектуального вождения, подталкивая автомобильные компании к переходу от традиционного модульного проектирования к интегрированным системам. Автомобильные компании, которые когда-то лидировали, полагаясь на правила и алгоритмы, столкнулись с трудностями трансформации, в то время как опоздавшие воспользовались возможностью обгонять в поворотах.
Идеал – один из представителей.
В прошлом году компания Ideal добилась быстрого прогресса в интеллектуальном вождении. В июле компания взяла на себя инициативу по реализации национальной безкартовой системы NOA (Navigation Assisted Driving), а также запустила уникальную архитектуру «сквозная (быстрая система) + VLM (медленная система)», которая привлекла широкое внимание в отрасли.
Сегодня вечером, в ходе второго сезона Ideal AI Talk, мы глубже понимаем «компанию искусственного интеллекта», как ее называет Ли Сян.
Это «большая модель водителя», а также ваш водитель.
Ли Сян, генеральный директор Li Auto, впервые упомянул VLA в первом сезоне AI Talk с Чжаном Сяоцзюнем, главным автором Tencent News Technology, в декабре прошлого года. В то время он сказал:
Идеальные одноклассники и автономное вождение, над которыми мы работаем, фактически разделены в соответствии с отраслевыми стандартами и находятся на ранних стадиях. Mind GPT, который мы делаем, на самом деле представляет собой большую языковую модель; автономное вождение, которым мы занимаемся, внутри компании называется поведенческим интеллектом, но, как его определяет Ли Фейфей (штатный профессор Стэнфорда и бывший главный научный сотрудник Google), оно называется пространственным интеллектом. Только когда вы действительно сделаете это в больших масштабах, вы поймете, что однажды эти двое обязательно соединятся. Внутри мы называем это VLA (Vision Language Action Model).
Ли Сян считает, что базовая модель в определенный момент обязательно станет VLA. Причина в том, что языковые модели могут понять трехмерный мир только посредством языка и познания, чего явно недостаточно. «Это должно быть по-настоящему векторно, с использованием метода диффузии (диффузионной модели) и генеративного метода (чтобы понять мир)».
Можно сказать, что рождение VLA — это не только смелая попытка глубоко объединить языковой интеллект и пространственный интеллект, но и переосмысление концепции «умных автомобилей» компании Li Auto.
Ли Сян далее пояснил это в сегодняшнем выступлении AI Talk: «VLA — это большая модель водителя, которая работает как водитель-человек». Это не только технология, но и интеллектуальный партнер, который может естественным образом общаться с пользователями и самостоятельно принимать решения.
Итак, что же такое VLA? Суть на самом деле очень проста: интегрируя визуальное восприятие, понимание естественного языка и возможности генерации действий, автомобиль становится «агентом-водителем», который может общаться с людьми и самостоятельно принимать решения.
▲ При навигации по ETC водитель может напрямую дать команду системе перейти на ручной канал (вспомогательное вождение).
Представьте, что вы сидите в машине и небрежно говорите: «Я сегодня немного устал, езжай помедленнее». Автомобиль не только поймет, что вы имеете в виду, но и скорректирует скорость и даже выберет более плавный маршрут. Это естественное и плавное взаимодействие — именно то, чего хочет достичь VLA. Ли Сян рассказал, что все короткие инструкции обрабатываются непосредственно автомобилем, а сложные инструкции анализируются с помощью облачной модели с 3,2 миллиардами параметров, чтобы обеспечить как эффективность, так и интеллект.
Достичь такой цели непросто. Особенность VLA в том, что она соединяет три измерения: зрение, язык и движение. Помимо простой команды пользователя, это может включать в себя восприятие окружающей среды в реальном времени, точное понимание языковых намерений и быструю корректировку поведения при вождении, все три из которых необходимы.
Самое замечательное в VLA заключается в том, что он позволяет этим трем беспрепятственно работать вместе.
От видения к реальности исследования и разработки VLA были ничейной землей. Ли Сян откровенно сказал: «Получение визуальных данных и данных о движении является самым сложным, и ни одна компания не может его заменить».
Чтобы понять техническую основу VLA, нам нужно взглянуть на эволюцию Li Auto в интеллектуальном вождении.
Ли Сян сказал, что ранние системы были интеллектуальными на уровне насекомых, имели всего миллион параметров, управлялись правилами и высокоточными картами и были беспомощны при столкновении со сложными дорожными условиями. Позже сквозная архитектура и модель визуального языка позволили технологии перейти на «уровень млекопитающих», избавившись от зависимости от карт, и национальное безкартовое НОА стало реальностью.
Фактически, этот шаг вывел Li Auto в авангард отрасли, но их это явно не устраивает. По мнению Ли Сяна, появление VLA означает, что интеллектуальная технология вождения Li Auto вступила на новый этап «человеческого интеллекта».
По сравнению с предыдущими системами, VLA может не только воспринимать трехмерный физический мир, но также выполнять логические рассуждения и даже генерировать поведение вождения, близкое к человеческому.
В качестве простого примера предположим, что вы говорите: «Найдите место, где можно развернуться» на перегруженной улице. VLA не будет выполнять команду механически. Вместо этого он будет учитывать дорожные условия, транспортный поток и правила дорожного движения, чтобы найти наиболее подходящее время и место для разворота.
Ли Сян сказал, что VLA может быстро адаптироваться к новым сценариям, генерируя данные. Даже если компания впервые сталкивается со сложным дорожным строительством, она может оптимизировать реагирование в течение трех дней. Эта гибкость и рассудительность являются основными сильными сторонами VLA.
Идеальный учитель — DeepSeek
Поддержка VLA — это сложная и совершенная техническая система, независимо разработанная Li Auto. Эта система позволяет автомобилю не только «понимать» мир, но и думать и действовать как водитель-человек.
Первая — это технология трехмерного представления по Гауссу, которая использует множество «точек Гаусса» для описания трехмерного объекта. Каждая точка содержит свое положение, цвет, размер и другую информацию. Эта технология использует огромные реальные данные для обучения мощной трехмерной модели пространственного понимания посредством самостоятельного обучения. С его помощью VLA может «понимать» окружающий мир, как человек, зная, где находятся препятствия, а где проходимая территория.
▲Когда парковочное место в памяти занято, система автоматически выполнит поиск других парковочных мест. Вы также можете понять инструкции водителя и найти «Зону C3» по указателям на стене.
Далее следует гибридная экспертная архитектура (MoE), которая состоит из экспертных сетей, закрытых сетей и объединителей. Когда параметры модели превышают 100 миллиардов уровней, традиционный метод будет задействовать все нейроны в каждом расчете, что является пустой тратой ресурсов. Закрытая сеть в архитектуре МЭ будет вызывать разных экспертов по разным задачам, чтобы гарантировать, что параметры активации не увеличатся значительно.
Говоря об этом, Ли Сян также похвалил DeepSeek:
DeepSeek использует лучшие человеческие практики… Когда они создавали DeepSeek V3, V3 на самом деле был MoE, моделью 671B. Я считаю, что МО — это очень хорошая архитектура. Это эквивалентно объединению группы экспертов, каждый из которых обладает экспертными способностями.
Наконец, Ideal вводит в VLA механизм разреженного внимания (Sparse Attention). Говоря человеческим языком, VLA автоматически регулирует нагрузку внимания на ключевые области, тем самым повышая эффективность рассуждения устройства.
Ли Сян сказал, что в процессе обучения этой новой базовой модели инженеры Ideal потратили много времени, чтобы найти наилучшее соотношение данных, интегрируя большой объем 3D-данных и графических данных, связанных с автономным вождением, и уменьшая долю культурных и исторических данных.
От восприятия до принятия решений, VLA опирается на сочетание быстрого и медленного человеческого мышления. Он может быстро выдавать простые решения о действиях, например, об избежании чрезвычайной ситуации, а также может выполнять «медленное мышление» с помощью коротких цепочек мышления для решения более сложных сценариев, таких как временное планирование маршрута в обход строительной зоны. Чтобы еще больше повысить производительность в реальном времени, VLA также представляет технологию спекулятивного рассуждения и параллельного декодирования, чтобы в полной мере использовать вычислительную мощность встроенного чипа и гарантировать, что процесс принятия решений будет быстрым и не хаотичным.
При формировании поведения вождения VLA использует модель диффузии и обучение с подкреплением на основе обратной связи с человеком (RLHF). Модель Diffusion отвечает за создание оптимизированных траекторий движения, а RLHF приближает эти траектории к человеческим привычкам, что является одновременно безопасным и комфортным. Например, VLA автоматически замедлит ход при повороте или уйдет на достаточное безопасное расстояние при слиянии. Все эти детали отражают глубокое изучение поведения человека при вождении.
Модель мира — еще одна ключевая технология, которая в идеале обеспечивает высококачественную виртуальную среду для обучения с подкреплением посредством реконструкции и генерации сцены. Ли Сян сообщил, что World Model снизила стоимость проверки со 170 000 до 180 000 юаней за 10 000 километров до 4 000 юаней. Это позволяет VLA непрерывно оптимизировать процесс моделирования и легко обрабатывать сложные сценарии.
Говоря об обучении, процесс роста VLA был весьма методичным. Весь процесс разделен на три этапа: предварительное обучение, постобучение и обучение с подкреплением. «Предварительное обучение похоже на получение знаний, пост-обучение похоже на обучение вождению в автошколе, а интенсивное обучение похоже на социальную практику». – сказал Ли.
На этапе предварительного обучения Li Auto создала базовую модель визуального языка для VLA, наполненную богатыми трехмерными визуальными данными, двухмерными изображениями высокой четкости и корпусом, связанным с вождением, чтобы он мог сначала научиться «видеть» и «слушать»; затем в обучение добавили модуль действий для генерации траектории движения за 4-8 секунд, и модель перегнали из 320 миллионов параметров в 400 миллионов.
Обучение с подкреплением разделено на два этапа: сначала используйте RLHF для согласования человеческих привычек, анализа данных о поглощении и обеспечения безопасности и комфорта; затем используйте чистую оптимизацию обучения с подкреплением, чтобы VLA «водил лучше, чем люди» на основе значения G (комфорт), столкновений и обратной связи по правилам дорожного движения. Ли Сян отметил, что этот этап завершается в мировой модели, моделирующей реальные сценарии дорожного движения, и эффективность намного выше, чем при традиционной проверке.
Этот метод обучения не только обеспечивает технологический прогресс, но и делает VLA достаточно надежным для практического применения.
Ли Сян признал, что успех VLA неотделим от вдохновения отраслевых эталонов. Архитектура MoE DeepSeek не только повышает эффективность обучения, но и предоставляет ценный опыт для достижения идеалов. Он посетовал: «Мы стоим на плечах гигантов и ускоряем исследования и разработки VLA». Такой подход к открытому обучению позволяет идеалу продвигаться дальше на нейтральной полосе.
От «информационных инструментов» к «инструментам производства»
В настоящее время индустрия искусственного интеллекта переживает глубокую трансформацию из «информационных инструментов» в «инструменты производства». По мере развития технологии больших моделей ИИ больше не ограничивается обработкой данных и предоставлением предложений, а начинает приобретать способность принимать решения и выполнять задачи автономно.
Ли Сян во втором сезоне AI Talk предположил, что ИИ можно разделить на информационные инструменты (например, поиск), вспомогательные инструменты (например, голосовая навигация) и производственные инструменты. Он подчеркнул: «В тот момент, когда искусственный интеллект станет инструментом производства, он по-настоящему взорвется». По мере развития технологии больших моделей ИИ больше не ограничивается обработкой данных, а начинает приобретать способность самостоятельно принимать решения и выполнять задачи.
Эта тенденция особенно очевидна в концепции «воплощенного интеллекта» — системы ИИ имеют физические сущности и могут воспринимать, понимать и взаимодействовать с окружающей средой.
Модель VLA от Li Auto — яркое воплощение этой тенденции. Интегрируя визуальный, языковой и двигательный интеллект, он превращает автомобиль в интеллектуальное тело, которое может управлять автономно и естественным образом взаимодействовать с пользователями, прекрасно интерпретируя основную концепцию «воплощенного интеллекта».
Пока люди нанимают профессиональных водителей, искусственный интеллект может стать инструментом производства. Искусственный интеллект действительно взорвется, когда станет производственным инструментом.
Слова Ли Сяна иллюстрируют основную ценность VLA — это уже не простой вспомогательный инструмент, а «агент-драйвер», который может самостоятельно выполнять задачи и брать на себя ответственность. Эта трансформация не только повышает практическую ценность автомобилей, но и открывает возможности для применения ИИ в других областях.
Размышления Ли Сяна об искусственном интеллекте всегда основаны на нестандартной перспективе. Он также упомянул: «VLA — это не мутационный процесс, а эволюционный процесс». Это предложение точно описывает технический путь идеального автомобиля.
От ранних правил, основанных на правилах, до сквозных прорывов и до сегодняшнего уровня «человеческого интеллекта» VLA. Такое эволюционное мышление не только делает VLA более технически осуществимым, но и предоставляет отрасли парадигму, на которой можно учиться. По сравнению с некоторыми попытками слепо проводить подрывную деятельность, идеальный прагматический путь может быть более подходящим для сложного китайского рынка.
От технологий к убеждениям идеальное исследование ИИ — непростая дорога. Ли Сян откровенно сказал: «Мы столкнулись со многими проблемами в области искусственного интеллекта, как тьма перед рассветом, но мы верим, что если мы будем упорствовать, мы увидим свет». Исследования и разработки VLA сталкиваются с такими проблемами, как нехватка вычислительных мощностей и этика данных, но компания Ideal постепенно положила начало зарождению своей технологии посредством самостоятельной разработки базовых моделей и моделей мира.
Ли Сян также упомянул в интервью, что успех VLA неотделим от развития искусственного интеллекта в Китае.
Он сказал, что появление таких моделей, как DeepSeek и Tongyi Qianwen, привело к тому, что уровень искусственного интеллекта в Китае быстро приблизился к уровню США. Среди них особенно интересен дух открытого исходного кода, поддерживаемый DeepSeek, поскольку он напрямую продвигает идеальную операционную систему Starlink с открытым исходным кодом. Ли Сян сказал: «Это не является стратегическим соображением компании. DeepSeek оказал нам очень большую помощь, и мы должны внести свой вклад в жизнь общества».
Добиваясь технологических прорывов, Li Auto не игнорирует вопросы безопасности и этики, связанные с технологией искусственного интеллекта. Технология «супервыравнивания», представленная VLA, приближает поведение модели к человеческим привычкам за счет обучения с подкреплением на основе обратной связи с человеком (RLHF). Данные показывают, что применение VLA увеличило высокоскоростной MPI (средний пробег вмешательства) с 240 км до 300 км.
Что еще более важно, Li Auto делает упор на создание «ИИ с человеческими ценностями» и считает этику и доверие краеугольным камнем технологического развития. С более макроэкономической точки зрения значение VLA состоит в том, что оно переопределяет роль автомобильных компаний.
В прошлом автомобили были средством передвижения в индустриальную эпоху; теперь они превращаются в «космических роботов» в эпоху искусственного интеллекта. Ли Сян упомянул в AI Talk: «Раньше идеал был на нейтральной полосе автомобилей, но в будущем он будет на нейтральной полосе искусственного интеллекта». Эта трансформация Ideal привнесла новое пространство воображения в бизнес-модель автомобильной промышленности.
Конечно, развитие VLA не лишено проблем. Постоянные инвестиции в вычислительную мощность, этику обработки данных и установление доверия потребителей к автономному вождению — все это проблемы, с которыми должны сталкиваться идеальные автомобили. Кроме того, конкуренция в индустрии искусственного интеллекта становится все более жесткой. Отечественные и зарубежные гиганты, такие как Tesla, Waymo и OpenAI, ускоряют внедрение мультимодальных моделей. В идеале им необходимо оставаться впереди в внедрении технологий и продвижении на рынок. «У нас нет коротких путей, мы можем только копать глубоко», — хотел сказать Ли.
Нет сомнений, что внедрение VLA станет ключевым узлом.
Li Auto планирует выпустить VLA одновременно с чисто электрическим внедорожником Li Li i8 в июле 2025 года и начать массовое производство в 2026 году. Это не только всестороннее исследование технологии, но и важный пробный камень для рынка.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Айфанера: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo