Внезапный! DeepSeek был обвинен Соединенными Штатами в «краже» и расследован OpenAI и Microsoft. В документе выяснилось, что он прорвал ров Nvidia.
Во время Весеннего фестиваля буря вокруг Deepseek поднимает волну в кругу ИИ.
Согласно последнему отчету Bloomberg, осенью прошлого года исследователи безопасности Microsoft обнаружили, что лица, возможно связанные с DeepSeek, проводили крупномасштабное извлечение данных через API OpenAI.
По словам людей, знакомых с ситуацией, Microsoft, будучи технологическим партнером и крупнейшим спонсором OpenAI, немедленно уведомила OpenAI после обнаружения ситуации.
По имеющимся данным, такое поведение может нарушать условия обслуживания OpenAI. Потому что в условиях обслуживания OpenAI четко указано, что пользователи не могут использовать автоматические или программные методы для извлечения данных из его сервиса без разрешения.
Даже если DeepSeek получит ту или иную форму доступа к API, это может считаться нарушением условий обслуживания, если оно используется способом, выходящим за рамки разрешения OpenAI, например, в незаконных или несанкционированных коммерческих целях.
OpenAI не ответила на запросы о комментариях, Microsoft отказалась от комментариев, а DeepSeek пока не ответил.
Стоит отметить, что многие посторонние ранее считали, что DeepSeek могла использовать выходные данные таких моделей, как ChatGPT, в качестве учебных материалов во время процесса обучения. С помощью технологии дистилляции моделей «знания» этих данных были перенесены в собственную модель DeepSeek.
Такая практика не является редкостью в сфере искусственного интеллекта, но скептики обеспокоены тем, использовал ли DeepSeek выходные данные модели OpenAI без полного раскрытия информации. Похоже, это отражается на самосознании DeepSeek-V3.
В техническом отчете последней модели R1 команда DeepSeek дала понять, что выходные данные модели OpenAI не использовались, и заявила, что высокая производительность была достигнута за счет обучения с подкреплением и уникальной стратегии обучения.
Например, применяется многоэтапный метод обучения, включающий базовое обучение модели, обучение с подкреплением (RL), тонкую настройку и т. д. Этот многоэтапный циклический метод обучения помогает модели усваивать различные знания и способности на разных этапах.
Ранее пользователи обнаружили, что на вопрос о личности модели она приняла себя за GPT-4.
В отчете Bloomberg также отмечается, что Дэвид Сакс, глава отдела искусственного интеллекта в США, заявил в недавнем интервью Fox News, что существуют «убедительные доказательства» того, что DeepSeek использует выходные данные модели OpenAI для разработки своей собственной технологии. Однако Сакс не предоставил конкретных доказательств.
Многие официальные лица США также заявили, что DeepSeek подозревается в «краже», и начинают расследование по вопросам национальной безопасности.
В ответ на замечания Дэвида Сакса реакция OpenAI была относительно консервативной и осторожной. Представитель компании заявил: «Мы знаем, что компании из Китая, а также некоторые другие компании пытаются «переработать» модели ведущих американских компаний, занимающихся искусственным интеллектом».
Представитель подчеркнул, что, будучи лидером в области искусственного интеллекта, OpenAI приняла соответствующие контрмеры для защиты своей интеллектуальной собственности, включая строгую проверку передовых возможностей и принятие решения о том, какие функции могут быть опубликованы публично. Они считают, что тесное сотрудничество с правительством США имеет решающее значение для защиты современных моделей искусственного интеллекта.
Однако, поскольку этот спор продолжает накаляться, внимание иностранных СМИ также начало обращаться к модели V3 с открытым исходным кодом, выпущенной ранее DeepSeek, которая также подробно раскрыла соответствующие детали базовой оптимизации в техническом отчете.
Зарубежные СМИ сообщили, что разработка модели V3 даже обошла CUDA и добилась максимальной производительности за счет оптимизации низкоуровневого ассемблера NVIDIA GPU PTX.
PTX — это архитектура промежуточного набора команд для графических процессоров NVIDIA, которая обеспечивает детальную оптимизацию, такую как распределение регистров и настройку уровня потоков/деформаций. Если CUDA — это «язык высокого уровня», который взаимодействует с графическими процессорами NVIDIA, то PTX — это «машинный язык низкого уровня».
Представьте, что вы играете на игровой консоли. Обычно для игр нам нужно использовать только контроллер (например, CUDA), что очень удобно, но он может не иметь возможности использовать все возможности игровой консоли.
PTX — это все равно, что открыть заднюю крышку игровой консоли и напрямую настроить различные аксессуары и схемы внутри. Хотя это сложно и требует большого количества профессиональных знаний, это может заставить игровую консоль работать быстрее и работать лучше.
Проще говоря, PTX — это инструмент, который позволяет разработчикам «приоткрыть крышку» графического процессора и напрямую настроить его внутреннюю работу. Это похоже на модификацию автомобиля. Вместо того, чтобы просто нажимать на педаль газа, вы напрямую настраиваете каждую часть двигателя, чтобы добиться максимальной производительности.
Когда компания DeepSeek обучила модель V3, она перенастроила графический процессор H800, в том числе разделила 20 SM для межсерверной связи и реализовала усовершенствованный алгоритм конвейера. Возможности оптимизации значительно превысили обычный уровень разработки CUDA. Если эта технология верна, она также потрясет аппаратный ров, который Nvidia строила в течение долгого времени.
▲Скриншот из технического отчета DeepSeek v3.
Однако, хотя PTX может обеспечить более экстремальную оптимизацию производительности, он также предъявляет чрезвычайно высокие требования к команде разработчиков. Напротив, CUDA от NVIDIA по-прежнему остается первым выбором для большинства разработчиков из-за ее преимуществ, заключающихся в простоте разработки и быстрой итерации.
Более того, оптимизация PTX часто требует настройки для конкретной модели оборудования.
Хотя эта «индивидуальная» стратегия оптимизации эффективна, она также значительно увеличивает сложность разработки и затраты на обслуживание. Это также объясняет, почему CUDA по-прежнему будет доминировать в основной разработке в обозримом будущем.
Однако поиск прорывов за пределами существующих правил часто является началом подрывной деятельности. Можно ожидать, что технологическая волна, запущенная DeepSeek в стране и за рубежом, на этот раз будет использовать существующий порядок во всей цепочке индустрии искусственного интеллекта.
# Добро пожаловать на официальную общедоступную учетную запись WeChat Aifaner: Aifaner (идентификатор WeChat: ifanr). Более интересный контент будет предоставлен вам как можно скорее.
Ай Фанер | Исходная ссылка · Посмотреть комментарии · Sina Weibo