ChatGPT теперь интерпретирует фотографии лучше, чем искусствовед и исследователь вместе взятые
Недавние возможности ChatGPT по созданию изображений бросили вызов нашему предыдущему пониманию медиа, генерируемого ИИ. Недавно анонсированная модель GPT-4o демонстрирует примечательные способности интерпретации изображений с высокой точностью и воссоздания их с помощью вирусных эффектов, например, вдохновленных Studio Ghibli . Он даже обрабатывает текст на изображениях, сгенерированных ИИ , что раньше было для ИИ затруднительно. И теперь компания запускает две новые модели, способные анализировать изображения в поисках подсказок и собирать гораздо больше информации, которая может даже не ускользнуть от человеческого взгляда.
Ранее на этой неделе OpenAI анонсировала две новые модели, которые поднимают мыслительные способности ChatGPT на ступеньку выше. Ее новая модель o3, которую OpenAI называет своей «самой мощной моделью рассуждения», улучшает существующие способности интерпретации и восприятия, улучшая «кодирование, математику, науку, визуальное восприятие и многое другое», утверждает организация. Между тем, o4-mini — это меньшая и более быстрая модель, предназначенная для «экономической эффективности» в тех же направлениях. Эта новость последовала за недавним запуском OpenAI класса моделей GPT-4.1, который обеспечивает более быструю обработку и более глубокий контекст.
ChatGPT теперь «думает изображениями»
Благодаря улучшению способности рассуждать, обе модели теперь могут включать изображения в свой процесс рассуждения, что делает их способными «думать образами», заявляет OpenAI . Благодаря этому изменению обе модели смогут интегрировать изображения в свою цепочку мыслей. Выходя за рамки базового анализа изображений, модели o3 и o4-mini могут более внимательно исследовать изображения и даже манипулировать ими с помощью таких действий, как обрезка, масштабирование, переворачивание или обогащение деталей, чтобы извлечь из изображений любые визуальные подсказки, которые потенциально могут улучшить способность ChatGPT предоставлять решения.
В объявлении говорится, что модели сочетают в себе визуальное и текстовое мышление, которое может быть интегрировано с другими функциями ChatGPT, такими как веб-поиск, анализ данных и генерация кода, и, как ожидается, станет основой для более продвинутых агентов ИИ с мультимодальным анализом.
Среди других практических приложений вы можете ожидать включения изображений множества элементов, таких как блок-схемы или каракули от рукописных заметок до изображений объектов реального мира, и ожидать, что ChatGPT будет иметь более глубокое понимание для лучшего вывода, даже без описательной текстовой подсказки. Благодаря этому OpenAI приближается к Google Gemini, который предлагает впечатляющую способность интерпретировать реальный мир посредством живого видео .
Несмотря на смелые заявления, OpenAI ограничивает доступ только платным участникам, предположительно, чтобы предотвратить повторное «таяние» своих графических процессоров , поскольку компания изо всех сил пытается удовлетворить спрос на вычисления для новых функций рассуждения. На данный момент модели o3, o4-mini и o4-mini-high будут доступны исключительно участникам ChatGPT Plus, Pro и Team, а пользователи уровней Enterprise и Education получат их через неделю. Между тем, пользователи бесплатной версии смогут ограничить доступ к o4-mini, нажав кнопку «Подумать» на панели подсказок.