Я закончил эту статью с ИИ, и главный редактор сказал, что молодец, я не буду использовать его завтра
Большинство литературных и творческих работников, например тех, кто пишет, рисует и сочиняет, подвержены повышенному риску безработицы — все иллюстрации в этой статье созданы ИИ. Но текст пишется мной, типа фейковая замена.
Недавняя серия красивых рисунков, созданных Dall-E 2 компании Open AI, а также тексты, написанные совместно с моделями Microsoft Florence и OpenAI GPT-3, доказывают, что ИИ иногда может выглядеть лучше, чем люди. Не будет преувеличением назвать этот год первым годом литературного и художественного творчества ИИ. С заданным текстом или изображением ИИ может создавать произведения, выходящие за рамки воображения, смелые, интересные и разумные. Действительно, недостатка в «эпохе» нет. «делающее» значение.
▲Карта полета астронавта Dall-E 2 в космос
Эти достижения основаны на огромной «краеугольной модели», которая дает возможности ИИ, которые его создатели не могли предвидеть. Модели искусственного интеллекта прошлого имели «шероховатость» ручной мастерской. Благодаря долгосрочным корректировкам потенциальные возможности «краеугольной модели» стали видимой невооруженным глазом тенденцией развития.
Искусственный интеллект вот-вот вступит в эру промышленного массового производства.
Большая модель, уволенные рабочие делают машины
В мае вышла бета-версия ИИ-инструмента для рисования Midjourney, и даже журнал The Economist не мог не «попробовать пораньше». Иллюстрации Midjourney для отчета The Economist выглядят вдохновенно и имеют ярко выраженный модернистский стиль — не забывайте, картинки основаны на очень абстрактных понятиях, в конце концов, содержание статьи не «женщина, держащая кошку», а конкретное повествование.
▲ Иллюстрация Midjourney для отчета The Economist
Одним из разработчиков Midjourney является Somnai, создатель Disco Diffusion, который разработал YouTuber Quick-Eyed Sky, Все эти приложения являются «вы говорите, что я рисую» или вводят ключевые слова и генерируют изображения. Disco Diffusion очень популярен, но по сравнению с DALL-E и Midjourney имеет небольшой "порог". Код и параметры приходится подгонять самому. Более популярные приложения "дурацкого" типа, просто напишите пару слов.
▲ Видео, снятое Somnai совместно с Disco Diffusion.
Игра «Ты говоришь, что я рисую» вызывает привыкание. Маск, Трамп, Скарлетт Йоханссон и Мэрилин Монро в Твиттере будут «сломаны», все они выглядят как «Улица кошмаров». «Мастер-художник Домо», запущенный в День защиты детей домашнего сообщества Димо, когда я намеренно «усложнил задачу», представленная картина все еще очень интересна.
▲ Я попросил Домо привести цитату Пола Кругмана, лауреата Нобелевской премии по экономике 2008 года: «В рыночной экономике ваши расходы — это мой доход».
Насколько хорошо работает вывод, полностью зависит от модели ИИ. Создание модели искусственного интеллекта эквивалентно гонке роскошных вооружений.
Доступные в настоящее время «краеугольные модели» включают OpenAI GPT-3 с параметрами, приближающимися к 200 миллиардам, и стоимостью более 10 миллионов долларов, Switch Transformer от Google с параметрами, превышающими GPT-3, Microsoft и Nvidia имеют модели MT-NLG с параметрами, превышающими 500 миллиардов; Модель Pangu от Huawei позиционируется как модель для предварительного обучения китайскому языку, и шкала параметров также достигает 100 миллиардов.
Когда ГПТ-3 впервые «родился» в 2020 году, он назывался «Машина для производства уволенных рабочих». Он легко прошел итоговый тест искусственного интеллекта — «Тест Тьюринга», и на все вопросы были даны гладкие ответы. Текстовые, переводческие, дизайнерские, расчетные и другие приложения, разработанные на основе модели GPT-3, могут заменить человеческие операции.
Есть даже человек, который хочет, чтобы ГПТ-3 написал небольшую статью на тему «Важность чистки твиттера». это Инь и Ян странности. В нем говорилось, что Twitter был «социальным программным обеспечением для всех, полным личных нападок».
▲ Получите это оригинальное изображение «Обед на траве» (Моне), Dall-E 2 создаст ряд изображений в похожем стиле и с разными деталями соответственно.
▲Искусственное воссоздание «Обеда на траве» теоретически может иметь неограниченное количество кадров.
Преимущества краеугольной модели очевидны. Во-первых, большие параметры и большой объем обучающих данных не только снизят предельную выгоду, но и значительно улучшат собственные возможности ИИ и прорывы в вычислениях. Во-вторых, используется метод обучения с использованием небольших выборок.ИИ не нужно «учиться с нуля» снова и снова, но он может фрагментировать и выбирать данные, необходимые для автоматического выполнения.
Краеугольная модель эквивалентна «универсальной технологии». В 1990-х годах историки экономики назвали «технологии общего назначения», такие как паровые двигатели, печатные станки, электродвигатели и т. д., ключевыми факторами, определяющими долгосрочное развитие производительности. «Общая технология» включает в себя такие функции, как быстрая итерация основных технологий, широкая применимость в разных секторах и побочные эффекты, тем самым стимулируя непрерывные инновации в продуктах, услугах и бизнес-моделях.
Сегодняшние краеугольные модели уже имеют те же характеристики.
Нейронная сеть + обучение с самоконтролем, потрясающие навыки
Сегодня более 80% исследований в области ИИ сосредоточено на краеугольных моделях. Подобно тому, как Тесла также строит масштабную краеугольную модель для автономного вождения.
Чтобы понять, что Ли Фейфэй, декан Института искусственного интеллекта Стэнфордского университета, назвал «поэтапными изменениями в искусственном интеллекте», мы должны знать, чем краеугольная модель отличается от прошлых моделей искусственного интеллекта.
Все современные модели машинного обучения основаны на «нейронных сетях» — программировании, которое имитирует взаимодействие клеток мозга. Их параметры описывают веса связей между виртуальными нейронами, а модель «обучается» выводить конкретный контент, который хочет разработчик, путем проб и ошибок с весами.
▲Сравнение резкости Dall-E и Dall-E 2
Последние несколько десятилетий нейронные сети находятся в экспериментальной стадии, и ничего не реализовано. Только в конце 2000-х и начале 2010-х годов вычислительная мощность суперкомпьютеров увеличилась, а Интернет предоставил достаточно данных для обучения.Благодаря оборудованию и данным нейронные сети начали выполнять перевод текста, интерпретацию голосовых команд и распознавание одно и то же изображение на разных картинках.Лицо и другие "невозможные задачи" ранее.
Особенно в 2010-х годах машины для машинного обучения и майнинга также использовали графические процессоры. Особенностью GPU является то, что он имеет тысячи потоковых процессоров, которые могут выполнять большое количество повторяющихся общих операций, и он не дорог, что намного дешевле, чем один раз запустить суперкомпьютер.
Прорыв произошел в 2017 году. В то время модель BERT от Google использовала новую архитектуру, которая больше не обрабатывала данные «традиционно» и последовательно, а использовала механизм «просмотра» всех данных одновременно.
В частности, такие модели, как BERT, не обучаются с помощью предварительно размеченных баз данных, а используют технологию «обучения с самоконтролем». По мере того, как модель копается в бесчисленных байтах, она может самостоятельно находить скрытые слова или догадываться о значении на основе контекста — так же, как экзаменационные вопросы, которые мы задавали в детстве! Весь новый метод очень близок к механизму обучения человеческого мозга, и вы можете найти то, что вас интересует, с первого взгляда, без необходимости обрабатывать и переваривать слово за словом.
▲Dall-E 2 добавляет розовую резиновую уточку на основе левой картинки (без следов PS)
После миллиардов циклов угадывания-сравнения-улучшения-угадывания модели, как правило, блестящие и талантливые.
Не ограничиваясь текстом, нейронные сети и методы обучения с самоконтролем могут применяться за пределами языка и текста, включая изображения, видео и даже макромолекулярные базы данных. Как и в графической модели DALL-E, угадывается не следующая комбинация букв, а следующий кластер пикселей.
Разнообразны и приложения, разработанные на основе больших моделей. В дополнение к серии приложений для литературного и художественного творчества, упомянутых выше, DeepMind от Google запустил Gato, который может играть в видеоигры, управлять роботизированными руками и писать. «Модель мира» Меты, кажется, застряла, изначально предназначенная для обеспечения контекста для Метавселенной.
крутые штуки или ловушка Тьюринга
Бум производства краеугольных моделей, безусловно, является хорошей новостью для производителей микросхем. Nvidia, которая активно участвует в создании краеугольных моделей, уже является одним из самых ценных в мире разработчиков полупроводников с рыночной стоимостью 468 миллиардов долларов.
Ожидается, что стартапы также воспользуются этим. Birch AI автоматически записывает звонки, связанные со здравоохранением, Viable использует его для просеивания отзывов клиентов, Fable Studio использует AI для создания интерактивных историй, а в Elicit люди полагаются на инструменты AI, чтобы находить свои исследовательские вопросы в научных статьях.
▲Midjourney использует стиль коллажа
У крупных компаний свой стиль игры. Представитель IBM сказал, что краеугольная модель может анализировать огромные объемы корпоративных данных и даже находить подсказки о затратах на потребление по показаниям датчиков в цехе. Руководитель проекта искусственного интеллекта Accenture предсказывает, что вскоре появятся «промышленные краеугольные модели», обеспечивающие более точные аналитические услуги для традиционных клиентов, таких как банки и автопроизводители.
Хотя будущее светлое, а рисование ИИ также стимулировало энтузиазм публики, многие исследователи по-прежнему рекомендуют «сделать шаг назад». Некоторые люди считают, что большие данные, на которые опирается большая модель, не являются полностью функциональными, а часть их является просто «случайным повторением», в то же время некоторые необъективные вопросы будут вызывать «иллюзию» модели. В начале прошлого года, когда GPT-3 ответил на закрытый вопрос «Вошли двое XXX (религиозных людей)…», вероятность заполнения «мусульманин» превышала 60%.
При чтении новостей «Domo Painter» в «Сообществе Dimo» на главной странице иногда можно увидеть пользователей, отправляющих непристойные инструкции ИИ. Генеральный директор Лин Зехао сказал Aifaner, что, как правило, фоновая проверка ключевых слов и ручная проверка будут проводиться одновременно. обеспечить здоровое функционирование общества. Инструменты для рисования с искусственным интеллектом, такие как Dall-E 2, также сталкиваются с теми же трудностями — той же судьбой, что и предыдущий Microsoft Xiaobing «ароматный рот».
▲Женщина и кошка, стиль какого известного художника был использован в этом Midjourney? Пожалуйста, оставьте сообщение в области комментариев, и вы будете вознаграждены за правильные ответы.
Эрик Бриньолфссон, экономист Стэнфордского университета, опасается, что коллективная одержимость большими моделями с человеческими способностями может легко привести общество в целом в «ловушку Тьюринга». Компьютеры сделали много вещей, которые люди не могли сделать, и теперь делают то, что люди могут делать — лучше, чем люди, больше людей теряют работу, богатство и власть будут более сконцентрированы, а неравенство увеличится.
Его опасения были оправданы. Масштабные модели стоят больших денег, и обычные люди не могут позволить себе в них вкладываться, а их сторонниками являются либо технологические гиганты, либо страны. Краеугольная модель станет базовой платформой для ряда сервисов, а платформа также обладает «эффектом Матфея»: победитель получает все, даже если не все, другим ничего не остается.
▲ Пользователи сети используют изображения, созданные Midjourney, полные научно-фантастического стиля.
Художники очень любят эти «крутые штучки». Британский композитор Reeps One (Гарри Йефф) часами кормит модель ритмом метронома, и модель учится ритмично реагировать на его голос. Он предсказывает, что «многие художники будут использовать этот инструмент, чтобы делать свою работу лучше».
Как репортер, я также очень люблю приложение iFLYTEK для голосовой транскрипции. В прошлом было достаточно двухчасовой записи интервью с людьми, чтобы психически здоровый взрослый рухнул на месте. Теперь нужно просто дождаться, пока программа выдаст текстовый документ, использовать его напрямую как «разговор» нельзя, но достаточно посмотреть как материал.
Недавно я также исследовал, как использовать GPT-3 для обучения моей собственной модели письма. Может быть, колонку «Ближайшее будущее» в следующий четверг напишет мой ИИ.
#Добро пожаловать на официальную учетную запись Айфанер в WeChat: Айфанер (WeChat: ifanr), в ближайшее время вам будет представлен более интересный контент.
Love Faner | Исходная ссылка · Просмотреть комментарии · Sina Weibo