Исследователи только что решили самую большую загадку ИИ
Большие языковые модели, лежащие в основе современных чат-ботов, таких как ChatGPT, Gemini и Claude, представляют собой чрезвычайно мощные системы генеративного искусственного интеллекта, к тому же чрезвычайно энергоемкие.
Очевидно, в этом нет необходимости, поскольку недавнее исследование Калифорнийского университета в Санта-Крус показало, что современные LLM, работающие с миллиардами параметров, могут работать всего на 13 Вт мощности без потери производительности. Это примерно столько же, сколько потребляет лампочка мощностью 100 Вт, и в 50 раз больше , чем 700 Вт, потребляемые графическим процессором Nvidia H100 .
«Мы получили ту же производительность при гораздо меньших затратах — все, что нам нужно было сделать, — это фундаментально изменить работу нейронных сетей», — сказал ведущий автор статьи Джейсон Эшрагян. «Затем мы пошли еще дальше и создали специальное оборудование». Они сделали это, отказавшись от матрицы умножения нейронной сети.
Умножение матриц является краеугольным камнем алгоритмов, лежащих в основе современных LLM. Слова представлены в виде чисел, а затем организованы в матрицы, где они взвешиваются и умножаются друг на друга для получения языковых результатов в зависимости от важности определенных слов и их отношения к другим словам в предложении или абзаце.
Эти матрицы хранятся на сотнях физически отдельных графических процессоров и извлекаются при каждом новом запросе или операции. Процесс перемещения данных, которые необходимо умножить на множество матриц, требует значительного количества электроэнергии и, следовательно, денег.
Чтобы обойти эту проблему, команда Калифорнийского университета в Санта-Крузе привела числа в матрицах к троичному состоянию — каждое отдельное число имело значение либо отрицательной единицы, либо нуля, либо положительной единицы. Это позволяет процессорам просто суммировать числа, а не умножать их. Эта настройка не имеет никакого значения для алгоритма, но экономит огромные затраты с точки зрения аппаратного обеспечения. Чтобы поддерживать производительность, несмотря на сокращение количества операций, команда внедрила в систему вычисления, основанные на времени, эффективно создав «память» для сети и увеличив скорость, с которой она могла обрабатывать уменьшенные операции.
«С точки зрения схемотехника вам не нужны накладные расходы на умножение, которые влекут за собой массу затрат», — сказал Эшрагян. И хотя команда реализовала свою новую сеть на специальном оборудовании FGPA, они по-прежнему уверены, что многие улучшения эффективности могут быть внедрены в существующие модели с использованием программного обеспечения с открытым исходным кодом и незначительных настроек оборудования. Даже на стандартных графических процессорах команда добилась снижения потребления памяти в 10 раз при одновременном повышении скорости работы на 25%.
Поскольку производители чипов, такие как Nvidia и AMD, постоянно расширяют границы производительности графических процессоров, требования к электричеству (и связанные с ними финансовые затраты) для центров обработки данных, в которых размещены эти системы, резко возросли в последние годы. С увеличением вычислительной мощности происходит соразмерное увеличение количества выделяемого чипами отходящего тепла — отходящего тепла, для полного рассеивания которого теперь требуются ресурсоемкие системы жидкостного охлаждения.
Генеральный директор Arm Рене Хаас предупредил The Register в апреле , что центры обработки данных искусственного интеллекта могут потреблять до 20-25% всей электроэнергии, вырабатываемой в США, к концу десятилетия, если не будут приняты корректирующие меры, причем быстро.