Расчет энергетического следа ИИ: Скрытая сторона медали, о которой вы не слышали

Когда мы приступили к написанию материала о наилучших доступных оценках энергетического и эмиссионного бремени искусственного интеллекта, мы понимали, что неизбежно столкнемся с оговорками и неопределенностями. Однако вскоре выяснилось, что эти самые оговорки и составляют суть истории.


Этот материал является частью серии «Энергоемкость: ИИ и наше энергетическое будущее» нашего издания, посвященной энергетическим потребностям и углеродным затратам революции искусственного интеллекта.


Измерение энергии, потребляемой моделью ИИ, не похоже на оценку расхода топлива автомобиля или класса энергоэффективности бытового прибора. Не существует ни общепринятой методики, ни публичной базы данных с показателями. Нет и регуляторов, которые бы следили за соблюдением стандартов, а у потребителей нет возможности сравнить одну модель с другой.

Несмотря на то, что миллиарды долларов вкладываются в перестройку энергетической инфраструктуры под нужды ИИ, никто до сих пор не пришел к единому способу количественной оценки энергопотребления ИИ. Хуже того, компании в целом неохотно раскрывают свою часть этой головоломки. Существуют также ограничения в оценке выбросов, связанных с этим спросом на энергию, поскольку энергосеть представляет собой сложную, постоянно меняющуюся смесь источников.

По сути, это сплошной беспорядок. Итак, с учетом всего вышесказанного, вот многочисленные переменные, допущения и оговорки, которые мы использовали для расчета последствий одного ИИ-запроса. (Полные результаты нашего исследования можно посмотреть здесь.)

Измерение энергии, потребляемой моделью

Такие компании, как OpenAI, работающие с «закрытыми» моделями, обычно предоставляют доступ к своим системам через интерфейс, куда вы вводите вопрос и получаете ответ. Что происходит между этим — в каком дата-центре мира обрабатывается ваш запрос, сколько энергии это требует и какова углеродоемкость используемых источников энергии — остается тайной, известной только компаниям. У них мало стимулов для публикации этой информации, и пока что большинство не сделало этого.

Именно поэтому для нашего анализа мы обратились к моделям с открытым исходным кодом (open-source). Они служат очень несовершенным, но лучшим из имеющихся у нас прокси-аналогов. (OpenAI, Microsoft и Google отказались поделиться подробностями о том, сколько энергии потребляют их закрытые модели.)

Лучшими ресурсами для измерения энергопотребления моделей ИИ с открытым кодом являются AI Energy Score, ML.Energy и MLPerf Power. Команда ML.Energy помогала нам в расчетах для текстовых моделей, а команда AI Energy Score — для моделей обработки изображений.

Текстовые модели

Модели ИИ потребляют энергию в две фазы: когда они проходят первичное обучение на огромных объемах данных (это фаза тренировки), и когда они отвечают на запросы (фаза инференса). Когда несколько лет назад был запущен ChatGPT, основное внимание уделялось тренировке, поскольку технологические гиганты спешили создавать все более крупные модели. Но сейчас именно инференс является той частью, где потребляется больше всего энергии.

Наиболее точный способ понять, сколько энергии потребляет модель ИИ на этапе инференса, — это напрямую измерить количество электроэнергии, потребляемой сервером, обрабатывающим запрос. Серверы включают в себя самые разные компоненты: мощные чипы, называемые GPU, которые выполняют основную часть вычислений, другие чипы (CPU), вентиляторы для охлаждения и многое другое. Исследователи обычно измеряют мощность, потребляемую GPU, и оценивают остальное (об этом чуть позже).

Чтобы это сделать, мы обратились к кандидату наук Джэ-Вон Чунгу и доценту Мошарафу Чоудхури из Мичиганского университета, которые возглавляют проект ML.Energy. Собрав данные об энергопотреблении GPU различных моделей от их команды, нам пришлось оценить, сколько энергии уходит на другие процессы, например, на охлаждение. Мы изучили научную литературу, включая статью 2024 года от Microsoft, чтобы понять, какую долю в общем энергопотреблении сервера несут GPU. Оказалось, что около половины. Поэтому мы взяли оценку энергопотребления GPU от команды и удвоили ее, чтобы получить представление об общих энергетических потребностях.

Команда ML.Energy использует для тестирования моделей набор из 500 подсказок из более крупного набора данных. Оборудование оставалось неизменным на протяжении всего тестирования; в качестве GPU использовался популярный чип Nvidia под названием H100. Мы решили сосредоточиться на моделях трех размеров из семейства Meta Llama: малой (8 миллиардов параметров), средней (70 миллиардов) и большой (405 миллиардов). Мы также подобрали набор тестовых запросов. Мы сравнили их со средними показателями для всей партии из 500 подсказок.

Модели для изображений

Stable Diffusion 3 от Stability AI является одной из наиболее часто используемых моделей для генерации изображений с открытым кодом, поэтому мы сосредоточились на ней. Хотя мы тестировали несколько размеров текстовой модели Meta Llama, здесь мы сфокусировались на одной из самых популярных версий Stable Diffusion 3 с 2 миллиардами параметров.

Команда использует набор данных с примерами запросов для оценки энергопотребления модели. Хотя энергия, потребляемая большими языковыми моделями, частично зависит от запроса, это не совсем так для диффузионных моделей. Диффузионные модели могут быть запрограммированы проходить заданное количество «шагов шумоподавления» при генерации изображения или видео, где каждый шаг — это итерация алгоритма, добавляющая больше деталей к изображению. Для заданного количества шагов и модели все генерируемые изображения имеют одинаковый энергетический след.

Чем больше шагов, тем выше качество конечного результата, но тем больше энергии потребляется. Количество шагов варьируется в зависимости от модели и приложения, но 25 шагов — это довольно распространенный вариант, который мы использовали для стандартного качества. Для более высокого качества мы использовали 50 шагов.

Мы упомянули, что GPU обычно отвечают примерно за половину энергопотребления запросов больших языковых моделей. Недостаточно исследований, чтобы точно знать, как это меняется для диффузионных моделей, генерирующих изображения и видео. В отсутствие лучшей оценки, и после консультаций с исследователями, мы решили придерживаться этого «правила большого пальца» в 50% и для изображений, и для видео.

Видеомодели

Чанг и Чоудхури тестируют и видеомодели, но только те, которые генерируют короткие GIF-изображения низкого качества. Мы не считаем, что видео, производимые этими моделями, соответствуют уровню детализации видеороликов, к которому привыкло большинство пользователей ИИ.

Вместо этого мы обратились к Саше Луккони, руководителю направления ИИ и климата в Hugging Face, которая курирует проект AI Energy Score. Она измеряет энергию, потребляемую GPU во время ИИ-запросов. Мы выбрали для тестирования две версии модели CogVideoX: более старую, низкого качества, и новую, более качественную.

Мы попросили Луккони использовать свой инструмент под названием Code Carbon для тестирования обеих версий и зафиксировать результаты для набора видеозапросов, которые мы отобрали. Мы использовали то же самое оборудование, что и для тестов текста и изображений, чтобы сохранить как можно больше переменных одинаковыми. Она предоставила данные о потреблении энергии GPU, которые мы также удвоили для оценки общего энергопотребления.

Отслеживание источников энергии

После того как мы поняли, сколько энергии требуется для ответа на один запрос, мы можем перевести это в общее воздействие на выбросы. Для этого необходимо рассмотреть энергосеть, от которой дата-центры получают электроэнергию.

Точное определение климатического воздействия сети может быть сложным, поскольку она является одновременно взаимосвязанной и крайне локализованной. Представьте сеть как систему соединенных каналов и водоемов. Электростанции добавляют воду в каналы, а потребители электричества, или нагрузки, забирают ее. В США межсистемные связи охватывают всю страну. Таким образом, в некотором смысле мы все связаны, но мы также можем разбить сеть на компоненты, чтобы оценить, насколько различаются источники энергии по всей стране.

Понимание углеродоемкости

Ключевой метрикой для понимания здесь является углеродоемкость (carbon intensity), которая, по сути, представляет собой меру того, сколько граммов загрязнения углекислым газом выделяется на каждый киловатт-час произведенной электроэнергии.

Чтобы получить данные об углеродоемкости, мы связались с Electricity Maps, датским стартапом, который собирает данные об энергосетях по всему миру. Команда получает информацию из различных источников, включая правительства и коммунальные службы, и использует ее для публикации исторических и актуальных оценок углеродоемкости сети. Подробнее об их методологии можно узнать здесь.

Компания поделилась с нами историческими данными за 2024 год как по всей территории США, так и по нескольким ключевым диспетчерским зонам (об этом ниже). После обсуждения с основателем Electricity Maps Оливье Коррадии и другими экспертами мы приняли несколько решений относительно того, какие цифры использовать в наших расчетах.

Один из способов измерения углеродоемкости — просто рассмотреть все работающие электростанции в сети, суммировать производимое ими загрязнение и разделить общее количество на произведенную электроэнергию. Но это не учитывает выбросы, связанные со строительством и сносом электростанций, которые могут быть существенными. Поэтому мы решили использовать показатели углеродоемкости, которые учитывают полный жизненный цикл электростанции.

Мы также выбрали использование потребляемой углеродоемкости энергии, а не производимой. Этот показатель учитывает импорт и экспорт между различными частями сети и наилучшим образом отражает электроэнергию, используемую в реальном времени в данном регионе.

Для большинства расчетов, представленных в статье, мы использовали среднюю углеродоемкость для США за 2024 год по данным Electricity Maps, которая составляет 402,49 грамма эквивалента углекислого газа на киловатт-час.

Понимание диспетчерских зон (Balancing Authorities)

Хотя понимание общей картины по всей территории США может быть полезным, сеть может выглядеть совершенно по-разному в разных местах.

Один из способов структурирования данных — рассмотрение диспетчерских зон (balancing authorities). Это независимые органы, ответственные за балансировку сети в определенном регионе. Они работают в основном независимо, хотя между ними постоянно происходит перемещение электроэнергии. В США насчитывается 66 таких зон, и мы можем рассчитать углеродоемкость для той части сети, которая охватывается конкретной диспетчерской зоной.

Electricity Maps предоставила нам данные по углеродоемкости для нескольких ключевых диспетчерских зон, и мы сосредоточились на тех, которые играют наиболее значительную роль в работе дата-центров. ERCOT (охватывающая большую часть Техаса) и PJM (объединение штатов на Восточном побережье, включая Вирджинию, Пенсильванию и Нью-Джерси) — это два региона с наибольшей концентрацией дата-центров, согласно исследованию Гарвардской школы общественного здравоохранения.

Мы добавили CAISO (Калифорния), поскольку она охватывает самый густонаселенный штат США. CAISO также управляет сетью со значительным количеством возобновляемых источников энергии, что делает ее хорошим примером того, как углеродоемкость может резко меняться в зависимости от времени суток. (Например, в середине дня доминирует солнечная энергия, тогда как ночью большую роль играет природный газ.)

Основная оговорка здесь заключается в том, что мы не совсем уверены, куда именно компании направляют отдельные запросы на инференс ИИ. В выбранных нами регионах есть скопления дата-центров, но когда вы используете модель ИИ от технологического гиганта, ваш запрос может быть обработан любым из многочисленных дата-центров, принадлежащих компании или находящихся у нее по контракту. Одно разумное приближение — это география: вполне вероятно, что дата-центр, обслуживающий запрос, находится недалеко от места его отправки, поэтому запрос с Западного побережья, скорее всего, будет направлен в дата-центр на этой же стороне страны.

Объяснение наших находок

Чтобы лучше контекстуализировать наши расчеты, мы ввели несколько сравнений, более привычных людям, чем киловатт-часы и граммы диоксида углерода. В некоторых случаях мы брали оценку потребления электроэнергии моделью и рассчитывали, как долго эта энергия могла бы питать стандартную микроволновую печь, а также какое расстояние мог бы проехать на ней человек на электровелосипеде.

Для электровелосипеда мы исходили из эффективности 25 ватт-часов на милю (около 15,5 ватт-часов на километр), что соответствует часто цитируемым показателям для педального ассистируемого велосипеда. Для микроволновой печи мы использовали модель мощностью 800 Вт, что соответствует среднему показателю по США.

Мы также ввели сравнение для контекстуализации выбросов парниковых газов: мили, пройденные на бензиновом автомобиле. Для этого мы использовали данные Агентства по охране окружающей среды США (EPA), которое установило, что средний взвешенный расход топлива транспортных средств в США в 2022 году составил 393 грамма эквивалента углекислого газа на милю.

Прогнозирование будущего энергопотребления ИИ

После измерения энергопотребления отдельного запроса и связанных с ним выбросов настало время оценить, как все это суммируется в национальный спрос.

Есть два способа сделать это. При анализе «снизу вверх» (bottom-up) вы оцениваете общее количество запросов, рассчитываете энергопотребление каждого и суммируете их для определения общего объема. При анализе «сверху вниз» (top-down) вы оцениваете общее энергопотребление всех дата-центров, основываясь на более широких тенденциях.

Анализ «снизу вверх» особенно затруднен, поскольку, опять же, компании с закрытым исходным кодом не делятся такой информацией и отказались обсуждать с нами детали. Хотя мы можем сделать некоторые обоснованные предположения, чтобы получить представление о том, что происходит прямо сейчас, для прогнозирования будущего, вероятно, лучше подходит подход «сверху вниз».

Эти данные также скудны. Наиболее важный отчет был опубликован в декабре Национальной лабораторией Лоуренса Беркли, финансируемой Министерством энергетики США. Авторы отчета отметили, что это лишь третий подобный отчет, выпущенный за последние 20 лет. Независимые ученые в области климата и энергетики, с которыми мы беседовали, считают серьезной проблемой то, что ИИ не выделен в отдельный экономический сектор для измерения выбросов, и отсутствуют строгие требования к отчетности. Как следствие, отслеживать климатический след ИИ сложно.

Тем не менее, мы изучили результаты отчета, сравнили их с другими данными и оценками, а также проконсультировались с независимыми экспертами по поводу этих данных. Хотя большая часть отчета касалась дата-центров в целом, мы выделили те данные, которые специфичны для будущего ИИ.

Цели компаний

Мы хотели сопоставить эти цифры с объемами энергии, которые, по заявлениям самих компаний, им понадобятся для ИИ. Для этого мы собрали отчеты ведущих технологических компаний и ИИ-разработчиков об их планах по расширению мощностей и дата-центров, а также о суммах, которые они пообещали инвестировать. Где это было возможно, мы проводили проверку заявленных обещаний. (Например, обещания Meta и Microsoft использовать больше ядерной энергии действительно снизят углеродный след компаний, но на запуск этих дополнительных АЭС уйдут годы, если не десятилетия.)

Запросы к компаниям

Мы направили запросы в Microsoft, Google и OpenAI для проведения предметных обсуждений, основанных на данных, об энергопотреблении их моделей для инференса ИИ. Ни одна из компаний не предоставила руководителей или топ-менеджеров для интервью под запись об использовании ими энергии.

Этот материал был подготовлен при поддержке гранта от Центра журналистики ИИ им. Тарбелла (Tarbell Center for AI Journalism).