Ugyanazokon a kereszteződéseken haladunk át, mint ahol a 19. századi iparmágnások álltak, ám mi már tisztában vagyunk az új ipari forradalom által hordozott kockázatokkal.

Utólag könnyű bölcsnek tűnni, ahogy a közmondás tartja. Milyen csodás lenne visszautazni egy-két évszázaddal, és meggyőzni az embereket arról, hogy ne égetjenek szenet, földgázt és olajat, mintha nem lenne holnap. Mert sajnos, ha így folytatjuk, tényleg nem lesz holnap – vagy legalábbis a klasszikus évszakok eltűnnek, és az emberek elviselhetetlen hőségben fognak szenvedni. Az idő múlása nem kegyelmez, és a jövőnkért most kell cselekednünk.
Elvileg itt a nyakunkon következő ipari forradalom, és abban a kiváltságos helyzetben vagyunk, hogy már most látjuk, milyen káros következménye lehet az egyébként sok szempontból elképesztő potenciált jelentő mesterséges intelligenciának. A következmények nem csak pozitívak lehetnek: rengeteg diák úgy kap diplomát, hogy gyakorlatilag az MI-t küldi be maga helyett egyetemre, a gép rendszeresen hallucinál, és a Google keresője is egyre rosszabb az MI miatt.
Persze minden ipari forradalomnak ára van, de míg a 19. században az emberek nem tudták, hogy eszik-e, vagy isszák az üvegházhatású gázokat, addig mi most pontosan látjuk, hogy mekkora kárt okoz a környezetünkben az MI. Azaz egészen pontosan nem láthatjuk, de csak azért, mert eltitkolják.
A mesterséges intelligencia válaszainak energiaigényének meghatározása rendkívül bonyolult feladat, sőt, szinte lehetetlen, ami több tényezőre vezethető vissza. Az egyik fő ok, hogy a válaszok előállítása a mögöttes modellek bonyolultságától függ. Minél részletesebb és összetettebb egy nagy nyelvi modell (LLM), annál több erőforrást igényel a válaszok generálása. Emellett a legelterjedtebb mesterséges intelligenciák nem nyílt forráskódúak, így a fejlesztők titokban tartják a működésükhöz szükséges információkat. Bár ígérik, hogy a környezeti hatásokat minimalizálni kívánják, ez a gyakorlatban sokszor nem jár konkrétumokkal. Az OpenAI néha megoszt információkat, de legutóbb június közepén csupán annyit közöltek, hogy egy átlagos kérdés megválaszolásához körülbelül egy tizenötöd teáskanálnyi víz szükséges. Ezt viszont nem támasztották alá, így a kutatók számára nehezen értelmezhető és nehezen számolható adat marad.
Ez nem jelenti azt, hogy ne lenne érdemes megpróbálni felmérni, milyen költségekkel jár számunkra, ha megköszönjük a ChatGPT válaszát. Az MIT Technology Review alapos elemzése éppen ezt a kérdést vette górcső alá. Természetesen a számadatok nem véletlenszerűen kerültek előtérbe; a kutatás során több mint húsz szakértő véleményét is figyelembe vették, különféle mesterséges intelligencia modelleket elemeztek, és rengeteg jelentést dolgoztak fel. Az MI-technológiák mögött álló cégekkel is kapcsolatba léptek, hogy minél átfogóbb képet kapjanak. A részletek iránt érdeklődők számára az elemzés elérhető itt.
Ahhoz, hogy felmérjék az MI-ágazat energiaigényét, azzal a kérdéssel kezdtek, hogy mennyit eszik egy válaszhoz. Az MI-k adatközpontokban laknak, amik gyakorlatilag óriási raktárak tele szerverekkel és az azokat hűtő rendszerrel. Az MI-k a válaszadáshoz fejlett grafikus egységeket (videókártyákat, GPU-kat) használnak - ezért is szárnyalnak az ilyeneket gyártó Nvidia részvényei - ez veszi fel az energia nagy részét. Persze szükségük van processzorokra is, amik szintén árammal működnek, és azt sem szabad elfelejteni, hogy a hűtést sem csak a helyi szellővel oldják meg. De az adatközpontokra majd később kitérünk.
Ahhoz, hogy a mesterséges intelligencia képes legyen megjósolni például a nyári hőmérsékletet (akár hibásan is), először hatalmas mennyiségű adatot kell feldolgoznia, hogy megtanulja az összefüggéseket. Ez a tanulási folyamat hasonlít ahhoz, mint amikor egy gyermeket tanítunk: rengeteg információval kell „etetni”, hogy a gép észlelni tudja a mintákat, és ezen ismeretek birtokában tudjon válaszolni a kérdésekre. Ugyanakkor ez a művelet nem csupán időigényes, hanem energiaigényes is: például az OpenAI körülbelül 100 millió dollárt és 50 gigawattórányi energiát fordított a GPT-4 modellezésére. Ekkora energia mennyiség elegendő lenne ahhoz, hogy San Francisco városa körülbelül három napig zavartalanul működjön. Az MIT Technology Review által megkérdezett szakértők véleménye szerint a legnagyobb érték abban rejlik, hogy az emberek folyamatosan kérdéseket tesznek fel az MI-nek, és a mesterséges intelligencia számítási teljesítményének 80-90 százaléka erre a interakcióra megy el.
A kérdések és kérések energiaigényének meghatározása nem olyan egyértelmű feladat, mint például egy autó károsanyag-kibocsátásának kiszámítása. Ahogyan már utaltunk rá, az energiafogyasztás változó a különböző modellek között, és jelentős hatással van az is, hogy az adatközpont, amely kezeli a kérdést, milyen típusú áramhálózatra kapcsolódik.
A legismertebb modellek esetében nem áll rendelkezésre pontos információ arról, hogy mi történik azután, hogy az ember elküldi a kérdését, és milyen költségekkel jár mindez. A gyártók gyakran üzleti titkokra hivatkoznak, de azt sem lehet kizárni, hogy az adatok nyilvánosságra hozatala káros hatással lenne a cégek reputációjára.
Vannak azonban nyílt forráskódú modellek, amelyek lehetőséget adnak a kutatók számára, hogy ezekből kiinduljanak. Például képesek felbecsülni, hogy az Nvidia H100 GPU, amely az egyik legkeresettebb, milyen energiaigényt mutat. A jelenlegi adatok alapján egy nagy nyelvi modell (LLM) teljes energiafogyasztása körülbelül a GPU energiafogyasztásának kétszeresével egyenlő.
A Michigani Egyetem kutatói, Jae-Won Chung és Mosharaf Chowdhury közreműködésével a Meta nyílt forráskódú Llama modelljén végeztek teszteket, hogy feltérképezzék a különböző változatok költségeit.
A 3.1 8B változatban 8 milliárd paramétert figyelembe véve jósolja meg a válaszába való következő szót a csetbot, és több különböző kérdésre adott válaszai alapján egy válasz nagyjából 57 joule energiát igényelt a H100-as csiptől, így egy válasz 114 J-t használt el. Ez nem sok, nagyjából arra elég, hogy egy mikró egy tizedmásodpercig működjön.
A kísérlet során a legnagyobb szöveggenerálásra alkalmazott modell, a Llama 3.1 405B, ötven alkalommal több paramétert használ, ami lehetővé teszi, hogy pontosabb és relevánsabb válaszokat adjon. Az interakció során 3353 J energiafelhasználás történt, ami összesen 6706 J-ra rúg, elegendő mennyiség ahhoz, hogy körülbelül 8 másodpercnyi mikrózásra legyen elegendő.
Minél bonyolultabb egy modell felépítése, annál nagyobb energiaigénye lesz, mivel több chipre van szüksége a működéshez. A kísérletek során a legnagyobb modellek már 405 milliárd paramétert is elértek, de léteznek még népszerűbb, nagyobb rendszerek is, mint például a 600 milliárd paraméteres DeepSeek. A GPT-4 pedig becslések szerint akár 1 billió (ezermilliárd) paramétert is tartalmazhat. Fontos megjegyezni, hogy a kérdés (prompt) összetettsége is kulcsszerepet játszik: minél egyszerűbb a kérdés, annál kevesebb energiát igényel a válasz generálása.
A képgenerálás folyamata eltér a szövegalkotástól, és ezt a jelenséget diffúziónak nevezik. A generáció során a prompt szerepe nem annyira meghatározó az energiafelhasználás szempontjából; sokkal fontosabb tényezők a modell mérete, a kép felbontása, valamint az, hogy hány lépés szükséges a kívánt kép létrehozásához.
Az egyik legismertebb nyílt forráskódú képgeneráló eszköz a Stable Diffusion 3 Medium, amely lenyűgöző 2 milliárd paramétert tartalmaz. A működése során a GPU körülbelül 1141 J energiát használ el egy válasz generálásához. Jelenleg azonban a diffúziós modellek esetében nincs pontos adat arról, hogy a GPU-k milyen arányban járulnak hozzá a teljes energiafogyasztáshoz. Szakértők úgy vélik, hogy a nagy nyelvi modellekhez hasonlóan itt is alkalmazható lehet egy duplázós megközelítés, ami azt jelenti, hogy bár lehetnek eltérések, azok valószínűleg nem jelentősek. Így a becsült energiafogyasztás valós értéke akár 2282 J-ra is rúghat.
Amennyiben a diffúziós lépések számát ötvenszeresére növeljük, a képminőség körülbelül megduplázódik, ugyanakkor az energiafogyasztás is jelentősen megnő: 4402 J-ra. Ez az energia körülbelül 5,5 másodpercnyi mikrózáshoz elegendő, így a költsége alacsonyabb, mint a legnagyobb teljesítményű szöveggenerátor használata.
A videók világában a helyzet némiképp eltér a megszokottól. A vezető fejlesztők zárt forráskódú mesterséges intelligenciái rendkívül élethű és lebilincselő videókat képesek előállítani, ám az ezek működéséhez szükséges energiafogyasztás nem publikus adat. Ezzel szemben a nyílt forráskódú alternatívák, bár némileg lemaradtak, már most is meglepően jó minőségű videókat készítenek. A cikk keretein belül Sasha Luccioni, a Hugging Face klímakutatója a kínai Zhipu AI által fejlesztett CogVIdeoX modellt tesztelte. Az energiaigény mérése során a Code Carbon nevű szoftver segítségét vette igénybe.
A modell augusztusi verziója csupán 8 FPS-es videók előállítására volt képes, amelyek minősége nem volt igazán meggyőző – inkább hasonlítottak animált gifekre. Ezek a videók 109 000 J energiát igényeltek. Három hónappal később azonban a vállalat bemutatta az új verziót, amely már képes volt jó minőségű, 5 másodperces videók létrehozására, ráadásul másodpercenként 16 képkockával. Ez az új modell 30-szor annyi energiát használt az 5 másodperces videókhoz, mint az előző változat: 3,4 millió J-ot, ami elegendő egy órányi mikrózásra is. Ebből könnyen levonható a következtetés, hogy a sokkal fejlettebb és hosszabb videók készítésére alkalmas modellek valószínűleg ennek a többszörösét használják fel.
A lap azt is bemutatta, hogy ez hogy is néz ki a hétköznapi életben. Hiszen sokan hétköznapi dolgokhoz komplexebb feladatokra is használnak több különböző modellt. A lap példaként azt hozta, hogy valaki jótékonysági céllal maratont akar futni. Ehhez feltesz 15 kérdést egy LLM-nek, hogy megtudja, hogy lehet a leghatékonyabban adományokat gyűjteni, majd generáltat magának egy szórólapot. Ahhoz, hogy az MI eltalálja, mit is szeretne, 10 próbálkozásra van szükség. Ezután három próbálkozásból kijön egy 5 másodperces videó, ami megy majd Instagramra, és kész is. Mindez 2,9 kilowattórányi áramot használt, ami akár 3,5 óra mikrózásra is elég lenne.
A cikk szerzői többször kiemelik, hogy ez mind csak becslés. Miután a cégek nem hajlandóak kiadni a pontos méréshez szükséges adatokat, csak tippelni lehet, hogy mondjuk a GPT 4o mennyi energiát használ. Ez persze nem azt jelenti, hogy nem lehet becsléseket felállítani, ahogy ők is tették.
Most, hogy ezt tisztáztuk, érdemes megvizsgálni az adatközpontok szerepét. Ezek az infrastruktúrák már régóta léteznek, és a 2010-es évek elején készült előrejelzések aggasztó képet festettek arról, hogy mennyire energiaigényesek és környezetszennyezőek lesznek. Azonban szerencsére a technológiai fejlődés kedvező irányba terelte ezeket a jóslatokat. A 2010 és 2018 közötti időszakban a globális számítási kapacitás 550 százalékkal nőtt, mindezt úgy, hogy az energia költségei csak minimálisan változtak.
2018 után azonban a trend megint rossz irányba fordult: míg akkor a teljes áramhasználat 1,9 százalékáért voltak felelősek az adatközpontok, 2024-ben ez a szám már 4,4 volt. Virginiában a teljes állami áramhasználat 25 százalékáét ilyen adatközpontok felelnek. Jelenlegi becslések alapján 2028-ra az MI felelhet majd az USA áramhasználatának 6-12 százalékáért, azaz annyiért, mint az amerikai háztartások közel egynegyede összesen.
Ez így önmagában még nem feltétlenül lenne probléma. Érthető, hogy valami, amihez nagy számítási kapacitás kell, sok áramot használ, és van rá esély, hogy maga az MI segít majd olyan fejlesztések kiötlésében, felgyorsításában, ami hatékonyabbá teszi majd a saját működését.
A probléma gyökere abban rejlik, hogy a helyzetet nem lehet elszigetelten kezelni. A Microsoft, a Google és az Amazon olyan területeken telepítenek új adatközpontokat, ahol a legszárazabb körülmények uralkodnak, ami komoly kockázatot jelent a helyi víz- és áramellátás számára. Ráadásul a már működő adatközpontok jelentős része fosszilis energiaforrásokra támaszkodik, amelyek környezeti hatásai vitathatatlanok. A Harvard által készített, még szakmai lektorálásra váró kutatás szerint az adatközpontok szénalapú áramfelhasználása 48 százalékkal meghaladja az amerikai átlagot. Mivel ezek a központok folyamatosan üzemelnek, nem támaszkodhatnak kizárólag megújuló forrásokra, mint a nap- vagy szélenergia, mivel ezek nem mindig elérhetők. Az egyszerűbb megoldás a régi fosszilis erőművek újranyitása és új létesítmények építése, míg egy fokkal kedvezőbb alternatíva az új atomerőművek létrehozása és a régiek kihasználása, amire például a Meta is készül.
Fontos szempont, hogy egy adatközpont milyen típusú áramkörön működik. Ha például olyan régióban helyezkedik el, ahol a szénalapú energiaforrások dominálnak, mint például Virginia vagy Pennsylvania, akkor az áramellátása sokkal szennyezőbb lehet. Ezzel szemben egy nap- és szélerőművekben gazdag államban, mint Kalifornia, a működése sokkal környezetbarátabb energiafelhasználást eredményez.
Kaliforniában például ha egy prompt egy olyan adatközpontba talál be, ami Kaliforniában van, és nappal ért be, akkor nagyjából kilowattóránként 70 gramm széndioxid-kibocsátásnyi fosszilis alapú energiába kerül, Azonban ha éjszaka kapja ugyanaz az adatközpont a kérést, akkor - mivel nem süt a nap - ugyanez akár 300 gramm is lehet. A maratonos-jótékonykodós példa Kaliforniában a jobbik esetben 650 gramm széndioxid-kibocsátással járna, az adatközpont-főváros West Virginiában ugyanez 1150 grammot termel.
A ChatGPT a világ egyik legnépszerűbb weboldala, az OpenAI decemberben azt ünnepelte, hogy napi egymilliárd kérdést kapnak. Becslések szerint ez egy év alatt ugyanannyi áramot használ, mint bő tízezer amerikai háztartás - és akkor még nem is vettük ide a többi modellt. Azt is fontos kiemelni, hogy nemcsak dedikált csetbotokban találkozhatunk MI-vel, mert a cégek a legtöbb, a mindennapi életünk részeit képező szolgáltatásba be akarják építeni. Ha akarjuk, ha nem.
Azokban az országokban, ahol jelentős számú adatközpont működik, nem csupán a globális klímaváltozás felgyorsulása lehet a következmény, hanem az emberek pénztárcáját is súlyosan érintheti a helyzet. Például az Egyesült Államokban a nagy techvállalatok, mint a Meta, kedvező áron jutnak áramhoz a szolgáltatóktól, ami gyakran a hétköznapi felhasználók terheit növeli meg. Amennyiben egy adatközpont nem teljesíti a várt forgalmat, vagy valamilyen okból kevesebb áramot igényel, a helyi lakosság áramdíja emelkedni fog, hogy kompenzálja az áramszolgáltató kieső bevételeit. Egy 2024-es jelentés alapján például a virginiai háztartások havonta akár 37,5 dollárral (kb. 13 ezer forinttal) is többet fizethetnek, hogy fedezzék az adatközpontok által okozott áramdíj-kiesést.
"Nem egyértelmű, hogy ezeknek az adatközpontoknak az előnye nagyobb-e, mint a hátrányuk. Miért nekünk kéne fizetni ezért az infrastruktúráért? Miért kéne nekünk állni a villanyszámlájukat?"
- tette fel a kérdést Eliza Martin, a Harvard kutatója.
Bár az egyes kérdések és képgenerálások viszonylag alacsony energiaigénnyel bírnak, a sok apró dolog összessége mégis jelentős hatást gyakorol. A mesterséges intelligencia elkerülhetetlenül egyre inkább belép az életünkbe, ezt el kell fogadnunk. Éppen ezért kulcsfontosságú, hogy a vállalatok átláthatóak legyenek az adatközpontjaik energiafogyasztásával kapcsolatban. A felhasználóknak tisztában kell lenniük azzal, hogy milyen környezeti költsége van annak, ha akciófiguraként vagy Ghibli-karakterként jelennek meg. Hiába izgalmas ez a kísérlet, valószínű, hogy az idei év volt az utolsó alkalom, amikor mesterséges intelligenciákat érettségiztettünk.
Viszont ugye lehet, hogy az MI magában hordozza a saját fejlesztését, megtisztítását, ami - bár egyáltalán nem biztos, és joggal tűnhet egyelőre PR-szövegnek - izgalmasan és bíztatóan hangzik. Az MIT Technology Review azt is összegyűjtötte, mi ad okot optimizmusra az MI energiahasználatával kapcsolatban. Ahogy fejlődnek a modellek, jó eséllyel hatékonyabban működnek majd, hiszen a gyártó anyagi érdeke is, hogy kevesebb költsége legyen az üzemeltetéssel. Emellett a számítógépekben és szerverekben használt csipek is egyre hatékonyabbak, és hasonló várható az adatközpontoktól is. A gyártók állítják, hogy nagyban dolgoznak a még jobb léghűtéses rendszereken, hogy ne használjanak annyi vizet, de egyelőre inkább pont, hogy léghűtésről állnak át a vízhűtésre, úgyhogy ez semmiképp sem egy rövid távon bekövetkező változás.
A cégek titkolódzása miatt a kutatók számára csak korlátozott mennyiségű konkrét információ áll rendelkezésre, de egyértelmű, hogy minden ChatGPT-vel készített útiterv, recept vagy kódsor mögött rejlő költségek nem csupán pénzben mérhetők. Míg a 19. századi iparmágnások idejében a fejlődés emberi ára volt a középpontban, ma már a környezeti kockázatok is figyelmet érdemelnek. Az MI fejlődése, amely rengeteg izgalmas lehetőséget rejt magában, ugyanakkor nem mentes a kihívásoktól. Éppen ezért fontos, hogy ne hagyjuk, hogy a technológiai fejlődés korlátlanul száguldjon, mintha nem is lenne irányítás.