Jak umělá inteligence mění trh podnikových úložišť dat
Umělá inteligence (AI) dlouho představovala technologii s obrovským, ale nevyužitým potenciálem. V loňském roce se to ale změnilo – především díky investici společnosti Microsoft ve výši 10 miliard dolarů do OpenAI a strategickým iniciativám společností Meta, Google a dalších v oblasti generativní AI. Tato technologie s námi již zůstane a dostává se jí plošného přijetí. Pro ředitele IT a jejich týmy je proto nyní nejvyšší čas, aby zvážili širší důsledky nadcházející éry, kterou můžeme pokládat za přímo řízenou AI.
Z hlediska jejího pravděpodobného dopadu na technologický sektor a společnost obecně lze umělou inteligenci přirovnat k zavedení relačních databází – v tom smyslu, že šlo o revoluci, která vedla k rozšíření práce s velkými datovými soubory. Tyto změny se pak projevily jak na straně koncových uživatelů, tak i u vývojářů softwaru. Na umělou inteligenci a strojové učení (ML) lze pohlížet stejným způsobem: poskytují základ, který bude formovat nejen vytváření nových výkonných aplikací, ale povede také ke zlepšení a zkvalitnění způsobů práce s velkými a různorodými soubory dat. Již nyní vidíme, jak nám tento vývoj může pomoci řešit složité problémy mnohem rychleji, než to šlo dříve.
Výzvy AI pro ukládání dat
Abychom pochopili výzvy, které umělá inteligence představuje z hlediska ukládání dat, musíme se podívat na základy této technologie. Veškeré strojové učení vyžaduje tréninkovou sadu dat. V případě generativní umělé inteligence musí být tyto datové soubory velmi rozsáhlé a komplexní, navíc obsahují data různých typů. Generativní AI se opírá o složité modely a algoritmy, které mohou obsahovat velmi velké množství parametrů, jež je třeba se „naučit“. Čím větší je počet funkcí, velikost a variabilita předpokládaného výstupu, tím roste je i velikost dávky dat v kombinaci s dobou tréninku, která předchází samotnému odvozování (inferenci).
Generativní AI má v podstatě za úkol provést kvalifikovaný odhad nebo extrapolaci, regresi či klasifikaci na základě dostupného souboru dat. Čím více dat má model k dispozici, tím větší je šance na přesný výsledek, minimalizaci chyby nebo nákladové funkce. V posledních několika letech umělá inteligence neustále zvyšovala velikost těchto datových sad, ale se zavedením velkých jazykových modelů, na kterých je založena aplikace ChatGPT a jiné platformy generativní umělé inteligence, jejich velikost a složitost vzrostla o další řád. Dochází k tomu proto, že naučené vzory znalostí, které vznikají během procesu trénování modelu AI, je třeba ukládat do paměti – což se u větších modelů může stát skutečným problémem. Kontrolní body velkých a složitých modelů také vytvářejí obrovský tlak na základní síťovou a úložnou infrastrukturu. Model nemůže pokračovat, dokud nejsou všechna interní data uložena v kontrolním bodě; tyto kontrolní body fungují jako body restartu nebo obnovy, pokud úloha selže nebo se gradient chyb nezlepší (míra chyb neklesá).
Ze souvislosti mezi objemem dat a přesností platforem umělé inteligence vyplývá, že organizace investující do umělé inteligence budou potřebovat vytvářet vlastní velmi rozsáhlé soubory dat, protože tímto způsobem lze maximalizovat možnosti, které umělá inteligence nabízí. Tohoto cíle lze dosáhnout pomocí neuronových sítí a jejich použití k identifikaci vzorů a struktur v rámci stávajících dat za účelem vytvoření nového, vlastního obsahu. Protože objemy dat exponenciálně rostou, je důležitější než kdy jindy, aby organizace mohly využívat co nejhustší a nejefektivnější datová úložiště. Jen tak lze omezit rozrůstající se plochy datových center a s tím spojené rostoucí náklady na energii a chlazení. A v této souvislosti jako významný problém začínají fungovat i důsledky požadavků na dosažení nulových čistých emisí uhlíku do roku 2030-2040. Úložiště dat hrají v této souvislosti významnou roli.
Je zřejmé, že umělá inteligence bude mít na závazky v oblasti udržitelnosti významný dopad. Klade dodatečné nároky na datová centra, a to v době, kdy jsou emise CO2 a spotřeba energie už v současné výši velkým problémem. Podniky se ale těmto tlakům mohou přizpůsobit a zvládnout je, zvolí-li spolupráci se správnými dodavateli technologií. Nejnovější servery s grafickými procesory mají spotřebu 6-10 kW a většina stávajících datových center není navržena na více než 15 kW na rack. Pro IT specialisty v datových centrech to znamená velký a problém, protože nasazení grafických procesorů se zvyšuje.
Flash a umělá inteligence se k sobě hodí ideálně
Někteří dodavatelé technologií se již při navrhování svých produktů udržitelností ale zabývají. Například úložná řešení typu all-flash jsou výrazně efektivnější než konkurenční technologie s tradičními pevnými disky (HDD). Někteří dodavatelé jdou dokonce nad rámec hotových disků SSD a vytvářejí vlastní moduly flash, které umožňují all-flashovým polím komunikovat přímo se samotným hardwarem (flashovým úložištěm), což maximalizuje možnosti technologie flash a poskytuje příslušným úložištím dat lepší výkon, využití energie a efektivitu.
Úložiště na bázi flash překonávají klasické pevné disky nejenom s ohledem na udržitelnost. Jsou mnohem vhodnější pro provozování projektů umělé inteligence i z technologického hlediska. Klíčové pro dosažení využitelných výsledků je zde totiž propojení modelů AI nebo aplikací využívajících AI s daty. K úspěšnému provedení tohoto úkolu je zapotřebí velkých a různorodých typů dat, šířky pásma pro tréninkové úlohy, výkonu zápisu pro kontrolní body (a obnovy kontrolních bodů), výkonu náhodného čtení pro odvozování a co je rozhodující, to vše musí fungovat spolehlivě a být snadno dostupné 24 hodin denně, 7 dní v týdnu, napříč daty a aplikacemi. Tento soubor vlastností není možný s úložištěm na bázi HDD, vyžaduje úložiště typu all-flash.
Datová centra také nyní čelí druhotné, ale stejně důležité výzvě, která se ještě zhorší v důsledku pokračujícího vzestupu nasazování umělé inteligence a strojového učení. Tou je spotřeba vody, která se stane ještě větším problémem – zejména pokud vezmeme v úvahu pokračující růst globálních teplot.
Mnoho datových center využívá odpařovací (adiabatické) chlazení. Funguje tak, že se na textilní pásy rozprašuje jemná vodní mlha, která absorbuje okolní teplo a ochlazuje přitom okolní vzduch. Jde o chytrý nápad, ale vzhledem k další zátěži, kterou změna klimatu představuje pro vodní zdroje – zejména v hustě zastavěných oblastech – je problematický. V důsledku toho tento způsob chlazení v posledním roce upadl v nemilost, což ale zase vyvolává závislost na tradičnějších, energeticky náročnějších metodách chlazení, jako je klimatizace. A odtud se odvíjí i další důvod pro přechod na datová centra typu all-flash, která spotřebovávají mnohem méně energie a nemají tak intenzivní požadavky na chlazení jako HDD nebo hybridní systémy úložišť kombinující flash a klasické pevné disky.
Cesta umělé inteligence a ukládání dat
S dalším rychlým vývojem umělé inteligence a strojového učení se rovněž bude zvyšovat důraz na bezpečnost dat (je nutné zajistit, aby nějak podvržené vstupu nemohly změnit výstup), opakovatelnost modelu (různé metody, např. Shapleyho hodnoty z teorie her, umožňují lépe pochopit, jak vstupy mění model) a etické otázky (velmi výkonná technologie by měla být využívána ve prospěch lidstva).
Všechny tyto požadavky s sebou přinášejí i stále větší nároky na ukládání dat. Někteří dodavatelé úložišť s tím již počítají ve svých plánech vývoje nových produktů. Vědí, že podniky budou hledat bezpečná, vysoce výkonná, škálovatelná a efektivní řešení úložišť pro éru AI. Pozornost by se nicméně neměla soustředit výhradně na možnosti hardwaru a softwaru pro ukládání dat. Umělá inteligence je technologie, k níž by všechny strany měly přistupovat pokud možno komplexně.
Alex McMullan Autor působí na pozici CTO International ve společnosti Pure Storage. |