Domov Dopredu myslenie Prečo je strojové učenie budúcnosť

Prečo je strojové učenie budúcnosť

2024

Obsah:

Súťaž o strojové učenie

Video: Céline Dion - Pour que tu m'aimes encore (Clip officiel) (November 2024)

Na tohtoročnej konferencii superpočítačov SC16 vynikli dva trendy. Prvým je objavenie najnovšej Xeon Phi (Knights Landing) spoločnosti Intel a najnovšej Tesly (N100) spoločnosti Pvid, ktorá sa nachádza v Pascale, na zozname Top500 najrýchlejších počítačov na svete; oba systémy sa umiestnili v top 20. Druhým je veľký dôraz na to, ako tvorcovia čipov a systémov berú koncepty z moderných systémov strojového učenia a aplikujú ich na superpočítače.

Pri aktuálnej revízii zoznamu Top500, ktorá sa aktualizuje dvakrát ročne, je horná časť mapy stále pevne v rukách počítača Sunway TaihuLight z čínskeho Národného superpočítačového centra vo Wuxi a počítača Tianhe-2 z čínskeho Národného superpočítača Centrum v Guangzhou, ako to bolo od júna júnovej výstavy ISC16. Pokiaľ ide o celkový výkon, žiadne iné počítače nie sú blízko. Systémy tretej a štvrtej kategórie - stále superpočítač Titan v Oak Ridge a systém Sequoia v Lawrence Livermore - poskytujú približne polovicu výkonu Tianhe-2.

Prvý z nich je založený na jedinečnom čínskom procesore, 1, 45 GHz SW26010, ktorý používa 64-bitové jadro RISC. To má bezkonkurenčné 10 649 600 jadier, ktoré poskytujú 125, 4 petaflop teoretickej špičkovej priepustnosti a 93 petaflop maximálneho nameraného výkonu v teste Linpack s využitím 15, 4 megawattov energie. Je potrebné poznamenať, že zatiaľ čo tento stroj dosahuje špičkové výkony v rebríčku výkonu Linpacku s obrovským odstupom, pri iných testoch sa mu nedarí. Existujú aj ďalšie referenčné hodnoty, ako napríklad vysokovýkonné konjugované gradienty (HPCG), kde stroje majú tendenciu vidieť iba 1 až 10 percent svojho teoretického špičkového výkonu a kde špičkový systém - v tomto prípade stroj Riken K - stále dodáva menej ako 1 petaflop.

Testy Linpack sú však štandardom pre rozhovory o vysokovýkonných výpočtoch (HPC) ao tom, čo sa používa na vytvorenie zoznamu Top500. Pomocou testov Linpack bol stroj č. 2, Tianhe-2, v posledných niekoľkých rokoch na rebríčku 1 a používa urýchľovače Xeon E5 a staršie urýchľovače Xeon Phi (Knights Corner). To ponúka 54, 9 petaflop teoretického špičkového výkonu a referenčné hodnoty na 33, 8 petaflop v Linpack. Mnoho pozorovateľov verí, že zákaz vývozu novších verzií Xeon Phi (Knights Landing) viedol Číňanov k vytvoreniu vlastného superpočítačového procesora.

Knights Landing, formálne Xeon Phi 7250, hral veľkú úlohu v nových systémoch na zozname, počínajúc superpočítačom Cori v Lawrence Berkeley National Laboratory na piatom mieste, so špičkovým výkonom 27, 8 petaflop a meraným výkonom 14 petaflop, Toto je systém Cray XC40 využívajúci prepojenie Aries. Pamätajte, že rytierske pristátie môže fungovať ako hlavný procesor, pričom 68 jadier na procesor dodáva 3 špičkové teraflopy. (Intel uvádza ďalšiu verziu čipu so 72 jadrami pri 3, 46 teraflope špičkového teoretického výkonu s dvojnásobnou presnosťou vo svojom cenníku, ale žiadny z počítačov v zozname túto verziu nepoužíva, pravdepodobne preto, že je drahší a spotrebúva viac energie.)

Skôr Xeon Phis mohol fungovať iba ako urýchľovače v systémoch, ktoré boli kontrolované tradičnými procesormi Xeon. Na šiestom mieste bol systém Oakforest-PACS Japonského Spoločného centra pre pokročilý vysokovýkonný počítač, ktorý zaznamenal 24, 9 špičkových petaflop. Túto technológiu postavil Fujitsu pomocou prepojenia Knights Landing a Omni-Path od spoločnosti Intel. Knights Landing sa používa aj v systéme číslo 12 (počítač Marconi v talianskej CINECA, postavený spoločnosťou Lenovo a využívajúci Omni-Path) a systém 33 (Camphor 2 na japonskej kjótskej univerzite, postavený spoločnosťou Cray a využívajúci Baran). prepojiť).

Nvidia bola dobre zastúpená aj v novom zozname. Systém č. 8, Piz Daint vo Švajčiarskom národnom superpočítačovom centre, bol povýšený na Cray XC50 s Xeons a Nvidia Tesla P100 a teraz ponúka necelých 16 petaflop teoretického špičkového výkonu a 9, 8 petaflop linpackového výkonu - veľký upgrade zo 7, 8 petaflop špičkového výkonu a 6, 3 petaflop výkonu Linpack vo svojej skoršej iterácii založenej na Cray XC30 s urýchľovačmi Nvidia K20x.

Ďalším systémom založeným na P100 na zozname bol vlastný Nvidia DGX Saturn V, založený na vlastných systémoch DGX-1 a prepojení Infiniband, ktoré sa nachádzalo na 28. mieste zoznamu. Všimnite si, že spoločnosť Nvidia v súčasnosti predáva procesory aj zariadenie DGX-1, ktoré obsahuje softvér a osem prístrojov Tesla P100. Systém DGX Saturn V, ktorý spoločnosť Nvidia používa na interný výskum AI, má skóre takmer 4, 9 maxima petaflops a 3, 3 linpack petaflops. Nvidia však poukazuje na to, že využíva iba 350 kilowattov energie, vďaka čomu je oveľa energeticky efektívnejšia. Výsledkom je, že tento systém je na prvom mieste v zozname energeticky najúčinnejších systémov Green500. Spoločnosť Nvidia poukazuje na to, že je to podstatne menej energie ako systém Camphor 2 založený na Xeon Phi, ktorý má podobný výkon (takmer 5, 5 petaflops v špičke a petaflopy 3, 1 Linpack).

Je to zaujímavé porovnanie, keď spoločnosť Nvidia ponúka lepšiu energetickú účinnosť na GPU a spoločnosť Intel ponúka známejší programovací model. Určite uvidíme v nasledujúcich rokoch väčšiu konkurenciu, pretože rôzne architektúry súťažia o to, ktorá z nich bude prvou, ktorá dosiahne „exascale computing“ alebo či sa tam namiesto toho dostane čínsky domáci prístup. V súčasnosti projekt amerického ministerstva energetiky Exascale Computing Project očakáva, že prvé stroje exascale budú nainštalované v roku 2022 a budú uvedené do prevádzky nasledujúci rok.

Považujem za zaujímavé poznamenať, že napriek dôrazu na mnohojadrové urýchľovače, ako sú riešenia Nvidia Tesla a Intel Xeon Phi, takéto urýchľovače používa iba 96 systémov (vrátane tých, ktoré používajú iba Xeon Phi); na rozdiel od 104 systémov pred rokom. Spoločnosť Intel je naďalej najväčším poskytovateľom čipov so svojimi čipmi v 462 z 500 najvýznamnejších systémov, po ktorých nasledovali procesory IBM Power v 22. Spoločnosť Hewlett-Packard Enterprise vytvorila 140 systémov (vrátane systémov postavených spoločnosťou Silicon Graphics, ktoré spoločnosť HPE získala), spoločnosť Lenovo vybudovala 92, a Cray 56.

Súťaž o strojové učenie

Na výstave alebo okolo nej bolo množstvo oznámení, z ktorých väčšina sa zaoberala nejakou formou umelej inteligencie alebo strojového učenia. Spoločnosť Nvidia oznámila partnerstvo so spoločnosťou IBM na novom softvérovom nástroji pre hlboké vzdelávanie s názvom IBM PowerAI, ktorý prevádzkuje servery IBM Power pomocou prepojenia Nvidia NVLink.

AMD, ktorá bola premysleným prostredím v prostredí HPC aj strojovom vzdelávaní, sa snaží túto zmenu zmeniť. V tejto oblasti sa spoločnosť zamerala na svoje vlastné GPU Radeon, presadila svoje GPU servera FirePro S9300 x2 a oznámila partnerstvo s platformou Google Cloud Platform, aby ju bolo možné používať v cloude. AMD však neinvestovala toľko do softvéru na programovanie GPU, pretože zdôrazňuje OpenCL pred proprietárnym prístupom spoločnosti Nvidia. Na výstave AMD predstavila novú verziu svojej Radeon Open Compute Platform (ROCm) a ponúkla plány na podporu svojich GPU v heterogénnych výpočtových scenároch s viacerými procesormi, vrátane svojich pripravovaných procesorov „Zen“ x86, architektúr ARM počínajúc ThunderX od Cavium a CPU IBM Power 8.

Na výstave spoločnosť Intel hovorila o novej verzii svojho súčasného čipu Xeon E5v4 (Broadwell) vyladeného na pracovné zaťaženie s pohyblivou rádovou čiarkou a o tom, ako sa má budúci rok objaviť nová verzia založená na platforme Skylake. Ale neskôr v tom istom týždni spoločnosť Intel vydala sériu oznámení určených na umiestnenie čipov do priestoru umelej inteligencie alebo strojového učenia. (Tu je príklad programu ExtremeTech.) Väčšina z toho má implikácie pre vysoko výkonné výpočty, ale väčšinou je samostatná. Na začiatok, okrem štandardných procesorov Xeon, spoločnosť tiež propaguje FPGA na vykonávanie väčšiny konferencií v neurónových sieťach. To je jeden veľký dôvod, prečo spoločnosť nedávno kúpila spoločnosť Altera, a takéto FPGA teraz používajú spoločnosti ako Microsoft.

Zameranie sa na AI sa však minulý týždeň zaoberalo novšími čipmi. Po prvé, existuje spoločnosť Xeon Phi, kde spoločnosť Intel uviedla, že súčasná verzia rytierskych pristátí bude na budúci rok doplnená o novú verziu nazvanú Knights Mill, ktorá je zameraná na trh „hlbokého vzdelávania“. Ohlásené na IDF, je to ďalšia 14nm verzia, ale s podporou polopřesných výpočtov, ktoré sa často používajú pri tréningu neurónových sietí. Skutočne, jednou z veľkých výhod súčasných čipov Nvidia v hlbokom učení je ich podpora pre výpočty s presnosťou na polovicu a 8-bitové celočíselné operácie, ktoré Nvidia často označuje ako „tera-ops“. Spoločnosť Intel uviedla, že rytiersky mlyn dodá až štvornásobok výkonu rytierskych pristátí pre hlboké učenie. (Na tento čip sa stále čaká neskoršia verzia 10nm s názvom Knights Hill, pravdepodobne zameraná viac na tradičný vysokovýkonný počítačový trh.)

Najzaujímavejšie pre budúci rok je návrh spoločnosti Nervana, ktorý spoločnosť Intel nedávno získala, ktorá využíva celý rad spracovateľských klastrov navrhnutých na vykonávanie jednoduchých matematických operácií spojených s pamäťou s veľkou šírkou pásma (HBM). Prvým v tejto rodine bude Lake Crest, ktorý bol navrhnutý predtým, ako spoločnosť Intel kúpila spoločnosť a bola vyrobená na 28nm TSMC procese. Vďaka testovacím verziám v prvej polovici budúceho roka spoločnosť Intel tvrdí, že prinesie viac výpočtového výkonu ako GPU. Potom bude nasledovať rytiersky hrebeň, ktorý nejako implementuje technológiu Nervany popri Xeone, zatiaľ čo podrobnosti nie sú ohlásené.

„Očakávame, že technológie spoločnosti Nervana dosiahnu v nasledujúcich troch rokoch prielom 100-násobný nárast výkonu, aby mohli trénovať zložité neurónové siete, čo umožní vedcom údajov rýchlejšie riešiť ich najväčšie výzvy v oblasti AI, “ napísal generálny riaditeľ spoločnosti Intel Brian Krzanich.

Spoločnosť Intel tiež nedávno oznámila plány na získanie Movidius, vďaka čomu sú čipy na báze DSP zvlášť vhodné na inferencie počítačového videnia - opäť sa rozhodujú na základe predtým trénovaných modelov.

Je to komplikovaný a vyvíjajúci sa príbeh - určite nie taký priamy, ako Nvidia presadzuje svoje GPU všade. Objasňuje však len to, ako rýchlo sa začína strojové učenie a mnoho rôznych spôsobov, ako spoločnosti plánujú tento problém vyriešiť, od GPU, ako sú Nvidia a AMD, až po mnoho základných procesorov x86, ako napríklad Xeon Phi, až po FPGA., do špecializovaných produktov určených na školenie, ako sú Nervana a IBM TrueNorth, do vlastných inferenčných motorov podobných DSP, ako sú jednotky na spracovanie Tensor od spoločnosti Google. Bude veľmi zaujímavé zistiť, či trh má priestor pre všetky tieto prístupy.