Video: Tensor Processing Units: History and Hardware (November 2024)
V posledných niekoľkých týždňoch bolo zavedených množstvo dôležitých nových počítačových platforiem navrhnutých špeciálne pre prácu na hlbokých neurónových sieťach pre strojové učenie, vrátane nových „cloudových TPU“ spoločnosti Google a nového dizajnu Volta od spoločnosti Nvidia.
Toto je pre mňa najzaujímavejší trend v počítačovej architektúre - ešte viac ako AMD a teraz spoločnosť Intel predstavuje 16-jadrové a 18-jadrové CPU. Existujú samozrejme aj iné alternatívne prístupy, ale spoločnosti Nvidia a Google si zaslúžia veľkú pozornosť pre svoje jedinečné prístupy.
V aplikácii Google I / O som videl, čo predstavuje „cloud TPU“ (pre jednotku spracovania tenzora, čo naznačuje, že je optimalizovaný pre strojové učenie spoločnosti TensorFlow od spoločnosti Google). Predchádzajúca generácia TPU, predstavená na minuloročnej výstave, je ASIC určený predovšetkým na inferenciu - prevádzkovanie strojového učenia - ale nová verzia je navrhnutá na inferencovanie a školenie takýchto algoritmov.
V nedávnom článku spoločnosť Google poskytla viac podrobností o pôvodnom TPU, ktorý opísal ako maticu 256-násobných-256-násobných akumulovaných (MAC) jednotiek (celkom 65 536) so špičkovým výkonom 92 teraopov (bilión operácií za sekundu). Pokyny získava z hostiteľského CPU cez zbernicu PCIe Gen 3. Google uviedol, že išlo o 28nm zápustku, ktorá bola menšia ako polovica veľkosti procesora Intel Haswell Xeon 22nm a že prekonala tento procesor a 28nm procesor K80 od spoločnosti Nvidia.
Nová verzia, nazývaná TPU 2.0 alebo cloudová TPU (pozri vyššie), v skutočnosti obsahuje štyri procesory a spoločnosť Google uviedla, že každá doska je schopná dosiahnuť 180 teraflopov (180 biliónov operácií s pohyblivou rádovou čiarkou za sekundu). Rovnako dôležité je, že dosky sú navrhnuté tak, aby spolupracovali pomocou vlastnej vysokorýchlostnej siete, takže fungujú ako jediný stroj, ktorý sa učia superpočítačom, ktorý spoločnosť Google nazýva „TPU pod.“.
Tento modul TPU obsahuje 64 TPU druhej generácie a poskytuje až 11, 5 petaflopov na urýchlenie výcviku jedného veľkého modelu strojového učenia. Na konferencii Fei Fei Li, ktorý vedie výskum AI spoločnosti Google, uviedol, že zatiaľ čo jeden z rozsiahlych vzdelávacích modelov spoločnosti v oblasti prekladu trvá celý deň, kým sa vyškolí 32 z najlepších komerčne dostupných GPU, teraz to môže byť školenie pre rovnaká presnosť v popoludňajších hodinách pomocou jednej ôsmej jednotky modulu TPU. To je veľký skok.
Pochopte, že nejde o malé systémy. Pod vyzerá asi ako štyri normálne počítačové stojany.
A zdá sa, že každý z jednotlivých procesorov má veľmi veľké chladiče, čo znamená, že dosky nemôžu byť naskladané príliš pevne. Google zatiaľ neuviedol veľa podrobností o tom, čo sa zmenilo v tejto verzii procesorov alebo prepojení, ale je pravdepodobné, že aj toto je založené na 8-bitových MAC.
Týždeň predtým spoločnosť Nvidia predstavila svoj najnovší záznam v tejto kategórii, masívny čip známy ako Telsa V100 Volta, ktorý označil ako prvý procesor s touto novou architektúrou Volta a ktorý bol navrhnutý pre špičkové GPU.
Spoločnosť Nvidia uviedla, že nový čip je schopný 120 terénnych snímačov TensorFlow (alebo 15 32-bitových TFLOPS alebo 7, 5 64-bitových). Využíva novú architektúru, ktorá obsahuje 80 streamingových multiprocesorov (SM), z ktorých každý obsahuje osem nových "tenzorových jadier". a je to pole 4x4x4 schopné vykonávať 64 operácií FMA (tavené viacnásobné pridávanie) za hodinu. Spoločnosť Nvidia uviedla, že bude ponúkať čip na svojich pracovných staniciach DGX-1V s 8 doskami V100 v treťom štvrťroku, pričom nasledovala predchádzajúca firma DGX-1, ktorá používala staršiu architektúru P100.
Spoločnosť uviedla, že táto škatuľka vo výške 149 000 dolárov by mala priniesť 960 teraflopov tréningového výkonu pri použití 3 200 wattov. Neskôr, ako už bolo povedané prvé, bude dodávaná Osobná stanica DGX so štyrmi V100 a vo štvrtom štvrťroku sa uvádza, že veľkí predajcovia serverov budú odosielať servery V100.
Tento čip je prvým oznámeným, že používa 12nm procesor TSMC a bude to obrovský čip s 21, 1 miliardami tranzistorov na 815 štvorcových milimetroch. Nvidia citovala Microsoft aj Amazon ako prvých zákazníkov pre tento čip.
Všimnite si, že medzi týmito prístupmi sú veľké rozdiely. Google TPU sú skutočne vlastné čipy určené pre aplikácie TensorFlow, zatiaľ čo Nvidia V100 je trochu všeobecnejší čip, ktorý je schopný používať rôzne druhy matematiky pre iné aplikácie.
Medzitým sa ostatní poskytovatelia veľkých cloudových riešení zaoberajú alternatívami. Spoločnosť Microsoft využíva GPU na školenie aj na poli programovateľné hradlové polia (FPGA) na inferenciu a ponúka tak zákazníkom. Amazon Web Services teraz vývojárom sprístupňujú inštancie GPU aj FPGA. A spoločnosť Intel presadzuje FPGA a množstvo ďalších techník. Medzitým mnoho nových začínajúcich podnikov pracuje na alternatívnych prístupoch.
V niektorých ohľadoch je to najdramatickejšia zmena, ktorú sme videli v procesoroch pracovných staníc a serverov za posledné roky, prinajmenšom odkedy vývojári prvýkrát začali používať „výpočet GPU“ pred niekoľkými rokmi. Bude fascinujúce sledovať, ako sa to bude vyvíjať.