Video: World's HOTTEST One Chip x6 - Challenge Part 3 (Severity Lvl: 1,000) (November 2024)
Najhorúcejšou témou v dnešnej práci na počítači je strojové učenie a to je určite viditeľné na strane hardvéru. V posledných týždňoch sme sa veľa dozvedeli o nových čipoch určených na hlboké vzdelávanie, od Tesla P100 od spoločnosti Nvidia a jednotky Drive PX 2 po jednotky na spracovanie tenzorov od spoločnosti Google až po Xeon Phi spoločnosti Intel. Nie je preto prekvapujúce, že na konferencii Hot Chips minulý týždeň sme počuli od viacerých spoločností s rôznymi prístupmi k dizajnu prispôsobenému strojovému vzdelávaniu a spracovaniu vízie.
Asi najväčšou správou bolo odhalenie podrobnejších informácií o čipe Parker spoločnosti Nvidia, ktoré sa používa v module Drive PX 2 pre vozidlá s vlastným riadením a zamerané na hlboké vzdelávanie autonómnych strojov. Tento čip používa dve vlastné procesorové jadrá Denver CPU kompatibilné s ARM, štyri jadrá ARM Cortex-A57 a 256 z toho, čo Nvidia nazýva Pascal CUDA (grafické) jadrá.
Spoločnosť Nvidia uviedla, že ide o prvý čip navrhnutý a ohodnotený na použitie v automobilovom priemysle so špeciálnymi funkciami odolnosti a hovoril o rýchlejšej rýchlosti a pamäti, pričom poznamenal, že jadro Denveru poskytuje významné zlepšenie výkonu na watt. Medzi nové funkcie patrí hardvérová virtualizácia s až 8 VMS, ktoré umožňujú integráciu funkcií automobilu, ktoré sa tradične vykonávajú na samostatných počítačoch. Celkovo spoločnosť uviedla, že model Drive PX 2 môže mať dva z týchto čipov Parker a dva samostatné GPU s celkovým výkonom 8 teraflop (dvojitá presnosť) alebo 24 operácií hlbokého učenia (8-bit alebo polovičná presnosť). spoločnosť zahrnula štandardy porovnávajúce ich priaznivo v porovnaní so súčasným mobilným spracovaním pomocou pomerne starého štandardu SpecInt_2000. Výkon však vyzerá pôsobivo a spoločnosť Volvo nedávno uviedla, že ho od budúceho roka použije na testovanie autonómnych vozidiel.
Samozrejme, existuje mnoho ďalších prístupov.
Čínsky startup DeePhi diskutoval o platforme neurónových sietí založenej na FPGA s dvoma rôznymi architektúrami v závislosti od druhu zapojenej siete. Aristoteles je navrhnutý pre relatívne malé konvolučné neurónové siete a je založený na Xilinx Zynq 7000, zatiaľ čo Descartes je navrhnutý pre väčšie rekurentné neurónové siete využívajúce dlhodobú krátkodobú pamäť (RNN-LSTM) založenú na FPGA Kintex Ultrascale FPGA. DeePhi tvrdí, že jeho kompilátor a architektúra skrátili čas vývoja v porovnaní s väčšinou použití FPGA a tiež, že použitie FPGA môže priniesť lepší výkon ako riešenia Tegra K1 a K40 od spoločnosti Nvidia.
Ďalším prístupom je použitie digitálneho signálového procesora alebo DSP, ktorý typicky vykonáva špecifickú funkciu alebo malú množinu funkcií veľmi rýchlo a využíva len veľmi málo energie. Často sú zabudované do iných, zložitejších čipov na urýchlenie určitých funkcií, ako je napríklad spracovanie vízie. Viaceré spoločnosti, vrátane spoločností Movidius, CEVA a Cadence, zdieľali svoje riešenia v spoločnosti Hot Chips.
Movidius predstavil svoje riešenie založené na DSP známe ako procesorová jednotka Myriad 2 vision, a nechal ho vystaviť v drone DJI Phantom 4. Ukázalo sa tiež, ako Myriad 2 prevyšuje GPU a hĺbkovú neurónovú sieť googleNet použitú v súťaži ImageNet v roku 2014.
CEVA propagovala svoj CEVA-XM4 Vision DSP, špeciálne naladený na spracovanie obrazu a zameraný na automobilový trh, spolu s platformou CEVA Deep Neural Network 2, ktorá by podľa všetkého mohla vziať čokoľvek napísané pre rámce Caffe alebo TensorFlow a optimalizovať ho na spustenie na jeho DSP. Nový procesor by mal byť v SoCs budúci rok.
Medzitým Cadence, ktorá robí z rodiny procesorov videnia Tensilica (ktoré môžu byť zabudované do iných produktov), diskutovala o svojej najnovšej verzii, Vision P6, ktorá pridala nové funkcie, ako je vektorová podpora s pohyblivou rádovou čiarkou a ďalšie funkcie pre konvolučné neurónové siete., Prvé výrobky by mali byť čoskoro k dispozícii.
Microsoft hovoril o detailoch hardvéru pre náhlavnú súpravu HoloLens s tým, že použil 14nm procesor Intel Atom Cherry Trail so systémom Windows 10 a vlastný senzorový holografický procesor (HPU 1.0), ktorý vyrába spoločnosť TSMC pri 28nm procese. Zahŕňa to 24 jadier DSP Tensilica.
Obzvlášť ma zaujal jeden zo snímok spoločnosti Cadence, ktorý ukázal rozdiely v priepustnosti a účinnosti GPU, FPGA a rôznych druhov DSP, pokiaľ ide o operácie s viacnásobným pridaním, čo je jeden z kľúčových stavebných prvkov neurónových sietí. Aj keď je evidentné samoobsluha (ako všetky prezentácie dodávateľov), poukázala na to, ako sa rôzne techniky líšia, pokiaľ ide o rýchlosť a efektívnosť (výkon na watt), nehovoriac o nákladoch a ľahkosti programovania. Existuje veľa riešení pre rôzne prístupy a bude zaujímavé sledovať, ako sa to v najbližších rokoch vytratí.