Obsah:
Video: Diskusia na tému PENIAZE- Podnikanie mladých (November 2024)
Dáta a obchodné spravodajstvo (BI) sú dve strany tej istej mince. Pokrok v oblasti ukladania, spracovania a analýzy priniesol demokratizáciu údajov do bodu, keď nemusíte byť databázový profesionál alebo vedec údajov, aby ste mohli pracovať s rozsiahlymi súbormi údajov a získavať informácie. Stále existuje krivka učenia, ale samoobslužné nástroje na vizualizáciu BI a vizualizáciu údajov predefinujú spôsob, akým podniky využívajú všetky údaje, ktoré zhromažďujú, na analytickú činnosť. Existuje však rozdiel medzi BI alebo databázovou spoločnosťou, ktorá využíva pokročilú analytiku, a databázou umelej inteligencie (AI), ktorá je vytvorená na účel strojového učenia (ML) a modelov hlbokého učenia.
Algoritmy ML sa tkajú do štruktúry dnešného softvéru. Spotrebiteľské skúsenosti sa spájajú s AI prostredníctvom virtuálnych asistentov av obchodnom softvéri existujú príklady, ako napríklad Salesforce Einstein, ktoré pôsobia ako inteligentná vrstva pod celým portfóliom riadenia vzťahov so zákazníkmi (CRM) spoločnosti. Technologickí giganti, vrátane spoločností Google a Microsoft, posúvajú našu inteligentnú budúcnosť ešte ďalej, a to nielen výskumom, ale aj prepisovaním toho, ako ich technológia funguje od základu s AI.
Jednou z výziev strojových zariadení a modelov hlbokého učenia je samotný objem údajov a výpočtový výkon, ktorý potrebujete na trénovanie neurónovej siete, napríklad na komplexné rozpoznávanie vzorov v oblastiach, ako je klasifikácia obrázkov alebo spracovanie prirodzeného jazyka (NLP). Databázy AI sa preto začínajú objavovať na trhu ako spôsob optimalizácie procesu vzdelávania a odbornej prípravy AI pre podniky. Hovorili sme s poskytovateľom relačných databáz s akceleráciou GPU, ktorý vybudoval vlastnú databázu AI, a rezidentom BI a databázovým expertom spoločnosti PCMag Pam Bakerom, aby sme demystifikovali, čo je databáza AI a ako funguje v porovnaní s tradičnými databázami. Ešte dôležitejšie je, že sme požiadali o ich pomoc pri roztriedení humbukom a marketingom, aby sme určili, či má táto vznikajúca technológia skutočnú obchodnú hodnotu.
Čo sú databázy AI?
Rýchlo sa meniaca povaha priestoru AI môže sťažiť stanovenie terminológie. Často počujete výrazy ako ML, hlboké vzdelávanie a AI používané zameniteľne, keď v skutočnosti stále vyvíjajú techniky pod väčším zastrešením AI. Ako taký, Baker povedal, že existujú dve úplne odlišné definície toho, čo je databáza AI závislé od toho, s kým hovoríte: jedna praktická a druhá viac „na ceste“.
„V priemysle existuje určitý voľný konsenzus, že databáza AI by bola taká, ktorá by fungovala úplne mimo dopytov v prirodzenom jazyku. Používateľské rozhranie by bolo také, že by ste sa nemuseli spoliehať na hľadané výrazy a kľúčové frázy, aby ste našli informácie, ktoré potrebujete, čo používateľovi umožňuje vyvolať súbory údajov pomocou NLP, “uviedol Baker. „Mohli by ste uviesť veľmi obmedzený argument, že IBM Watson môže do systému zadávať dotazy v prirodzenom jazyku, musíte sa však pripojiť k údajom a vybrať si údaje sami. Práve teraz je táto definícia úsek.“
Praktickejšia definícia a predmet tohto vysvetlenia v podstate využívajú účelovo vytvorenú databázu na urýchlenie výcviku v ML modeli. Mnoho technologických spoločností už vyvíja špecializované AI čipy na zmiernenie veľkého zaťaženia pri spracovaní nových hardvérových produktov, pretože predajcovia zavádzajú viac funkcií založených na AI, ktoré si vyžadujú značný výpočtový výkon. Na strane údajov vám použitie databázy AI môže pomôcť lepšie zvládnuť problémy s riadením a správou objemu, rýchlosti a zložitých údajov spojené so školením ML a hlbokými vzdelávacími modelmi, aby ste ušetrili čas a optimalizovali zdroje.
Obrazový kredit: Todd Jaquith na Futurism.com. Kliknutím rozbalte celý infographic
„Práve teraz sa vynakladá veľké úsilie na urýchlenie školenia ML pomocou niekoľkých rôznych taktík, “ vysvetlil Baker. „Jedným je oddelenie infraštruktúry od výskumných pracovníkov AI, ktorí kódovanie robia, takže automatizované funkcie manipulujú s infraštruktúrou a trénujú model ML. Takže namiesto strávenia niečoho ako tri mesiace sa môžete pozerať na 30 dní alebo 30 minút."
Kinetica túto myšlienku rozdeľuje na integrovanú databázovú platformu optimalizovanú na modelovanie ML a hlboké učenie. Databáza AI kombinuje ukladanie údajov, pokročilú analytiku a vizualizácie do databázy v pamäti. Mate Radalj, viceprezident a hlavný softvérový inžinier skupiny Kinetica Advanced Technology Group, vysvetlil, že databáza AI by mala byť schopná simultánne prijímať, skúmať, analyzovať a vizualizovať rýchlo sa pohybujúce komplexné údaje v priebehu milisekúnd. Cieľom je znížiť náklady, generovať nové príjmy a integrovať modely ML, aby podniky mohli robiť efektívnejšie rozhodnutia založené na údajoch.
„Databáza AI je podmnožinou všeobecnej databázy, “ uviedol Radalj. „Práve teraz sú databázy AI veľmi populárne. Ale veľa riešení používa distribuované komponenty. Spark, MapReduce a HDFS sa vždy otáčajú tam a späť a nie do pamäte. Nemajú sútok faktorov ako naša databáza, ktorá bol postavený od základov pomocou pevne integrovaných CPU a GPU na jedinej platforme. Veľkou výhodou pre nás je rýchlejšie poskytovanie a nižšia hardvérová stopa modelovaného školenia, s rýchlym obratom a analýzou integrovanou do tej istej platformy."
Ako funguje databáza AI
V praxi existuje niekoľko príkladov AI databáz. Program Microsoft Batch AI ponúka infraštruktúru založenú na technológiách cloud pre výcvik hĺbkového vzdelávania a modelov ML bežiacich na GPU Microsoft Azure. Spoločnosť má tiež svoj produkt Azure Data Lake, ktorý podnikom a vedcom údajov uľahčuje spracovanie a analýzu údajov v distribuovanej architektúre.
Ďalším príkladom je prístup AutoML spoločnosti Google, ktorý v zásade prepracováva spôsob, akým sa trénujú modely ML. Google AutoML automatizuje návrh modelu ML tak, aby generoval nové architektúry neurónovej siete na základe konkrétnych súborov údajov, a potom otestuje a opakuje tieto tisícky krát, aby kódoval lepšie systémy. V skutočnosti môže AI spoločnosti Google teraz vytvárať lepšie modely ako ľudskí vedci.
„Pozrite sa na Google AutoML: ML píšete ML kód, takže nepotrebujete ani ľudí, “ povedal Baker. „Toto vám dáva predstavu o tom, aký extrémny rozdiel existuje v tom, čo dodávatelia robia. Niektorí sa snažia odovzdať pokročilú analytiku ako ML - a nie je to tak. A iní robia ML na takej pokročilej úrovni, ktorá presahuje to, čo najviac podniky v súčasnosti dokážu porozumieť. ““
Potom je tu Kinetica. Uvedenie na trh v San Franciscu, ktoré získalo financovanie rizikovým kapitálom vo výške 63 miliónov dolárov, poskytuje vysoko výkonnú databázu SQL optimalizovanú na rýchle prijímanie údajov a analýzu. Kinetica je to, čo Radalj opísal ako distribuovanú databázu a výpočtovú platformu s masívnym paralelným spracovaním (MPP), v ktorej každý uzol obsahuje spoločne uložené údaje v pamäti, CPU a GPU.
Čo odlišuje databázu AI od tradičnej databázy, vysvetlil Radalj, má tri základné prvky:
- Zrýchlené prijímanie údajov,
- Spoločná lokalita údajov v pamäti (paralelné spracovanie naprieč databázovými uzlami) a
- Spoločná platforma pre vedcov údajov, softvérových inžinierov a správcov databáz pre rýchlejšiu iteráciu a testovanie modelov a použitie výsledkov priamo na analýzu.
Všetci odborníci, ktorí sa nenachádzajú v databázach a odborníci na modelovanie AI, si prečítali toto, Radalj rozložil každý z týchto troch základných prvkov a vysvetlil, ako sa databáza AI viaže na hmatateľnú obchodnú hodnotu. Kľúčom je dostupnosť údajov a príjem údajov, pretože schopnosť spracúvať streamingové údaje v reálnom čase umožňuje firmám rýchlo konať v súvislosti so štatistikami AI.
„Máme maloobchodného zákazníka, ktorý chcel sledovať predajné ceny podľa obchodu, každých päť minút, “ povedal Radalj. „Chceli sme pomocou AI predpovedať, na základe posledných niekoľkých hodín historických údajov, či by mali doplniť zásoby a optimalizovať tento proces. Aby to však strojovo poháňané doplňovanie zásob vyžadovalo podporu 600 - 1200 dopytov za sekundu. Ide o databázu SQL a databázu AI, aby sme mohli údaje prijímať takou rýchlosťou. Stretnutie s touto obchodnou misiou viedlo k aplikácii, ktorá viedla k väčšej návratnosti investícií. “
Baker súhlasil s tým, že ML vyžaduje veľké množstvo údajov, takže rýchle prehltnutie by bolo veľmi dôležité pre databázu AI. Druhý faktor, koncept „spoločného umiestnenia údajov v pamäti“, si vyžaduje trochu viac vysvetlenia. Databáza v pamäti ukladá údaje skôr do hlavnej pamäte ako do samostatného diskového úložiska. Robí tak rýchlejšie spracovanie otázok, najmä v analytických databázach a databázach BI. Spoločnou polohou Radalj vysvetlil, že spoločnosť Kinetica neoddeľuje výpočtové uzly CPU a GPU od uzlov úložných zariadení.
Výsledkom je, že databáza AI podporuje paralelné spracovanie - ktoré napodobňuje schopnosť ľudského mozgu spracovať viac podnetov - a zároveň zostáva distribuované cez škálovateľnú databázovú infraštruktúru. Tým sa zabráni väčšej hardvérovej stope, ktorá je výsledkom toho, čo Radalj nazýval „zasielanie údajov“ alebo potreby zasielania údajov medzi rôznymi komponentmi databázy.
„Niektoré riešenia používajú organizátora, ako je IBM Symphony, na naplánovanie práce na rôznych komponentoch, zatiaľ čo spoločnosť Kinetica zdôrazňuje prenos funkcií proti spoločným zdrojom s pokročilou optimalizáciou na minimalizovanie prenosu údajov, “ uviedol Radalj. „Táto spoločná lokalita poskytuje vynikajúci výkon a priepustnosť, a to najmä pri vysoko súbežných ťažkých dotazoch na veľké súbory údajov.“
Pokiaľ ide o skutočný databázový hardvér, spoločnosť Kinetica je partnerom spoločnosti Nvidia, ktorá má rozširujúcu sa zostavu AI GPU a skúma príležitosti so spoločnosťou Intel. Radalj tiež uviedol, že spoločnosť dohliada na vznikajúci hardvér AI a infraštruktúru založenú na cloudoch, ako sú jednotky Tensor Processing Units (TPU) spoločnosti Google.
Na záver je tu myšlienka zjednoteného procesu prípravy modelu. Databáza AI je účinná iba vtedy, ak tie výhody rýchlejšieho príjmu a spracovania slúžia väčším cieľom zameraným na podnikanie pre ML spoločnosti a úsilie o hlboké vzdelávanie. Radalj sa odvoláva na databázu AI spoločnosti Kinetica ako na „platformu modelových potrubí“, ktorá slúži na hostovanie modelov založených na vedeckých poznatkoch.
To všetko umožňuje rýchlejšie testovanie a iteráciu na vývoj presnejších modelov ML. V tejto súvislosti Baker uviedol, že jednotná spolupráca môže pomôcť všetkým inžinierom a výskumným pracovníkom, ktorí pracujú na vyškolení ML alebo modelu hlbokého učenia, iterovať rýchlejšie kombináciou toho, čo funguje, na rozdiel od neustáleho objavovania všetkých krokov v procese odbornej prípravy. Radalj uviedol, že cieľom je vytvoriť pracovný tok, v ktorom rýchlejšie prijímanie dávok, streamovanie a dopytovanie generujú výsledky modelu, ktoré je možné okamžite uplatniť na BI.
„Vedci údajov, softvéroví inžinieri a správcovia databáz majú jedinú platformu, kde je možné čisto vymedziť prácu na samotnej vede údajov, písaní softvérových programov a údajových modeloch a dotazoch SQL, “ uviedol Radalj. „Ľudia pracujú čistejšie spolu v týchto rôznych oblastiach, keď je to spoločná platforma. Cieľom častejšie ako nie s prevádzkovaním ML a hlbokého učenia je, že chcete použiť výsledky toho - koefektívne a premenné - v spojení s analytikou. a použiť výstup na veci ako bodovanie alebo na predpovedanie niečoho užitočného. “
Hype alebo realita?
Hodnota spodného riadku databázy AI, prinajmenšom tak, ako ju definuje Kinetica, je v optimalizácii výpočtových a databázových zdrojov. To vám následne umožní vytvárať lepšie modely ML a hĺbkového učenia sa, trénovať ich rýchlejšie a efektívnejšie a udržiavať priechodnosť toho, ako sa táto AI použije na vaše podnikanie.
Radalj uviedol príklad spoločnosti zaoberajúcej sa správou vozového parku alebo prepravnou spoločnosťou. V tomto prípade by databáza AI mohla spracovať obrovské toky informácií v reálnom čase z flotily vozidiel. Potom pomocou modelovania týchto geoprostorových údajov a ich kombináciou s analytikou by databáza mohla dynamicky presmerovať nákladné vozidlá a optimalizovať trasy.
„Je ľahšie rýchlo zabezpečiť, prototypovať a testovať. Slovo„ modelovanie “sa v AI vyhodí, ale je to všetko o cyklovaní rôznymi prístupmi - čím viac údajov, tým lepšie - znova a znova ich spustite, testujete, porovnávate a prichádza s najlepšími modelmi, “povedal Radalj. „Neurónové siete dostali život, pretože existuje viac údajov ako kedykoľvek predtým. A my sa učíme, že ich dokážeme vypočítať.“
Spoločne umiestnená databáza a platforma produktovodov spoločnosti Kinetica sú v konečnom dôsledku iba jedným prístupom v priestore, ktorý môže znamenať veľa rôznych vecí v závislosti od toho, koho sa pýtate. Baker uviedol, že výzvou pre kupujúceho na trhu, ktorý sa stále vyvíja a experimentuje, je zistiť, čo presne zodpovedá predajcovi databázy AI.
„Ako obchodný koncept je hlboké vzdelávanie, ML a všetko, čo je solídny koncept. Vyvíjame technické problémy, ktoré sú riešiteľné, aj keď ich ešte nevyriešime, “ povedal Baker. „To neznamená, že ide o zrelý priestor, pretože to určite nie je. Povedal by som, že kupujúci si dávajú pozor, pretože niečo, čo ML môže alebo nemusí byť, môže ísť iba o pokročilú analytiku záhradných odrôd.“
Pokiaľ ide o to, či sú databázy AI práve teraz humbuk, alebo či predstavujú dôležitý trend v oblasti podnikania, Baker povedal, že je to trochu oboje. Povedala, že Big Data, ako marketingový termín, je teraz mimo priazne. Baker uviedol, že medzi pokročilými analytickými údajmi založenými na údajoch a skutočnými algoritmami ML a algoritmami hlbokého učenia sa teraz spája trh. Bez ohľadu na to, či už hovoríte o databáze pre modelovanie ML alebo o sebapoznateľných AI vysnívaných pop kultúrou, všetko to začína a končí údajmi.
„Dáta sa budú v podnikaní využívať až do konca; je to práve to ústredné pre podnikanie, “ povedal Baker. „Keď hovoríte o sci-fi, AI je sebarealizovaná inteligencia. To je, keď začnete hovoriť o singularitách a robotoch, ktoré ovládajú svet. Či sa to stane alebo nie, neviem. Odídem to Stephenu Hawkingovi. ““