Video: Лучшие в своём деле: Артур Хачуян | Большие данные — Big Data | ЛСД #7 (November 2024)
Jedna vec, ktorá ma zaujala na včerajšom samite Bloomberg Enterprise Technology Summit, bolo zameranie sa na spracovanie údajov novými spôsobmi - inými slovami, riešenie toho, čo sa často nazýva „veľké údaje“.
Niektoré rozhovory sa zaoberali hodnotou veľkých údajov a to, či sa skutočne jednalo o „biliónovú dolárovú príležitosť“, zatiaľ čo iné sa zaoberali konkrétnymi výzvami, ktorým jednotlivé organizácie a priemysel ako celok čelia pri rozsiahlejšom zavádzaní týchto nových techník.
Gerard Francis, globálny riaditeľ spoločnosti Bloomberg Enterprise Solutions, Bloomberg LP začal deň navrhovaním, že najdôležitejšou vecou, ktorú môžu spoločnosti urobiť, je „zarobiť na hodnote údajov ich využívaním“ a zamerať sa na prístup, kvalitu a tok údajov. údaje v rámci organizácie. V následných paneloch sa veľa hovorilo o nových nástrojoch, ktoré sa zaoberajú údajmi, ako aj o konkrétnych problémoch pri ukladaní, správe a hľadaní ľudí, ktorí s údajmi pracujú.
Na všeobecnom paneli podnikových trendov Dwight Merriman, predseda predstavenstva a spoluzakladateľ spoločnosti MongoDB, uviedol, že dátová vrstva aplikačnej stopy má „najväčšie narušenie a zmenu, aké sme za posledných 25 rokov zaznamenali“. Povedal, že spoločnosti používajú relačné databázy už 25 rokov a viac, čím sa stali najstaršou technológiou v zásobníku. Teraz však dochádza k veciam so súborovým úložiskom, ako je Hadoop a nové databázové technológie, často zoskupené ako „NoSQL“. Poukázal na to, že Big Data nie je o „veľkých“, ale skôr o tvare údajov, druhoch údajov a posunu k spracovaniu údajov v reálnom čase.
Generálny riaditeľ spoločnosti Google Benjamin Fried súhlasil, že väčšina podnikov nemá problémy s „veľkými údajmi“. Mnohé zo súborov údajov - napríklad s údajmi o ľudských zdrojoch a finančnými údajmi - nie sú také veľké, uviedol. Dôležitá je flexibilita, ktorú potrebujete na správne spracovanie údajov.
Čo je to vlastne Big Data?
Tento koncept - táto flexibilita je rovnako dôležitá ako veľkosť údajov - sa objavil na inom paneli neskôr v priebehu dňa. Tam sa účastníci dohodli, že spoločnosti sa zaoberajú aplikáciami náročnými na údaje už dlho, ale rozsah sa v poslednej dobe zmenil. Napríklad Mark F. Bregman, hlavný viceprezident a technický riaditeľ spoločnosti Neustar poznamenal, že niektoré spoločnosti teraz „všetko ukladajú“ v nádeji, že sa to ukáže ako cenné.
„Veľký je lepšie definovaný ako zložitosť, “ tvrdí Gary Bloom, CEO a prezident MarkLogic. Poznamenal, že veľa takzvaných „veľkých dátových“ aplikácií zahŕňa veľa rôznych druhov údajov, ale nie taký objem, aký bežne používate v „veľkých dátových“ aplikáciách.
Uviedol príklad leteckej dopravy, ktorý kombinuje údaje o počasí, letiskové údaje, geopriestorové údaje, údaje o letoch, údaje o rezerváciách leteckých spoločností a sociálne údaje. Poznamenal, že zaobchádzanie s heterogénnymi údajmi bolo skutočne ťažké robiť s tradičnými relačnými databázami, pričom zopakoval predchádzajúce pripomienky Merrimana z MongoDB, že to bol „prvý generačný posun v databáze za 25 rokov“, pretože sme sa presunuli z mainframe do éry relačných databáz.
Poznamenal, že veľa ľudí hovorí o údajoch zo sociálnych médií, ale je skutočne potrebné ich skombinovať s inými údajmi, aby bolo skutočne niečo, na čo môžete zarobiť. Kombinácia týchto údajov je „skutočná hodnota“.
Niektoré aplikácie samozrejme zahŕňajú veľa informácií, pričom podľa Bregmana je heterogenita iba jedným z faktorov. Citoval údaje DNS, ktoré dokážu ľahko generovať 8 TB informácií denne, a potrebu uchovávať takéto veci v Hadoope. Bregman a ostatní poznamenali, že pokiaľ ide o „kapitalizáciu údajov“, skutočná hodnota nie je v nespracovaných údajoch, ale namiesto toho je v analytike, keď sa stane niečím, čo môžete použiť. Ostatní členovia poroty súhlasili.
Generálny riaditeľ Streambase Mark Palmer uviedol, že v mnohých aplikáciách je dôležité kombinovať veľké množstvo údajov s analytikou streamovania; a hovorili o mimoriadnej hodnote, ktorá by sa mohla vytvoriť kombináciou tradičnej a real-time analýzy.
Súhlasil však s tým, že zložitosť údajov je problémom. Uviedol, ako Vivek Ranadivé, ktorý vedie Tibco (ktorý teraz vlastní Streambase), kúpil čiastočne basketbalový tím, aby zistil, ako technológia môže vylepšiť zážitok fanúšika. Opäť hovoril o „rozdmýchávaní rôznych typov údajov“, počnúc streamom Twitter, ale aj využívaním iných druhov údajov.
Bloom poznamenal, že všetko záleží na aplikácii a hovorí, že „latencia je v oku pozorovateľa“. Niektoré aplikácie musia analyzovať údaje na drôte skôr, ako sa dostanú do databázy, zatiaľ čo iné nie.
Bregman nastolil problém, že namiesto toho, aby bolo ťažké presúvať výpočtové zdroje, je teraz oveľa ťažšie presúvať dáta. Poznamenal, že v prípade mnohých aplikácií je „lock-in“ umiestnenie údajov. Akonáhle uložíte svoje údaje vo verejnom cloude, je veľmi ťažké ich presunúť. Výsledkom je, že mnoho organizácií chce ukladať obrovské množstvo údajov na svojich vlastných miestach a potom sa môžu presunúť k rôznym poskytovateľom, čo sa týka výpočtovej funkcie. Požičal si termín od spoločnosti MarkLogic's Bloom a hovoril o tom, ako by organizácie mohli potrebovať „dátové centrum zamerané na údaje“ ako miesto, kde uchovávate obrovské množstvo údajov.
Je Big Data „biliónovou príležitosťou?“
Porter Bibb z MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogic's Gaurav Dhillon a Jason Kelly od Bloomberg LinkĎalší panel diskutoval o príležitostiach a výzvach, ktoré prinášajú veľké údaje, pričom sa zamyslel nad komentárom Portera Biba, Managing Partnera v MediaTech Capital Partners. Bibb uviedol, že pre spoločnosti využívajúce nové techniky je v skutočnosti viac ako bilión dolárov výhod. K dnešnému dňu povedal: „Ani sme nezačali využívať potenciál, ktorý táto technológia ponúka.“
Bibb hovoril o tom, ako je dôležité, aby organizácie zosúladili svoju dátovú stratégiu s obchodnou stratégiou, a obával sa, že väčšina podnikových a vládnych systémov je nevyrovnaných.
Na tomto prvom stretnutí Scott Weiss z Andreessen Horowitz povedal, že „Hadoop je ako kryogénne úložisko, “ tak sa moderátor Jason Kelly z Bloomberg Link opýtal hlavného architekta spoločnosti Cloudera Doug Cuttinga, ktorý bol na prvom mieste jedným z tvorcov Hadoopu, ako videl že.
Podľa Cuttinga Hadoop umožňuje ľuďom pracovať s viacerými údajmi. Povedal, že organizácie sťahujú údaje z pásky, namiesto toho ich robia online a použiteľné. Zákazníci prechádzajú z práce s údajmi za 90 dní na päť alebo desať rokov v „aktívnom archíve“.
Na tomto paneli sa opäť objavilo množstvo konkrétnych problémov týkajúcich sa všetkých týchto údajov. Snaplogic CEO Gaurav Dhillon hovoril o „dátovej gravitácii“, povedal, že nemá zmysel brať dáta, ktoré sa nachádzajú v Hadoope, a presunúť ich do cloudu. Zároveň však platí, že ak sa v cloude nachádzajú údaje, ako napríklad analýza click-stream, nemá zmysel ich premiestňovať na mieste. Výsledkom bolo, že pri presúvaní údajov videl len veľmi málo „cezhraničných príležitostí“.
Cutting povedal, že neverí, že existuje skutočne nedostatok vedcov údajov. Namiesto toho povedal, že existuje veľa ľudí, ktorí rozumejú matematike a podnikaniu, ale jednoducho nemajú nástroje. Základné informácie o nástrojoch a o tom, čo robia, sa môžete naučiť za pár týždňov, povedal, ale porozumenie vašej firme trvá roky. Napriek tomu existuje veľa ľudí, ktorí tomu rozumejú.
Dhillon tiež odzrkadľoval obavy týkajúce sa právnych predpisov, ktoré sa zaoberajú tým, aké informácie možno uložiť. Povedal, že niektoré vertikálne trhy vyžadujú, aby sa informácie ukladali v priestoroch podniku, ale mal obavy z takých vecí, ako sú požiadavky na presun údajov z krajiny pôvodu. Veľa z toho je prehnaná reakcia na veci, ako sú odhalenia Snowdena a porušenie údajov, uviedol, „spech s legislatívou nie je nikdy dobrý“.
Na otázku, či sa obával, že porušenia Snowdendu a Targetu sa zákazníci obávali údajov, Cutting povedal, že sa obáva, že toľko ľudí sa obáva. Veľa ľudí sa bojí technológie, povedal, a bolo to zlyhanie odvetvia, aby sa zákazníci pohodlne predstava, že ich údaje neboli použité. „Nemusíš byť strašidelný, “ povedal.
Nakoniec sa veľa diskutovalo o oceneniach, pričom Bibb naznačil, že nedávna investícia spoločnosti Intel do služby Cloudera je „veľká vec“, pretože potvrdzuje, čo spoločnosť robí. Povedal, že ďalšie veľké spoločnosti ako Oracle, IBM, Microsoft a Amazon sa vznášajú okolo spoločností prediktívnej analýzy. „Zlatá horúčka sa práve začína.“
Dhillon uviedol, že ocenenia odrážajú to, čo inštalatérske spoločnosti prinášajú na trh veľkých dát. Povedal, že s radosťou vidí, že takí chlapci „vyberajú a odhadzujú“ dobré ocenenia, ale povedal, že má trochu strachu, že ocenenia sa dostávajú pred trh.
Bibb uviedol, že si myslí, že veľké údaje môžu byť v médiách preexponované, ale je to podexponované v „c-suite“ (čo znamená CEO, CFO a iní vrcholoví manažéri).."