Domov obchodné Základné základy údajov: ako zostaviť plán správy údajov

Základné základy údajov: ako zostaviť plán správy údajov

Video: Изготовление цветочных горшков из высококачественных пластиковых бутылок (Septembra 2024)

Video: Изготовление цветочных горшков из высококачественных пластиковых бутылок (Septembra 2024)
Anonim

Písali sme veľa o úlohe údajov v moderných podnikoch. Od začínajúcich podnikov a malých a stredných podnikov až po veľké podniky sú štatistiky a analýzy údajov prístupnejšie pre podniky všetkých veľkostí ako kedykoľvek predtým. Je to čiastočne vďaka vzostupu samoobslužných obchodných informácií (BI) a nástrojov vizualizácie údajov.

Predtým, ako budete môcť použiť nástroje BI alebo spustiť prediktívnu analýzu na množine údajov, existuje množstvo faktorov, ktoré treba odohrať. Začína to jednoduchým pochopením toho, čo sú Big Data, čo to nie je (rada: nie kryštalická guľa) a ako spravovať ukladanie dát, organizáciu, povolenia a bezpečnosť v rámci vašej podnikovej dátovej architektúry. Tu prichádza správa údajov. Procesy, ktorými zabezpečujete správu v rámci podniku, sa líšia v závislosti od toho, s kým hovoríte. Vo svojom jadre sa však správa údajov týka dôveryhodnosti údajov a zodpovednosti, ktorá sa spája s osvedčenými postupmi komplexnej bezpečnosti údajov.

Hovoril som s Hortonworks a MapR, dvoma najväčšími predajcami Hadoop na trhu. Scott Gnau, hlavný technologický riaditeľ v Hortonworks, a Jack Norris, senior viceprezident pre dáta a aplikácie spoločnosti MapR, vysvetlili, čo pre ich organizácie znamená správa údajov. Diskutovali o tom, ako riešiť zložitú výzvu na zabezpečenie správy údajov v zložitých architektúrach údajov a organizačných hierarchiách veľkého podniku.

Čo presne je Správa údajov a prečo ich potrebujeme?

Správa znamená zabezpečiť, aby boli podnikové údaje autorizované, organizované a povolené v databáze s čo najmenším počtom chýb pri zachovaní súkromia a bezpečnosti. Nie je ľahké dosiahnuť rovnováhu, najmä keď realita, kde a ako sú uložené a spracovávané údaje, je neustále v pohybe. Norris MapR vysvetlil, prečo sa podniky musia pozerať na správu údajov z vyššej úrovne a sústrediť sa na väčší dátový tok pri hre.

„Keď začnete škálovať rozmanitosť a rýchlosť veľkých údajov, s ktorými sa zaoberáme, musíte mať správu údajov, ale je to v tomto širšom kontexte. Čo sú to údaje, ktoré máte, kto k nim má prístup a ako sa máte spravujete líniu týchto údajov v priebehu času? “ povedal Norris. „Z hľadiska správy údajov môžete mať rôzne fázy údajov, ktoré existujú v systéme, ktorý je možné snímať, takže sa môžete kedykoľvek vrátiť v potrubí. Je to o budovaní auditovateľnosti a kontrole prístupu do dátovej platformy, aby sa uistite sa, že vyhľadávanie a analytika údajov sú transparentné, či už ste obchodným manažérom pri pohľade na súbory finančných údajov alebo vedcom údajov pracujúcim s prvotnými údajmi. “

Zdroj: Rimes. Kliknite na obrázok pre úplné zobrazenie.

Hortonworks 'Gnau napísal podobný bod. Či už pracujete s dátovým skladom alebo architektúrou dátových jazier, správa údajov je o vyvážení protichodných síl. Ide o neobmedzený prístup k údajom, ktorý vedie k inováciám a odvodzovaniu poznatkov. Granulárne povolenia a ochrana osobných údajov súčasne chránia tieto údaje od konca do konca.

„Porovnajte a porovnajte starý svet tradičnej správy vecí verejných v dátovom priestore. Bolo to trochu jednoduchšie, “ povedal Gnau. „Dáta bývali dobre definované pracovnou úlohou alebo aplikáciou. V novom svete získate najvyššiu hodnotu, keď majú vedci údajov prístup k čo najväčšiemu množstvu údajov a zistenie, že šťastné médium je veľmi dôležité.

„Prináša to úplne nové paradigma v tom, ako potrebujete pristupovať k správe vecí verejných, “ dodal Gnau. „V tomto novom svete zvažujem témy správy a bezpečnosti, ktoré je potrebné pokryť spolu. Mnoho spoločností sa stále snaží prekonať tento problém, aby ich vedci údajov mohli účinne nájsť tieto nové prípady použitia a zároveň zároveň, porozumenie tomu, ako zaobchádzať s bezpečnosťou, súkromím a správou vecí - všetky veci, ktoré sú dôležité z pohľadu najnižšej úrovne a tiež z hľadiska reputácie spoločnosti. ““

Ako má plán správy podnikových údajov zahŕňať a uspokojiť všetkých tých, ktorí sú v opozícii? Metodickým riešením každej požiadavky jeden krok po druhom.

Ako zostaviť plán správy údajov

Hortonworks, MapR a Cloudera sú tromi najväčšími nezávislými hráčmi v priestore Hadoop. Pokiaľ ide o správu údajov, spoločnosti majú svoje vlastné sféry vplyvu. Spoločnosť MapR vydala množstvo bielych kníh o tejto téme a vytvorila správu údajov v rámci svojej platformy konvergovaných údajov, zatiaľ čo spoločnosť Hortonworks má svoje vlastné riešenie v oblasti bezpečnosti a riadenia údajov a v roku 2015 spoluzakladala iniciatívu správy údajov (DGI). To viedlo k otvoreným -source Apache Atlas projekt, ktorý poskytuje otvorený rámec správy dát pre Hadoop.

Pokiaľ však ide o to, ako každý predajca vytvára komplexné stratégie správy a zabezpečenia údajov, Gnau a Norris hovorili podobným spôsobom. Nasledujú kombinované kroky, ktoré spoločnosti Hortonworks a MapR odporúčajú podnikom pri zostavovaní plánu správy údajov.

The Big One: Granulárny prístup k údajom a autorizácia

Obe spoločnosti súhlasia s tým, že bez podrobných kontrol nemôžete mať účinnú správu údajov. MapR to dosahuje predovšetkým prostredníctvom výrazov ACE (Access Control Expressions). Ako Norris vysvetlil, ACE používajú zoskupovanie a logickú logiku na riadenie flexibilného prístupu k údajom a autorizácie s oprávneniami založenými na rolách a nastaveniami viditeľnosti.

Povedal, že o tom uvažuje ako o Gartnerovom modeli. Na osi Y na dolnom konci je prísne riadenie a nízka pohyblivosť a na osi X na hornom konci je vyššia pohyblivosť a menšie riadenie.

"Na nízkej úrovni chránite citlivé údaje tým, že ich zatemňujete. Na vrchole máte dôverné zmluvy pre vedcov údajov a analytikov BI, " uviedol Norris. „Máme sklon to robiť s maskovacími schopnosťami a rôznymi pohľadmi, v ktorých čo najviac zablokujete nespracované údaje na spodnej časti stránky, a postupne poskytujete väčší prístup, kým na hornom konci neposkytnete správcom širšiu viditeľnosť. prístup k správnym ľuďom?

„Ak sa dnes pozriete na zoznam prístupových práv, povie to niečo ako„ k tomu majú prístup všetci inžinieri, “dodal Norris. „Ale ak chcete, aby mali prístup viacerí vybraní riaditelia projektu v rámci IT alebo všetci okrem osoby, musíte vytvoriť špeciálnu skupinu. Je to príliš komplikovaný a spletitý spôsob, ako sa na prístup pozrieť.“

Podľa Norrisa prichádza udelenie prístupových práv na rôzne úrovne a skupiny. „Kombinovali sme ACE s rôznymi spôsobmi, ako môžete pristupovať k údajom - prostredníctvom súborov, tabuliek, tokov atď. - a implementovať pohľady bez samostatných kópií údajov. Poskytujeme teda pohľady na rovnaké nespracované údaje a na pohľady môže mať rôzne úrovne prístupu. Poskytuje vám tým viac integrovaného zabezpečenia, ktoré je priamejšie. “

Hortonworks spracováva granulárny prístup podobným spôsobom. Integráciou Apache Atlas pre správu a Apache Ranger spoločnosť Gnau uviedla, že spoločnosť spracúva autorizáciu na podnikovej úrovni prostredníctvom jediného skla. Kľúčom je podľa neho schopnosť kontextovo udeľovať prístup k databáze ak špecifickým značkám metadát pomocou politík založených na značkách.

„Akonáhle je niekto v databáze, je to o tom, ako ich viesť cez údaje, ku ktorým by mal mať relevantný prístup, “ povedal Gnau. „Bezpečnostné politiky spoločnosti Ranger na úrovni objektov to môžu zvládnuť jemne a všade medzi nimi. Zviazanie tejto bezpečnosti so správou vecí je skutočne zaujímavé.

„Aby bolo možné zväčšiť veľkosť veľkých organizácií, musíte tieto úlohy integrovať do riadenia a označovania metadát, “ dodal Gnau. „Ak sa prihlasujem zo Singapuru, možno existujú rôzne pravidlá založené na miestnych zákonoch o ochrane súkromia alebo firemnej stratégii. Keď spoločnosť definuje, nastavuje a chápe tieto pravidlá z holistického pohľadu zhora nadol, môžete prístup odrezať na základe špecifické pravidlá pri vykonávaní všetkého vnútri základnej platformy. ““

Zdroj: IBM Big Data & Analytics Hub. Kliknite na obrázok pre úplné zobrazenie.

2. Obvodová bezpečnosť, ochrana údajov a integrované overovanie

Správa sa nestane bez zabezpečenia koncových bodov. Gnau povedal, že je dôležité vybudovať dobrý obvod a firewall okolo údajov, ktoré sa integrujú do existujúcich autentifikačných systémov a štandardov. Norris súhlasil, že pokiaľ ide o autentifikáciu, je dôležité, aby sa podniky synchronizovali so vyskúšanými systémami.

„V rámci overovania ide o to, ako sa integrujete do služieb LDAP, Active Directory a adresárových služieb tretích strán, “ povedal Norris. „Podporujeme tiež používateľské meno a heslá Kerberos. Dôležitá vec nie je vytvoriť celú samostatnú infraštruktúru, ale integrovať sa do existujúcej štruktúry a využívať systémy, ako je Kerberos.“

3. Šifrovanie údajov a tokenizácia

Ďalší krok po zabezpečení obvodu a overení všetkých granulovaných údajov, ktoré udeľujete: Uistite sa, že súbory a informácie umožňujúce identifikáciu osôb (PII) sú šifrované a tokenizované od začiatku do konca prostredníctvom vášho dátového potrubia. Gnau diskutoval o tom, ako Hortonworks zabezpečuje údaje PII.

„Akonáhle sa dostanete cez obvod a máte prístup do systému, schopnosť chrániť dáta PII je nesmierne dôležitá, “ povedal Gnau. „Tieto údaje musíte šifrovať a tokenizovať, aby bez ohľadu na to, kto k nim má prístup, mohli spúšťať potrebné analýzy bez toho, aby odkryli akékoľvek z týchto údajov PII pozdĺž riadku.“

Pokiaľ ide o to, ako bezpečne pristupujete k šifrovaným údajom v pohybe aj v pokoji, Norris od spoločnosti MapR vysvetlil, že je dôležité pamätať aj na prípady použitia, ako je napríklad zálohovanie a obnova po katastrofe (DR). Diskutoval o koncepte nazvanom Logické zväzky, ktorý spoločnosť MapR nazýva, a ktorý môže aplikovať politiky riadenia na rastúci súbor súborov a adresárov.

„MapR na najnižšej úrovni navrhol replikáciu WAN pre DR a časovo konzistentné snímky zo všetkých údajov, ktoré je možné nastaviť na rôznych frekvenciách podľa adresárov alebo zväzkov, “ povedal Norris. „Je to širšie ako len správa údajov. Môžete mať fyzický klaster s adresármi, a potom je koncept logického zväzku skutočne zaujímavou riadiacou jednotkou a spôsobom, ako zoskupiť veci pri kontrole ochrany údajov a frekvencie. Je to ďalší šíp v údajoch správcu IT. vládca tulák. ““

4. Neustály audit a analýza

Hortonworks aj MapR pri pohľade na širší obraz správy vecí verejných uviedli, že stratégia nebude fungovať bez auditu. Táto úroveň viditeľnosti a zodpovednosti v každom kroku procesu je to, čo umožňuje IT v skutočnosti „riadiť“ údaje, na rozdiel od jednoduchého stanovovania politík a kontrol prístupu a dúfať v to najlepšie. Je to aj to, ako môžu podniky udržiavať svoje stratégie aktuálne v prostredí, v ktorom sa každý deň mení spôsob, akým vidíme údaje a technológie, ktoré používame na ich správu a analýzu.

„Poslednou súčasťou modernej stratégie riadenia je zaznamenávanie a sledovanie, “ uviedol Gnau. „Sme v plienkach veľkých dát a internetu vecí a je nevyhnutné, aby sme mohli sledovať prístup a rozpoznávať vzorce v údajoch, aby sa stratégia aktualizovala a my sme pred krivkou.“

Norris uviedol, že auditovanie a analýza môžu byť také jednoduché ako sledovanie súborov Java Object Notation (JSON). Nie všetky údaje sa oplatia sledovať a analyzovať, ale vaše podnikanie nikdy nebude vedieť, ktoré - kým nezistíte, ako sa menia hry, alebo nastane kríza a je potrebné spustiť audit trail.

„Každý protokolový súbor JSON je otvorený na analýzu a máme aplikáciu Apache Drill, pomocou ktorej môžeme vyhľadávať súbory JSON pomocou schém, takže nie je to manuálny krok v oblasti IT na nastavenie analýzy metadát, “ povedal Norris. „Ak zahrniete všetky udalosti týkajúce sa prístupu k údajom a každú administratívnu akciu, existuje celá škála analytických možností.“

5. Zjednotená dátová architektúra

Technický referent alebo správca IT, ktorý dohliada na stratégiu správy podnikových údajov, by mal v konečnom dôsledku myslieť na špecifiká podrobného prístupu, autentifikácie, bezpečnosti, šifrovania a auditu. Ale technologický referent alebo správca IT by sa tam nemal zastaviť; skôr by táto osoba mala myslieť aj na to, ako sa každá z týchto zložiek vkladá do ich rozsiahlejšej architektúry údajov. Mal by tiež premýšľať o tom, ako musí byť táto infraštruktúra škálovateľná a bezpečná - od zhromažďovania a ukladania údajov až po BI, analýzy a služby tretích strán. Gnau uviedol, že správa údajov sa týka rovnako stratégie prehodnocovania a vykonávania ako samotnej technológie.

Prekračuje viac ako jednu tabuľu skla alebo zbierku bezpečnostných pravidiel, “ povedal Gnau. „Je to jediná architektúra, v ktorej tieto úlohy vytvárate a synchronizujú sa naprieč celou platformou a všetkými nástrojmi, ktoré do nej prinášate. Krásou bezpečne riadenej infraštruktúry je obratnosť, s akou sa vytvárajú nové metódy. Na každej úrovni platformy alebo dokonca v v hybridnom cloudovom prostredí máte jediný referenčný bod na pochopenie toho, ako ste implementovali svoje pravidlá. Všetky údaje prechádzajú touto úrovňou zabezpečenia a správy. ““

Základné základy údajov: ako zostaviť plán správy údajov