Domov Vlastnosti Títo obhajcovia chcú zabezpečiť, aby naše údaje nezmizli

Títo obhajcovia chcú zabezpečiť, aby naše údaje nezmizli

Obsah:

Video: COVID-19 - биооружие? © COVID-19 - biological weapons? (Septembra 2024)

Video: COVID-19 - биооружие? © COVID-19 - biological weapons? (Septembra 2024)
Anonim

Koncom mája tohto roku, presne päť mesiacov od inaugurácie 45. prezidenta Spojených štátov, si skupina ľudí zaoberajúca sa postojom novej administratívy k vede a klimatickým zmenám pripomenula svoje osobitné výročie.

Neďaleko kampusu University of North Texas na rovinách severne od Dallasu sa stretlo niekoľko desiatok jednotlivcov v Data Rescue Denton, aby identifikovali a stiahli kópie federálnych údajov o klíme a životnom prostredí. Tieto zhromaždenia v štýle hackathonu získali veľkú pozornosť v dňoch bezprostredne predchádzajúcich inaugurácii; Denton bol 50. takou udalosťou od januára.

Najhoršie obavy záchrancov údajov, ktoré sa pôvodne obávali, že nová administratíva môže vymazať alebo zakryť údaje o klíme a iných environmentálnych údajoch, sa zdajú byť skutočnosťou, keď jedným z prvých krokov Trumpovho bieleho domu bolo odstránenie stránok so zmenou klímy zo svojej webovej stránky. Potom ministerstvo poľnohospodárstva USA po odstránení správ o kontrole dobrých životných podmienok zvierat zo svojej webovej stránky reagovalo na žiadosť zákona o geografickom slobode informácií podľa zákona o Geografickom zákone o slobodnom prístupe k informáciám s 1 771 strán úplne redigovaného materiálu.

Ktokoľvek má prístup k viac ako 153 000 federálnym súborom údajov prostredníctvom portálu s otvorenými údajmi ústrednej vlády na adrese data.gov. Ale to je iba zlomok údajov, ktoré existujú v hmlovine vládnej byrokracie, nezáleží na ešte menšom zlomku, ktorý je na serveri.

„Niekde je okolo 20 percent vládnych informácií prístupných cez internet, “ povedal Jim Jacobs, federálny vládny informačný knihovník Univerzitnej knižnice Stanford. „Je to dosť veľké množstvo vecí, ktoré nie sú k dispozícii. Hoci agentúry majú svoje vlastné systémy na správu wiki a obsahu, jediný prípad, keď sa o nich niečo dozviete, je, ak ho niekto FOIA FOIA.“

Isteže, skutočne sa zachytilo veľké množstvo informácií, ktoré sa teraz nachádzajú na mimovládnych serveroch. Medzi udalosťami a projektmi zameranými na utečenie údajov, ako je napríklad Koncové indexové prehľadávanie za rok 2016, sa archivovalo viac ako 200 TB webových stránok a údajov vlády. Organizátori záchrany si však začali uvedomovať, že postupné snahy o vytvorenie úplných kópií terabajtov vedeckých údajov vládnych agentúr sa z dlhodobého hľadiska nemôžu realisticky udržať - bolo by to ako zachraňovať Titanicu s náprstkom.

Takže aj keď Data Rescue Denton skončil ako jedna z posledných organizovaných udalostí svojho druhu, kolektívne úsilie podnietilo širšiu komunitu, aby spolupracovala na tom, aby viac vládnych údajov bolo možné zistiť, pochopiteľné a použiteľné, Jacobs napísal do blogu.

Pri pohľade do knižníc

Na Pennsylvánskej univerzite je Bethany Wiggin riaditeľkou Penn Programu v Humanitárnych prostrediach, kde bola ústredným bodom hnutia Data Refuge, ktorá je pôvodcom udalostí Rescue Data. Zameranie sa teraz posunulo smerom k využívaniu národných rámcov pre dlhodobé úsilie namiesto miestnych periodických epizód.

„Uvedomili sme si zručnosti, ktoré sa objavovali na rôznych miestach a robili udalosti záchranných údajov, čo by sa dalo rozšíriť, “ povedal Wiggin, najmä vo výskumných knižniciach. „Tieto snahy sa však odohrávali ešte predtým, ako sme začali. Úlohou Úradu pre utajenie údajov bolo posilniť tieto spojenia; katalyzovať dlhodobé, pomaly sa rozvíjajúce projekty a objasniť ich dôležitosť.“

Wiggin v poslednej dobe pomáha vedúcej knižnici Knižnice + Sieť, vznikajúcemu partnerstvu výskumných knižníc, knižničných organizácií a skupín s otvorenými údajmi katalyzovaných s cieľom rozšíriť tradičnú úlohu knižníc pri zachovávaní prístupu k informáciám. Medzi účastníkov patrí výskumná knižnica na Stanfordskej univerzite, digitálna knižnica v Kalifornii a Mozilla Foundation, so vstupmi a spoluprácou od subjektov tak širokého rozsahu, ako sú národné archívy a vedúci úradníkov s údajmi niekoľkých federálnych kancelárií.

Jedným z projektov je napríklad LOCKSS („veľa kópií je v bezpečí“), ktoré Jacobs koordinuje už niekoľko rokov. Je založená na rovnakom princípe ako 200-ročná sieť knižníc známa ako Program federálnych depozitárov; tieto knižnice sú oficiálnymi archívmi publikácií Úradu vlády USA pre tlač (GPO).

LOCKSS je naopak súkromná digitálna verzia tohto systému, ktorý doteraz pozostáva z 36 knižníc, ktoré zbierajú publikácie od GPO v spolupráci. Je to model, ako možno chrániť digitálne informácie pred vymazaním alebo neoprávneným zásahom pomocou rozsiahleho fyzického rozptylu.

„Zachovanie nemôžete zaručiť, pokiaľ nemáte kontrolu nad obsahom, “ povedal Jacobs. „Súčasťou toho, čo urobil depozitárne knižnice dôležitými a užitočnými za posledných 200 rokov, bolo to, že nikto vo vláde nemohol dokument upravovať bez toho, aby v skutočnosti išiel do 1 500 knižníc a povedal:„ Áno, tu zmeňte túto stránku. ““

Softvér LOCKSS používa kontrolné vyrovnávacie pamäte obsahu na bitovej úrovni a porovnáva ich s obsahom iných knižníc, čo Jacobs povedal, že pomáha zaistiť dlhodobé uchovávanie prostredníctvom opravy degradovaných súborov.

John Chodacki, ďalší spolupracovník s knižnicami + sieť, je riaditeľom kurácie pre digitálnu knižnicu v Kalifornii, virtuálne informačné zariadenie, ktoré slúži všetkým 10 kampusom systému kalifornskej univerzity. V spolupráci s vývojárom Kódexu pre vedu a spoločnosť Maxom Ogdenom a Philipom Ashlockom, hlavným architektom na data.gov, Chodacki tvrdí, že sa zameriavajú na použitie data.gov ako obojsmernej ulice.

Najprv preukázali, že samotná záchrana údajov by mohla byť omnoho efektívnejšia tým, že naberie kópiu samotného súboru data.gov a umiestni ju na externý server, datamirror.org, s monitorovacími skriptmi, ktoré kontrolujú aktualizácie. Potom Chodacki a spolupracovníci tiež začali skúmať, či prispievané súbory údajov a metadáta do zrkadla môžu prispievať k existujúcim pracovným tokom agentúr v údajoch.gov prostredníctvom vložených stránok v zrkadle.

Podľa výkonného príkazu Obamu z roku 2013, ktorý nariadil uverejňovanie strojovo čitateľných údajov na stránke data.gov, by agentúry stále zodpovedali za vytváranie záznamov, ktoré sú uvedené na tomto portáli; Chodacki a Ogdenova myšlienka je, že crowdsourcing navrhovaných súborov údajov jednoducho pomáha rozširovať pracovné zaťaženie.

„Nepotrebujeme replikovať celý ekosystém, “ povedal Chodacki. „Federálna vláda a tieto agentúry sa zaoberajú údajmi oveľa dlhšie, ako bolo v prípade bláznovstva, keď je možné hovoriť o veľkých údajoch oveľa spoľahlivejšie ako ktokoľvek iný.“

Verejno-súkromné ​​partnerstvá

Otázka nákladov je zrejmá, pokiaľ ide o to, ako sú agentúry schopné určiť, ktoré súbory údajov sú pre verejnosť najcennejšie, a potom prostredníctvom vládneho portálu zverejniť odkazy na svoje metaúdaje alebo skutočné súbory údajov. Správa Kongresového rozpočtového úradu (CBO) pre návrh zákona o vládnych údajoch OPEN, ktorý sa v súčasnosti nachádza v Senáte a ktorá by kodifikovala Obamov výkonný poriadok do zákona, odhaduje, že jeho úplná implementácia by v rokoch 2018 až 2021 stála 2 milióny dolárov.

Pokiaľ ide o vládne peniaze, čo v podstate nepredstavuje žiadne skutočné zvýšenie výdavkov, CBO dospel k záveru.

Účinnosť je však iná otázka, s ktorou experimentuje Ed Kearns v Národnej správe pre oceány a atmosféru spolu so súkromnými partnermi vrátane Amazon Web Services a Google. Kearns, hlavný úradník NOAA, uviedol, že zvyšovanie dostupnosti a využívania údajov NOAA je hlavným cieľom projektu Big Data Project.

Spoločnosti identifikujú, ktoré súbory údajov chcú, a NOAA ich bez ďalších nákladov prenáša na verejnosť. Čokoľvek, čo NOAA má, je na stole, povedal Kearns, ale cieľom päťročného partnerstva nie je dostať všetky údaje NOAA do cloudu - iba strategické kúsky.

Hosting takýchto súborov údajov v cloudových službách súkromných spoločností ponúka niekoľko výhod pre prístup k FTP v štýle 80. rokov, ktorý je stále štandardom pre prenos veľkých súborov údajov od federálnych agentúr. Na začiatok, súbory údajov NOAA majú tendenciu byť obrovské - agentúra monitoruje oceány, atmosféru, slnko a vesmírne počasie Zeme - a niekedy si vyžadujú verejné doručenie týždne alebo mesiace.

Jedným príkladom je Dopplerov radarový archív agentúry NEXRAD úrovne II s vysokým rozlíšením. Podľa štúdie uverejnenej v máji Americkou meteorologickou spoločnosťou v USA by prenos celého archívu NEXRAD s 270 terabajtmi na jedného zákazníka v októbri 2015 trval 540 dní za cenu 203 310 USD. Úplná kópia archívu nikdy nebola k dispozícii na externú analýzu predtým, ako NOAA pracovala s Amazon a Google na tom, aby bola jedna v cloude.

Experiment tiež priniesol niektoré zaujímavé skoré výsledky so zvýšením používania. Webové stránky spoločnosti NOAA o počasí a predpovedaní už dostávajú jedny z najvyšších úrovní prenosu medzi vládnymi webmi, ale potom, čo spoločnosť Google nedávno integrovala do svojej databázy BigQuery jeden súbor údajov o klíme a počasí o veľkosti koncertov, spoločnosť oznámila dodanie 1, 2 petabajtov tohto súboru údajov. od 1. januára do 30. apríla - oveľa viac, ako kedykoľvek predtým, zo serverov NOAA.

„Google to dokázal otvoriť úplne novému publiku, “ povedal Kearns.

Nie je to len dážď a sezónne teploty. Datasety, ktoré sú teraz k dispozícii prostredníctvom partnerov spoločnosti Big Data, zahŕňajú informácie o rybolove, morské počasie a katalóg hostený spoločnosťou IBM, v ktorom sú uvedené súčasné, predpovede, historické a geoprostorové súbory údajov z centier NOAA. Budúce súbory údajov môžu dokonca obsahovať informácie o ekosystémoch a genomike rybolovu.

Partnerstvo však svojim dizajnom umožňuje spolupracovníkom vybrať si to, čo najviac chcú, čo so sebou nesie riziko, že temné, ale potenciálne hodnotné súbory údajov neuvidia veľa denného svetla. Kearns hovorí, že je príliš skoro na to, aby sme povedali, čo sa nakoniec môže považovať za cenné.

„Rozsah a dosah toho, čo s týmito údajmi môže urobiť, je pre nás ohromujúci, “ dodal. „Nevieme si predstaviť všetky možné použitia.“

Mesto Philadelphia v menšom rozsahu spolupracovalo aj so súkromným subjektom pri vydávaní súborov údajov, ktoré verejnosť uviedla, že to bude najužitočnejšie. Hoci veľkosť mesta mu poskytuje viac každodennej operatívnej manévrovateľnosti ako federálna entita, Phillyov model predstavuje jeden prístup k strategizácii vydaní doteraz nezverejnených súborov údajov.

Azavea, softwarová firma so sídlom vo Philly, špecializujúca sa na vizualizáciu údajov, spolupracovala s hlavným informačným úradníkom mesta Timom Wisniewskim pri vývoji zoznamu nepublikovaných súborov údajov, ktoré by mohli mať neziskové organizácie v meste. Wisniewski a Azavea použili na vypracovanie tohto zoznamu online metadátový katalóg mesta a vstupy mestských častí. Azavea a ďalší partneri potom tento zoznam nakúpili pre neziskové organizácie Philadelphia a vyhlásili súťaž OpenDataVote, súťaž pre verejnosť o hlasovanie o projektoch predložených týmito neziskovými organizáciami o tom, ako využijú svoje preferované súbory údajov.

Nedávnym víťazom bol návrh predložený neziskovou neziskovou organizáciou MicroSociety na použitie údajov mesta o darcoch do školskej oblasti Philadelphia na meranie vplyvu neziskových programov na školách.

„Môžeme povedať, že táto nezisková organizácia v meste má záujem o konkrétny súbor údajov, pretože s tým môže niečo urobiť a že mnohí ľudia hlasovali za ich podporu, “ uviedol Wisniewski. „Umožňuje nám to ísť na oddelenia s pevným prípadom použitia namiesto toho, aby sme povedali, hej, tieto údaje zverejňujte len preto, že.“

Staré dáta a nové

Čo sa však stane, aj keď už existuje dostatočný prístup k údajom, ktoré už existujú, keď nové pravidlá a smernice o financovaní znamenajú, že samotné údaje už nie sú generované? To je skutočný problém, povedala Ann Dunkin, ktorá pôsobila ako vedúca informačnej agentúry v agentúre na ochranu životného prostredia pod vedením prezidenta Obamu a teraz vedie IT v kalifornskom okrese Santa Clara.

„Ľudia sa obávajú starých údajov, ale to, čo ma najviac znepokojuje, je to, že nové údaje sa nedávajú k dispozícii rovnakou rýchlosťou ako predtým alebo vôbec nie sú generované, “ uviedol Dunkin.

V jednej analýze navrhovaného federálneho rozpočtu na rok 2018 časopisom Science by mnoho vládnych agentúr realizovalo významné zníženie svojich rozpočtov na výskum, ak by bol rozpočet schválený. Zhruba 22 percentné zníženie na národných ústavoch zdravia by viedlo k platbám výskumným univerzitám; požiadavka rozpočtu NASA by vylúčila iniciatívy na monitorovanie emisií skleníkových plynov a iných programov vied o Zemi. Klimatické programy na NOAA by sa mohli uzavrieť aj pri podobných úrovniach škrtov.

Počas svojho pôsobenia sa EPA usilovala o to, aby sa jej zhromažďovanie údajov stalo nástrojom, ktorý by mohol niekto použiť na pochopenie zdravia svojho okolia a ako naň reagovať. Zlý deň vzduchu? Nechoďte von. Prúdte znečisteným spôsobom? Držte deti ďalej.

„Očakávam, že to pôjde späť, “ dodal Dunkin. „Mohol by som sa mýliť, ale ak hovoríte, že nebudeme sprístupňovať údaje, logickým záverom sú súbory údajov, ktoré by pomohli aj verejnosti, nebudú v prvom rade k dispozícii alebo nebudú vygenerované.“

Wiggin Data Refuge pracuje na projekte rozprávania príbehov týkajúcich sa tohto problému, ktorý dúfa, že bude katalyzovať viac ľudí, aby požadovali pokračujúce zverejňovanie údajov, a vytvorí základ pre podporu pokračovania existujúcich programov na zber údajov v rámci federálnej vlády. Príbehy „Tri príbehy v našom meste“ zobrazia často skryté údaje o dopadoch, ktoré majú federálne údaje na neočakávaných miestach, a to najskôr vo Philadelphii, potom na iných miestach v celej krajine.

„Rozhodujúcou súčasťou hnutia Data Refuge, keď sa presúvame do ďalšej fázy, je pomôcť ľuďom pochopiť, v akom rozsahu sa v ich živote bežne používajú federálne produkované údaje, “ uviedol Wiggin. „Či už to nazývate klímou alebo zdravím alebo verejnou bezpečnosťou, stále sú to federálne údaje. Je to v komunitách, na mestských radniciach, v policajnom úsilí, v armáde. Musíme si pamätať, aké dôležité sú tieto údaje.“

zdroje:

  • Brána EPA environmentálnych údajov: Portál metaúdajov Agentúry pre ochranu životného prostredia.
  • Open Data @ DOE: Otvorený dátový portál Ministerstva energetiky.
  • Dátový portál ekonomického výskumu USDA
  • Zdroje NOAA Big Data: Odkazy na stránky platforiem partnerov spoločnosti Big Data, ktoré sú hostiteľmi údajov generovaných programom NOAA.
  • Univerzita v severnom Texase: Cyber ​​Cemetery: Archív zaniknutých, zastaraných alebo zatvorených vládnych webových stránok.
  • Stránka projektu archivácie environmentálnych údajov a správy vecí verejných: Nástroje, kód a aplikácie súvisiace s objavovaním a archiváciou vládnych údajov.
  • Internetový archív Wayback Machine
  • Internetový archív: Ako uložiť stránky do Wayback Machine: Šesť spôsobov, ako nominovať stránky na archiváciu.
  • Kalifornská digitálna knižnica: Webový archív konca obdobia: Zbierka webových stránok vlády USA uložených z indexových prehľadávaní od roku 2008 do súčasnosti.
  • FreeGovInfo.info: Rozsiahly obsah s informáciami o dátových portáloch na štátnej a federálnej úrovni a archívy správ o otvorených údajoch.
  • Climate Mirror: Zbierka dobrovoľne zhromaždených údajov o klíme.

Tento príbeh sa prvýkrát objavil v časopise PC Magazine Digital Edition. Prihláste sa na odber ďalších originálnych príbehov, noviniek, recenzií a spôsobov, ako to urobiť!

Títo obhajcovia chcú zabezpečiť, aby naše údaje nezmizli