Video: New report says pilot wasn't flying Malaysia Airlines Flight 370 (November 2024)
Ak by ste chceli zistiť, ako program dokáže rozlíšiť škodlivé e-mailové správy od bežnej pošty, mali by ste analyzovať milióny vzoriek z reálneho sveta, zlých a dobrých. Pokiaľ však nemáte v NSA priateľa, mali by ste mať tieto vzorky len ťažko. Na druhej strane Twitter je vysielacie médium. Prakticky každý tweet je viditeľný pre každého, koho zaujíma. Profesorka Jeanna Matthewsová a Ph.D. študent Joshua White na Clarkson University využil túto skutočnosť na nájdenie spoľahlivého identifikátora tweetov generovaných súpravou Blackhole Exploit Kit. Ich prezentácia bola ocenená ako najlepší príspevok na 8. medzinárodnej konferencii o škodlivom a nechcenom softvéri (skrátene Malware 2013).
Ktokoľvek s nutnosťou posielať spam, vytvoriť armádu robotov alebo ukradnúť osobné údaje, môže začať zakúpením súpravy Blackhole Exploit Kit. Matthews uviedol, že jeden odhad naznačuje, že spoločnosť BEK sa v roku 2012 zapojila do viac ako polovice všetkých napadnutí škodlivým softvérom. Ďalšia správa spája spoločnosť BEK s 29 percentami škodlivých adries URL. Napriek nedávnemu zatknutiu údajného autora Blackhole je súprava závažným problémom a jeden z mnohých spôsobov šírenia spočíva v preberaní účtov Twitter. Infikované účty posielajú tweety obsahujúce odkazy, ktoré po kliknutí naň získajú ďalšiu obeť.
Pod čiarou
Matthews a White zhromaždili v priebehu roka 2012 z Twitteru viacero terabajtov údajov. Odhaduje, že ich súbor údajov obsahuje od 50 do 80 percent všetkých tweetov za ten čas. Dostali viac ako len 140 znakov na pípanie. Hlavička JSON každého tweetu obsahuje množstvo informácií o odosielateľovi, tweetu a jeho prepojení s inými účtami.
Začali jednoduchým faktom: niektoré tweety generované BEK obsahujú špecifické frázy ako „Ste to na fotografii?“ alebo viac provokatívnych fráz, napríklad „Na večierku ste boli nahí). Ťažbou obrovského súboru údajov pre tieto známe frázy identifikovali infikované účty. To im následne umožní objaviť nové frázy a ďalšie značky tweetov generovaných BEK.
Samotný dokument je vedecký a úplný, ale konečný výsledok je pomerne jednoduchý. Vyvinuli relatívne jednoduchú metriku, ktorá, keď sa použije na výstup daného Twitter účtu, môže spoľahlivo oddeliť infikované účty od čistých. Ak má účet skóre nad určitým riadkom, je účet v poriadku; pod čiarou je infikovaná.
Kto nakazil koho?
S touto jasnou metódou na rozlíšenie infikovaných účtov začali analyzovať proces nákazy. Predpokladajme, že účet B, ktorý je čistý, nasleduje účet A, ktorý je infikovaný. Ak sa účet B nakazí krátko po príspevku BEK na účet A, je veľmi dobrá šanca, že účet A bol zdrojom. Vedci modelovali tieto vzťahy v zoskupenom grafe, ktorý veľmi jasne ukázal malý počet účtov spôsobujúcich obrovské množstvo infekcií. Toto sú účty zriadené vlastníkom súpravy Blackhole Exploit Kit špeciálne na účely šírenia infekcie.
Matthews poznamenal, že v tomto okamihu mali možnosť informovať používateľov, ktorých účty sú napadnuté, ale cítili, že by to mohlo byť príliš invazívne. Pracuje na tom, aby sa spojila s Twitterom, aby zistila, čo sa dá urobiť.
Moderné techniky získavania údajov a analýzy veľkých údajov umožňujú vedcom nájsť vzory a vzťahy, ktoré by bolo jednoducho nemožné dosiahnuť len pred niekoľkými rokmi. Nie každé hľadanie vedomostí sa oplatí, ale toto sa stalo v pikoch. Úprimne dúfam, že sa profesorovi Matthewsovi podarí zaujať Twitter na praktickej aplikácii tohto výskumu.