Domov obchodné 7 tipov na úspech pri strojovom učení

7 tipov na úspech pri strojovom učení

2024

Obsah:

1. Nezabudnite na logistiku
2. Zohľadnite svoje údaje
3. Algoritmy nie sú kúzelnými guľkami
4. Použite rozmanitú súpravu nástrojov
5. Experimentujte s hybridným učením
6. Lacné neznamená zlé
7. Nenazývajte to AI

Video: Кеннет Кукьер: Большие данные — лучшие данные (November 2024)

Prvá časť nášho Obchodného sprievodcu strojovým učením (ML) zhrnula, ako je zastrešujúca koncepcia ML v podnikovom prostredí omnoho viac presadená. Najúčinnejšie stratégie sa zameriavajú na ML v praktickom slova zmysle, využívajúc tak komplexné techniky hlbokého učenia, ako aj menej náročné techniky „lacného učenia“ na optimalizáciu podnikových procesov a získavanie konkrétnych poznatkov o business intelligence (BI).

Cieľom nasadenia ML vo vašich podnikových aplikáciách je vylepšiť spodný riadok alebo využiť konkurenčnú výhodu vašej spoločnosti. Vo väčšej schéme vašej organizácie však využitie času a zdrojov, ktoré do tohto procesu investujete, ide nad rámec algoritmov. Rozhodovatelia v oblasti IT vo vašom podnikaní sa musia ubezpečiť, že všetko, čo sa týka implementácie vášho ML - od údajov a logistiky až po to, ako ste v kontakte s používateľmi - spolupracuje koherentne, aby maximalizovalo efektívnosť.

Ted Dunning, Ph.D., je hlavný aplikačný architekt v MapR, podnikovej softvérovej spoločnosti ponúkajúcej rôzne nástroje na distribúciu veľkých dát a správu dát. Dunning tiež spoluautorom dvoch kníh o tom, čo nazýva „Praktické strojové učenie“, a v priebehu rokov vyvinul technológie ML pre množstvo spoločností, vrátane systému detekcie podvodov ID Analytics (zakúpeného spoločnosťou LifeLock) a softvéru Musicmatch Jukebox, z ktorého sa neskôr stala spoločnosť Yahoo Music. V súčasnosti tiež pôsobí ako viceprezident pre inkubáciu v Apache Software Foundation.

Dunning sledoval vývoj ML priestoru v priebehu niekoľkých desaťročí a dozvedel sa veľa o tom, čo funguje a čo nie v praktickom podnikateľskom prostredí. Dunning ďalej uvádza sedem osvedčených postupov, ktoré sa majú riadiť pri vývoji obchodných riešení založených na ML.

1. Nezabudnite na logistiku

Úspešné ML nie je len o výbere správneho nástroja alebo algoritmu. Dunning povedal, že musíte tiež zistiť, aký prístup je vhodný a navrhnúť ho pre konkrétnu situáciu, ktorú oslovujete. Napríklad Dunning hovoril o ML v online marketingovej kampani, na rozdiel od oveľa komplikovanejších scenárov, ako sú algoritmy vedúce autonómne vozidlo. Výdavky na prostriedky na vylepšenie algoritmu zvyšujúce hodnotu stoja za problémy s automobilom, ale v marketingovom scenári by ste z optimalizácie všetkej logistiky v okolí dosiahli oveľa lepšiu návratnosť.

„Pre podniky je to často logistika, nie učenie, čo vám dáva hodnotu. To je časť, na ktorú by ste mali tráviť čas a zdroje, “ povedal Dunning. „Úprava algoritmu by vám priniesla malé zlepšenie. Ale prispôsobenie týchto údajov, používateľského rozhrania a spôsobu, akým počúvate a spolupracujete s vašimi používateľmi, vám môže ľahko priniesť 100 percentné zlepšenie. Čas strávený vylepšením algoritmu stojí za zlomok, pretože rovnako ako počúvanie používateľov. ““

Na ilustráciu tohto bodu Dunning vysvetlil, ako kedysi vytvoril model na identifikáciu podvodov s aplikáciami (otvorenie falošných účtov s odcudzenými identitami) v zákazníckej databáze spoločnosti. Model, ktorý postavil, dosiahol vynikajúce výsledky, ale Dunning si všimol, že váhu pohlavia žiadateľa veľmi vážil.

Ukázalo sa, že logistika bola vypnutá. Ako fungoval proces podávania žiadostí, žiadateľ vyplnil svoje pohlavie až potom, čo sa už stal zákazníkom a vykonal niekoľko skríningových krokov na odfiltrovanie podvodníkov. Pri použití rodového poľa ML model podvádzal logistiku celého procesu podvodu. To nemá nič spoločné s algoritmom a všetko, čo súvisí s tým, ako spoločnosť získavala svoje údaje na prvom mieste.

2. Zohľadnite svoje údaje

Dunning je plný chytľavých kúskov múdrosti. Potom, čo začal s „je to logistika, nie učenie“, povedal, že druhá polovica tejto myšlienky je „sú to dáta, nie algoritmy“. Veľká časť zaistenia toho, aby vaše algoritmy ML poskytovali cenné informácie, je zabezpečiť, aby ste im dodali správne údaje. Dunning povedal, že ak nedosahujete výsledok, pre ktorý hľadáte, potom častejšie ako nie, pretože nepoužívate správne údaje.

"Ľudia sú všetci likvidovaní a ego-viazaní na konkrétne algoritmy, ale dnes, kvôli nástrojom tam, všetci a ich matka môžu a prichádzajú so všetkými druhmi nových algoritmov, " povedal Dunning. „Dáta sú oveľa dôležitejšie a poskytnú vám oveľa viac vzostupu, než nekonečné vylepšovanie vašich algoritmov. Ak pracujete na náročnom probléme, ako je rozpoznávanie reči alebo počítačové videnie, je to jedna vec. Toto je však pole založené na údajoch. Vo väčšine scenárov budete mať oveľa viac z úpravy údajov, ktoré získavate, a zo zmeny otázky. ““

To urobil Dunning v polovici dvadsiatych rokov, keď budoval motor na odporúčanie videa v spoločnosti s názvom Veoh Networks. Tím pracoval na identifikácii párov videí vytvorených používateľmi, na ktoré ľudia klikli viac, ako sa očakávalo, ale algoritmus nefungoval. Rozmýšľali o hudbe, kde používatelia poznajú svojich obľúbených interpretov a piesne podľa mena. Preto zmenili otázku vylepšením používateľského rozhrania bez toho, aby sa dotkli samotného algoritmu.

„Vo videách generovaných používateľmi nikto nevie, že umelci a veľa videí nemalo tituly spamu, aby získali viac zobrazení. Cyklovanie na vylepšeniach algoritmov by nám nikdy neprinieslo dobré výsledky, “ povedal Dunning. „To, čo sme urobili, bolo zmeniť užívateľské rozhranie tak, aby vysielalo signál majáka každých 10 sekúnd. Zistili sme, že ak použijeme maják namiesto kliknutí na nespracované údaje odporúčateľa, dosiahli sme úžasné výsledky. Zdvihnutie tejto jednej zmeny bolo niekoľko stopercentné zlepšenie zapojenia vďaka odporúčaniam, bez algoritmických zmien. “

3. Algoritmy nie sú kúzelnými guľkami

Implementácie ML sa darí neustálym pokusom a chybám. Bez ohľadu na to, aké sú vaše algoritmy dobré, ak váš systém interaguje s ľuďmi, bude potrebné ho v priebehu času upravovať. Dunning zdôraznil, že podniky by mali neustále merať celkovú efektívnosť ich implementácie a identifikovať zmeny a premenné, ktoré ich zlepšujú a zhoršujú. Môže to znieť ako hlúposť, ale Dunning povedal, aj keď je zrejmé, že len veľmi málo ľudí to robí alebo robí dobre.

„Mnoho ľudí chce nasadiť systém alebo podniknúť nejaké kroky a chcú, aby jeho algoritmus fungoval dokonale navždy, “ povedal Dunning. „Žiadny algoritmus nebude magickou guľkou. Návrh používateľského rozhrania nebude trvať večne. Žiadna metóda zhromažďovania údajov nebude nikdy nahradená. To všetko sa môže stať a stane sa, a podniky musia dôkladne merať, hodnotiť a prehodnocovať, ako ich systém funguje. ““

4. Použite rozmanitú súpravu nástrojov

K dispozícii sú desiatky nástrojov ML, z ktorých mnohé môžete používať zadarmo. Máte populárne knižnice otvorených zdrojov, ako sú Caffe, H20, Shogun, TensorFlow a Torch, a knižnice ML v mnohých projektoch Apache Software Foundation (ASF) vrátane Mahout, Singa a Spark. Potom existujú možnosti založené na predplatnom vrátane Amazon Machine Learning, BigML a Microsoft Azure Machine Learning Studio. Spoločnosť Microsoft má tiež bezplatnú kognitívnu sadu nástrojov.

K dispozícii je nespočet zdrojov. Dunning hovoril s mnohými podnikmi, vedcami údajov a odborníkmi v oblasti ML a vždy sa ich pýtal, koľko rôznych rámcov a nástrojov používajú. V priemere Dunning povedal, že väčšina hovorí, že používa minimálne 5-7 nástrojov a často oveľa viac.

„Nemôžete sa prilepiť k jednému nástroju. Budete musieť použiť niekoľko, a preto by ste mali radšej zostaviť svoj systém tak, aby bol agnostický, “ povedal Dunning. „Každý, kto sa vás snaží presvedčiť, že tento nástroj je jediný, aký kedy budete potrebovať, vám predá kusovník.

„Môže sa stať, že sa budúci týždeň stane niečo, čo rozruší košík s jablkami a pri miere inovácií, ktorú vidíme, sa to bude diať najmenej ďalších päť až desať rokov, “ pokračoval Dunning. „Pozrite sa na príklad lacného učenia, kde možno znova používate existujúci klasifikátor obrázkov na analýzu obrázkov v katalógu. Je to hlboké učenie s vrhnutím počítačového videnia. Existujú však nástroje, ktoré všetko zabalili. na meranie, hodnotenie a vzájomné pôsobenie medzi rôznymi nástrojmi a vaša infraštruktúra musí byť k tomu vítaná. ““

5. Experimentujte s hybridným učením

Dunning povedal, že tiež môžete kombinovať lacné a hlboké učenie spolu do niečoho hybridného. Napríklad, ak zoberiete existujúci model počítačového videnia a znova skonštruujete prvých niekoľko vrstiev, v ktorých sa rozhoduje, môžete súčasný rámec zvoliť pre úplne nový prípad použitia. Dunning poukázal na súťaž v Kaggle, v ktorej súťažiaci urobili práve to; vzali súbor údajov a napísali nový algoritmus, ktorý pomohol počítaču odlíšiť mačky od psov.

„Rozlišovanie mačiek a psov je veľmi jemnou vecou pre algoritmus ML. Premýšľajte o logike: Mačky majú špicaté uši, ale aj nemeckí pastieri. Psi nemajú škvrny, s výnimkou dalmatíncov atď. To môže byť dosť ťažké rozpoznať. samo o sebe, “povedal Dunning. „Ten, kto zvíťazil, vyvinul systém, ktorý to robil s presnosťou na 99 percent. Ale na mňa bol väčší dojem človek, ktorý prišiel na tretie miesto. Namiesto budovania od nuly, zobral už existujúci program na rozpoznávanie obrázkov z inej úlohy a vzal horná vrstva a dal tam jednoduchý klasifikátor. Uviedol niekoľko príkladov a čoskoro to bolo presne 98 percent pri rozlíšení mačiek od psov. Celý proces trvalo chlapa tri hodiny. ““

6. Lacné neznamená zlé

Napriek zjavnej konotácii Dunning povedal, že lacné vzdelávanie neznamená zlé učenie. Čas strávený implementáciou ML priamo nesúvisí s jeho obchodnou hodnotou. Dôležitejšia kvalita, povedal, je zabezpečiť, aby bol proces opakovateľný a spoľahlivý. Ak je to podnik schopný dosiahnuť bez investovania neprimeraného množstva zdrojov, potom je to o to lepšie.

„Lacný neznamená zlé. Ak to bude fungovať, bude to fungovať. Ak je to lacné a bude to fungovať, je to skvelé. Ale úsilie, ktoré venujete budovaniu, nedefinuje hodnotu. To je klam v súčte, “ povedal Dunning., „Hodnotu určuje to, ako to zlepšuje podnikanie. Ak zlepšuje zisky alebo znižuje náklady alebo zlepšuje konkurenčnú situáciu. Je to účinok, nie úsilie.“

7. Nenazývajte to AI

Dunning zdôraznil, že keď sa hovorí o týchto technikách, podniky by mali používať presnú terminológiu: ML, počítačové videnie alebo hlboké vzdelávanie. To všetko má tendenciu spadať pod zastrešujúci pojem „umelá inteligencia“, ale podľa spoločnosti Dunning je definícia umelej inteligencie jednoducho „vecou, ktorá ešte nefunguje“.

„Najlepšia definícia, akú som kedy počul pre AI, je to, že to, čo ešte nevieme vysvetliť. Na veci, na ktoré sme prišli, “ povedal Dunning. „Zakaždým, keď dostaneme niečo do práce, hovoria ľudia:„ To nie je AI, je to len softvér. Je to len mechanizmus pravidiel. Je to naozaj iba logická regresia. “ Predtým, ako niečo vymyslíme, nazývame to AI. Potom to vždy nazývame niečo iné. V mnohých ohľadoch sa AI používa lepšie ako slovo pre ďalšiu hranicu av prípade AI bude vždy existovať ďalšia hranica. kam ideme, nie kam sme sa už dostali. ““