Cum folosește Netflix inteligența artificială, știința datelor și învățarea automată – din perspectiva unui produs

author
29 minutes, 2 seconds Read
27 februarie, 2019 – 18 min citește

Algoritmii de învățare automată ai Netflix sunt conduși de nevoile de afaceri.

Prezența inteligenței artificiale în societatea actuală devine din ce în ce mai omniprezentă – în special datorită faptului că marile companii precum Netflix, Amazon, Facebook, Spotify și multe altele implementează continuu soluții legate de inteligența artificială care interacționează direct (adesea în spatele scenei) cu consumatorii în fiecare zi.

Când sunt aplicate în mod corespunzător problemelor de afaceri, aceste soluții legate de inteligența artificială pot oferi soluții cu adevărat unice care se extind și se îmbunătățesc în timp, creând un impact semnificativ atât pentru afaceri, cât și pentru utilizator. Dar ce înseamnă să „aplici în mod corespunzător” o soluție de IA? Înseamnă că există o cale greșită? Din punctul de vedere al produsului, răspunsul scurt este da, și vom ajunge la motivul pentru care este așa mai târziu în acest articol, pe măsură ce vom aprofunda.

Vizualizare generală: În primul rând, vom prezenta 5 cazuri de utilizare a științei datelor sau a învățării automate la Netflix. Apoi vom discuta câteva nevoi de afaceri vs. considerații tehnice pe care le-ar analiza un manager de produs. Apoi, ne vom scufunda puțin mai adânc în ceea ce este poate cel mai interesant dintre aceste 5 cazuri de utilizare, pe măsură ce identificăm ce problemă de afaceri încearcă să rezolve.

1. Să construim o rețea neuronală simplă!

2. Arbori de decizie în învățarea automată

3. O introducere intuitivă în învățarea automată

4. Echilibrul dintre inteligența artificială pasivă și cea activă.

5 cazuri de utilizare a inteligenței artificiale/datelor/învățării automate la Netflix

  1. Personalizarea recomandărilor de filme – Utilizatorii care se uită la A sunt susceptibili să se uite la B. Aceasta este probabil cea mai cunoscută caracteristică a unui Netflix. Netflix utilizează istoricul de vizionare al altor utilizatori cu gusturi similare pentru a vă recomanda ceea ce ați putea fi cel mai interesat să vizionați în continuare, astfel încât să rămâneți implicat și să vă continuați abonamentul lunar pentru mai mult.
  2. Generarea automată și personalizarea miniaturilor/lucrărilor artistice – Utilizând mii de cadre video dintr-un film sau spectacol existent ca punct de plecare pentru generarea miniaturilor, Netflix adnotează aceste imagini, apoi clasifică fiecare imagine într-un efort de a identifica care miniaturi au cea mai mare probabilitate de a duce la un clic al dumneavoastră. Aceste calcule se bazează pe ceea ce au apăsat alte persoane asemănătoare cu dumneavoastră. O constatare ar putea fi aceea că utilizatorii cărora le plac anumiți actori / genuri de filme au o probabilitate mai mare de a da clic pe miniaturi cu anumiți actori / atribute ale imaginii.
  3. Location Scouting for Movie Production (Pre-Producție) – Utilizarea datelor pentru a ajuta la luarea unei decizii cu privire la locul și momentul cel mai bun pentru a filma un platou de filmare – având în vedere constrângerile de programare (disponibilitatea actorilor / echipei), bugetul (locul de desfășurare, costurile de zbor / hotel) și cerințele scenei de producție (filmare de zi vs. filmare de noapte, probabilitatea riscurilor de evenimente meteorologice într-o locație). Observați că aceasta este mai degrabă o problemă de optimizare a științei datelor decât un model de învățare automată care face predicții pe baza datelor din trecut.
  4. Editarea filmelor (post-producție) -Utilizarea datelor istorice privind cazurile în care verificările de control al calității au eșuat în trecut (când sincronizarea subtitrărilor cu sunetul/mișcările a fost greșită în trecut) – pentru a prezice când o verificare manuală este cea mai benefică în ceea ce altfel ar putea fi un proces foarte laborios și care necesită mult timp.
  5. Calitatea streamingului – Utilizarea datelor de vizionare din trecut pentru a prezice utilizarea lățimii de bandă pentru a ajuta Netflix să decidă când să pună în cache serverele regionale pentru timpi de încărcare mai rapizi în timpul vârfului de cerere (așteptat).

Aceste 5 cazuri de utilizare/aplicații ale științei datelor sau ale învățării automate doar în cadrul Netflix au avut un impact atât de scalabil încât au schimbat pentru totdeauna peisajul tehnologic și experiența utilizatorilor pentru milioane de oameni și încă multe altele care vor urma. Adoptarea acestor soluții legate de inteligența artificială va deveni din ce în ce mai puternică în timp.

Dar înainte ca aceste cazuri de utilizare să fie atât de obișnuite cum sunt astăzi și folosite de utilizatori ca mine și ca tine, cineva sau un grup din cadrul Netflix a conectat în mod corespunzător aceste soluții de inteligență artificială cu o nevoie de afaceri. Fără această legătură cu afacerea, aceste cazuri de utilizare ar fi fost pur și simplu idei de plăcintă care stăteau în partea de jos a unui backlog, la fel ca atâtea alte idei grozave. Doar printr-o poziționare adecvată și o legătură cu problema de bază a afacerii Netflix, aceste idei au devenit realitatea pe care o reprezintă astăzi.

Netflix folosește învățarea mecanică pentru a genera multe variații de miniaturi de imagini cu probabilitate mare de clic pe care le testează neîncetat și continuu A/B în întreaga sa bază de utilizatori – pentru fiecare utilizator și pentru fiecare film – totul pentru a crește probabilitatea că veți da clic și veți viziona.

Care este nevoia/problema de afaceri?

Rețineți că în fiecare dintre cazurile de utilizare pe care le-am identificat mai sus, fiecare este asociat cu o nevoie de afaceri, un obiectiv sau o ipoteză specifică.

Acest lucru este absolut important pentru orice manager de produs – pentru a evita tentația entuziastului tehnologic care se minunează de detaliile științei datelor / sau ML din motive intelectuale, fără a identifica în mod clar problema sau nevoia de afaceri – potențial consumând resurse tehnice valoroase fără niciun impact asupra afacerii.

La sfârșitul zilei, managerii de produs trebuie să conecteze în mod corespunzător o problemă de afaceri cu o soluție de învățare automată a datelor. Vrem să evităm să avem o soluție care aleargă după o problemă, în caz contrar, proiectul își va pierde impulsul în cadrul companiei: inginerii nu vor ști clar care este steaua lor nordică, părțile interesate din întreaga organizație nu vor fi de acord și nu vor aloca resursele necesare pentru a face din proiect un succes etc.

Asigurați-vă că există o problemă la care o soluție de inteligență artificială poate fi direct conectată

Învățarea mașinilor (ML) este o potențială soluție de inteligență artificială – dar trebuie să definim mai întâi problema înainte de a prescrie această soluție.

Care este rezultatul de afaceri pe care încercăm să îl obținem cu ML? Pentru că această nevoie de bază a afacerii este cea care determină parametrii modelelor ML utilizate, ce date sunt colectate și procesate, etc. Nu facem ML pentru a oferi personalizare doar pentru că este o tehnologie interesantă – trebuie să o legăm de o problemă de afaceri. Cercetătorii de date sunt specialiști în a descoperi informații din date, dar este rolul managerului de produs să le lege în mod corespunzător de o nevoie sau de o problemă de afaceri și să le compare cu prioritățile concurente.

De exemplu, un pasionat de tehnologie ar putea spune:

Nu ar fi grozav dacă ați putea să analizați/dezbateți un episod folosind vocea cu Netflix – iar Netflix, cu date de intrare de la reacțiile a mii de alți utilizatori la acel episod, ar putea răspunde inteligent la comentariile dvs. într-un dialog bidirecțional dus-întors?

Da, acesta ar fi un caz de utilizare destul de grozav, valorificând procesarea limbajului natural (NLP) pentru a înțelege comentariul dvs. după episod în context. În plus față de NLP, acest caz de utilizare utilizează personalități text-voce, precum și analiza sentimentală a modului în care mii de alte persoane s-au simțit în legătură cu ceea ce s-a întâmplat în episodul respectiv sau ce părere au despre un anumit personaj. Într-adevăr, aceasta este o fuziune frumoasă a mai multor tehnologii de ultimă oră într-un singur caz de utilizare.

Dacă o versiune pilot MVP a acestui lucru a arătat că utilizatorii care s-au implicat în noua sa caracteristică au rămas mai mult timp sau au revenit mai des sau au ajutat la impulsionarea unui mai mare cuvânt de spus despre Netflix, atunci ar putea justifica resurse suplimentare. Decizia inițială de a construi acel MVP ar depinde de o decizie strategică luată de părțile interesate, nu neapărat prioritizată de metrică. Aceasta va depinde de strategia companiei.

Dar oricât de frumos ar fi scenariul de utilizator de mai sus, ce problemă rezolvă acesta?

Cum se leagă de problema principală a Netflix de a păstra utilizatorii abonați în fiecare lună? Dacă este legată, ce dovezi (calitative sau cantitative avem pentru a susține această relație?

Și dacă aceasta este o soluție legitimă la acea problemă, există o versiune mai simplă a acestei soluții care ar putea îndeplini în mod egal acea problemă, dar care să fie mai puțin complexă din punct de vedere tehnic? De exemplu, în loc de intrare vocală și ieșire vocală, cum ar putea complexitatea doar a intrării și ieșirii de text să afecteze nivelul de efort și impactul asupra implicării utilizatorului?

Ce s-ar întâmpla dacă o interfață de inteligență artificială conversațională fără partea vocală (doar text) ar obține 80% din implicarea intenționată a utilizatorului, dar ar necesita doar 40% din efortul de dezvoltare? Ar merita să se ia în considerare o astfel de cale alternativă?

Ce impact asupra afacerii ar avea o astfel de soluție în comparație cu nivelul de efort? Cum se compară acest raport cu cel al altor sarcini concurente din backlog?

Toate acestea sunt întrebări axate pe produs pe care un PM ar trebui să și le pună pentru a alinia soluțiile tehnologice cu nevoile de afaceri. Pentru că, în cele din urmă, nevoia de afaceri este cea care determină parametrii unui model ML, nu invers.

Să ne uităm încă o dată la recomandările de filme și la acele miniaturi personalizate – care este problema sau obiectivul de afaceri?

Pentru că ai vizionat… îți va plăcea… – Ce problemă ajută recomandările de filme să rezolve?

Recomandări de filme: Identificarea problemei

Aici problema este că Netflix are o colecție uriașă de conținut (peste 100 de milioane de produse diferite, potrivit Netflix) care se schimbă în mod constant și poate fi copleșitor de consumat pentru un utilizator. Utilizatorii nu doresc să fie frustrați în găsirea de conținut relevant pentru interesele lor. Atunci, care este cea mai bună modalitate de a permite fiecărui utilizator să consume aceste date într-un mod care, în cele din urmă, să maximizeze loialitatea abonamentului?

Obiectivele produsului includ:

  • Creșterea / menținerea audienței în ceea ce privește numărul de minute consumate,
  • Creșterea numărului de titluri explorate, frecvența de conectare din nou
  • Depășirea oricărui prag minim pe care compania îl stabilește ca fiind o măsură de succes
  • Creșterea generală a loialității abonamentului lunar / scăderea numărului de anulări de abonamente

Netflix Personalized Thumbnails At Work: 2 utilizatori diferiți care văd 2 imagini diferite pentru același film Nașul: 1 care arată un prim-plan dramatic al unei fețe, cealaltă care arată un cuplu fericit și zâmbitor.

Personalized Image Thumbnail / Artwork: Identificarea problemei

Acest caz de utilizare este un subset al recomandărilor de filme. Având în vedere că recomandările de filme sunt furnizate utilizatorului, avem acum o altă problemă de afaceri/utilizator.

Problemă: Cum (și când) prezentăm cel mai bine acea recomandare de film utilizatorului într-un mod care să maximizeze numărul de vizionări și loialitatea lunară a abonaților?

Ei bine, o modalitate de a furniza acea recomandare este prin intermediul unei miniaturi de imagine – dar ce fel de miniatură furnizăm? Și cât de încrezători suntem că modificarea unei miniaturi de imagine va afecta în mod pozitiv audiența sau loialitatea abonaților?

Și cât de importantă este acea miniatură? Dispunem de date în acest sens?

Colectarea datelor pentru a susține această ipoteză

Ei bine, puteți fi siguri că o persoană axată pe produs de la Netflix – la un moment dat, înainte de 2014 – își punea exact aceleași întrebări la nivel intern. Și acea persoană sau acel grup a lucrat împreună (probabil cu UX și cu părțile interesate conexe) pentru a pune laolaltă studii de utilizator sau date în altă parte, pentru a dovedi că exista într-adevăr o legătură puternică între o miniatură de imagine și audiență.

Aceasta a fost ipoteza lor: că ajustarea conținutului artistic al unei miniaturi de imagine ar putea avea o legătură puternică cu audiența.

Ei bine, se pare că, în 2014, Netflix a efectuat studii care au arătat cât de importantă este acea miniatură:

Nick Nelson, manager global al serviciilor creative de la Netflix, a explicat că, la începutul anului 2014, compania a efectuat cercetări care au arătat că imaginea artistică a fost „nu numai cel mai mare factor de influență” pentru decizia unui utilizator cu privire la ce să urmărească, ci a constituit, de asemenea, peste 82% din atenția lor în timp ce navigau pe Netflix.

„Am văzut, de asemenea, că utilizatorii au petrecut în medie 1,8 secunde analizând fiecare titlu care le era prezentat în timp ce se aflau pe Netflix”, a scris Nelson. „Am fost surprinși de cât de mult impact a avut o imagine asupra unui membru în găsirea unui conținut excelent și cât de puțin timp am avut la dispoziție pentru a le capta interesul.”

O miniatură mică și convingătoare ar putea însemna diferența dintre a vă face să vă petreceți întregul weekend urmărind cel mai recent succes al Netflix Originals sau să vă pierdeți interesul și să treceți la un serviciu concurent, cum ar fi Hulu sau la servicii de streaming OTT similare, cum ar fi ESPN / Disney / HBO Go.

Deci, pe baza studiilor, ipoteza de mai sus s-a dovedit a fi foarte adevărată.

OK, miniaturile sunt importante. Dar ce anume modificăm?

Și cum se introduce un set de date nestructurate, cum ar fi o grămadă de miniaturi de imagini, într-un model de învățare automată digitală/matematică? Vom răspunde la această a doua întrebare mai jos.

În primul rând, având în vedere cât de importantă a fost miniatura pentru decizia unui utilizator de a viziona ceva, cum poate Netflix să genereze miniaturi mai bune pentru fiecare utilizator pentru a crește șansele ca un utilizator să vadă un videoclip?

Utilizarea imaginii originale a filmului ca singura miniatură folosită pentru fiecare persoană în parte cel mai probabil nu va produce cele mai mari rate de clic. Probabil că afacerea lasă clicurile (și timpul de vizionare) pe masă!

Ce se întâmplă dacă Netflix a creat o miniatură diferită pentru fiecare utilizator, optimizată pentru a crește ratele de clicuri?

Ce lucruri din cadrul unei miniaturi de imagine care se află sub controlul Netflix și care pot fi modificate pentru a crește aceste rate de clicuri?

Același film Riverdale, dar două miniaturi de imagine artistice diferite, bazate pe preferințele anterioare ale utilizatorului pentru genurile de filme de dragoste (zâmbete dulci) sau thriller (priviri serioase, dramatice).

Ce actor(i)/personaj(i) ar trebui să fie pe acea miniatură, dacă este cazul? Câte? Ce variantă de cadru sau de poster generată automat ar fi cea mai atrăgătoare pentru ca un anumit utilizator să dea clic pe ea? Ce iluminare funcționează cel mai bine? Filtrele?

Ce date pe care le avem despre comportamentul de click al altor utilizatori în trecut, din care putem face asocieri pentru a ajuta la fundamentarea acestei decizii privind miniatura la scară?

  • Creșterea ratelor de clic (CTR) ale recomandărilor de filme – semnificând implicarea
  • Ipoteza că ratele de implicare mai mari vor duce la o satisfacție și o loialitate mai mare a abonaților

Deci aceasta este o problemă foarte interesantă cu miniatura imaginii care poate avea un impact uriaș asupra probabilității ca cineva să dea clic pe un videoclip și să se uite.

Dacă obiectivul este de a maximiza această probabilitate de vizionare prin modificarea miniaturii – care sunt unele decizii de produs care trebuie luate în considerare?

Considerații privind produsul în miniaturile de imagine personalizate

Nu ne vom scufunda în fiecare dintre cazurile de utilizare de mai sus, dar haideți să ne scufundăm puțin mai mult în cel de-al doilea: Personalizarea operelor de artă / a miniaturilor

Aceasta este o funcție de personalizare bazată pe date care se află deasupra motorului de recomandare a filmelor

Considerații privind produsele

Algoritmii sunt grozavi, dar au și limitări. Un manager de produs ar trebui să se gândească întotdeauna înainte la posibilele scenarii de limită în care algoritmul ar putea să nu reușească să producă cele mai bune rezultate.

  1. În mod ideal, fiecare film ar trebui să aibă o miniatură personalizată care să maximizeze clicurile. Având în vedere că Netflix dispune de date privind comportamentul de clicuri al altor persoane cu interese similare, este o ipoteză rezonabilă să presupunem că, dacă alte persoane cu interese și istoric de vizionare similare au avut o rată mare de clicuri pe o anumită miniatură, atunci este probabil ca această miniatură de imagine să aibă performanțe pe o persoană nouă căreia nu i s-a recomandat încă acest film / miniatură.
  2. Miniatura personalizată ar trebui să ia în considerare alte filme care sunt recomandate în același timp – și care sunt acele recomandări de imagine. Să spunem că Netflix recomandă 2 filme diferite Spiderman unui utilizator, unul lângă altul – și ambele îl au pe Spiderman cu fața spre masca camerei de filmat. În unul dintre ele apare Tobey Maguire, iar în celălalt Andrew Garfield. Nu ar fi ciudat pentru utilizator să vadă ambele portrete ale lui Maguire și Garfield în rolul lui Spiderman fără mască – unul lângă altul? Ar fi ceva de luat în considerare dacă acest lucru s-ar întâmpla vreodată.
    O singură miniatură de imagine ar putea funcționa bine în mod izolat, dar s-ar putea să nu fie suficient de bună atunci când apare o pagină cu o duzină de miniaturi. Dacă toate sunt optimizate să arate la fel, atunci, ca grup, fiecare dintre ele ar putea părea mai puțin convingătoare. Așadar, va fi important să se analizeze fiecare miniatură împreună cu ce altceva este prezentat.
  3. Datele sunt grozave, dar aveți grijă la algoritmii care își fac treaba prea bine, ceea ce duce la consecințe neintenționate / rezultate fals pozitive!
    În statistică, ei numesc aceasta o eroare de tip I – sugerarea falsă (sau necorespunzătoare) a unei miniaturi de imagine care nu ar trebui să fie sugerată.

Caz concret: Priviți exemplul de mai jos al filmului Like Father, un film cu Kristen Bell. Cu toate acestea, algoritmul Netflix a făcut (fără îndoială) recomandări false de miniaturi de susținere a actorilor/actrițelor de culoare care nu reprezintă cu adevărat ceea ce a fost filmul, dar a înregistrat o rată de clicuri mai mare în rândul anumitor audiențe etnice.

Utilizatorii de culoare văd miniatura din dreapta, în ciuda faptului că aceasta nu este reprezentativă pentru ceea ce este filmul.

Deci, fiți conștienți de faptul că o experiență excesiv de optimizată/personalizată ar putea crea o experiență monotonă a utilizatorului care, în unele cazuri, poate fi înșelătoare pentru utilizator. Dorim să oferim un amestec sănătos de familiar cu neașteptat, dar, de asemenea, să prezentăm cu acuratețe conținutul utilizatorului, astfel încât acesta să nu fie indus în eroare în mod necorespunzător.

Iată un alt exemplu:

Bazându-se pe probabilitatea ridicată a ratelor de clic (CTR), Netflix a ajuns să prezinte utilizatorilor miniaturi care se potriveau cu etnia unui utilizator – – chiar și atunci când acel actor/actriță secundar(ă) (de obicei) a avut foarte puțin timp de ecran în acel film.

Recomandarea unui utilizator de culoare prezintă miniaturi care reflectă etnia sa – chiar și atunci când acea miniatură nu este neapărat reprezentativă pentru film în general.

În timp ce aceasta este o inițiativă susținută de date, este destul de evident pentru utilizator că există un sentiment de lipsă de sinceritate care poate fi înșelător în ceea ce privește o miniatură care să reprezinte cu exactitate acel film (eroare fals pozitivă de tip I).

Desigur, acest algoritm va fi probabil ajustat în timp, dar lecția de aici este să nu exagerați atunci când valorificați datele – aplicați un pic de bun simț pentru a-l echilibra.

Nu vrem să inducem utilizatorii în eroare în mod necorespunzător sau să le dăm de înțeles că sunt tratați diferit din cauza rasei lor, de exemplu.

4. În cele din urmă, algoritmul ar trebui să ia în considerare ce imagini în miniatură a văzut anterior utilizatorul în asociere cu acest film și să urmărească să ofere o experiență de utilizare consecventă, care să nu creeze confuzie.

Vrem să evităm ca utilizatorul să vadă miniaturi diferite de fiecare dată când îi apare acel film. Nu numai că acest lucru ar deruta utilizatorul, dar ar îngreuna, de asemenea, sarcina unui manager de produs de a atribui atribuirea unui clic – care imagine a dus la o rată mai mare a clicului (CTR) atunci când se tot schimbă? PM-urile trebuie să fie capabile să atribuie în mod corespunzător fiecare rezultat nou unei modificări specifice – astfel încât menținerea unei atribuiri coerente a datelor este importantă.

Atunci acestea sunt câteva lucruri pe care un manager de produs le-ar lua în considerare atunci când proiectează scenarii de caz limită și ceea ce pot rezulta din cazurile extreme de utilizare a datelor. Vorbind de date, pe baza a ce anume lucrează Netflix?

Ce date avem?

Există două părți:

  1. Ce date folosește Netflix pentru a crea aceste miniaturi/lucrări artistice personalizate?
  2. Ce date folosește Netflix pentru a direcționa aceste miniaturi create la comandă către persoana potrivită?

Pentru prima întrebare, considerați că

  • Un episod de 1 oră din Stranger Things are >86.000 de cadre video statice
  • Celor cadre video li se pot atribui individual anumite atribute care sunt folosite ulterior pentru a filtra cele mai bune miniaturi candidate prin intermediul unui set de instrumente și algoritmi numiți Aesthetic Visual Analysis (AVA). Aceasta este concepută pentru a găsi cea mai bună imagine miniaturală personalizată din fiecare cadru static al videoclipului
  • Netflix Annotation – Netflix creează metadate pentru fiecare cadru, inclusiv luminozitatea (.67), numărul de fețe (3) , tonurile pielii (.2), probabilitatea de nuditate (.03), nivelul de neclaritate a mișcării (4), simetria (.4)
  • Clasificarea imaginilor Netflix – Netflix utilizează metadatele de mai sus pentru a alege imagini specifice care sunt de cea mai bună calitate (iluminare bună, fără motion blur, probabil conține câteva fotografii ale fețelor personajelor principale dintr-un unghi decent, nu conțin conținut de marcă neautorizat etc.) și cele mai ușor de accesat

Pentru a doua întrebare referitoare la datele pe care Netflix le utilizează pentru a identifica către cine să direcționeze aceste miniaturi generate la comandă, considerați că Netflix urmărește:

  • # de filme vizionate, # de minute din fiecare emisiune vizionată
  • % de finalizare pentru fiecare videoclip/serie
  • # de voturi în sus, ce filme au fost favorizate, etc
  • % din conținutul general vizionat care se poate atribui unui anumit serial (și, prin urmare, nivelul de afinitate pe care utilizatorul îl are față de un anumit serial sau față de membrii distribuției aferente)
  • orice tendințe sezoniere sau săptămânale legate de nivelul de implicare al unui utilizator, etc.

Interesant de reținut, la jumătatea anului 2018, Netflix a încetat să mai accepte recenziile utilizatorilor ca punct de date, pe care le solicitase anterior doar pe site-ul lor. De ce? Pentru că această „caracteristică” reduce de fapt numărul de vizionări, deoarece recenziile negative descurajează utilizatorii să încerce un videoclip. Acesta este doar un alt exemplu al modului în care o nevoie de afaceri se suprapune unei nevoi populare a utilizatorilor!

Atunci Netflix are o TONĂ de date despre fiecare dintre clienții săi – de la videoclipuri vizionate la imagini accesate. Ce fac ei cu toate aceste date?

Cum folosește Netflix datele pentru a construi un univers de interese în profilul utilizatorului

Ei bine, le folosesc pentru a alcătui un profil 360 al fiecărui utilizator și pentru a indexa matematic fiecare utilizator în funcție de sute, posibil mii de atribute diferite.

Fac acest lucru pentru a încerca să grupeze persoanele cu interese similare, astfel încât să poată folosi datele de la un utilizator pentru a ajuta la prezicerea comportamentului probabil al altor utilizatori similari.

Cum funcționează această grupare a profilurilor similare de utilizatori și cum poate un manager de produs să dea sens datelor?

După ce am parcurs matematica complexă și algoritmii asociați cu matrici, vectori și analiza caracteristicilor n-dimensionale, am descoperit că cel mai simplu mod de a înțelege cum funcționează acest lucru este printr-o reprezentare 3D-spațială de 10+ dimensiuni.

Iată o captură de ecran pe care am făcut-o atunci când am folosit TensorBoard de la Google pe baza de date mNIST a cifrelor scrise de mână. Este un grafic fantezist numit graficul t-SNE – efectiv o reprezentare 3D a mult mai multor dimensiuni decât doar 3. În acest caz, arătăm 10 dimensiuni (una pentru fiecare cifră de la 1 la 10) pe un sistem de coordonate 3D asemănător unei sfere.

Un grafic t-SNE de 10 dimensiuni într-o vizualizare 3D folosind Tensorboard de la Google. Pare complexă la prima vedere, dar este de fapt destul de simplă.

Poziția fiecărei cifre scrise de mână în această reprezentare spațială poate fi descrisă de un vector – o serie de numere sub formă de coordonate pe oricât de multe dimensiuni ale caracteristicilor.

La fel, în cazul utilizatorilor Netflix, poziția fiecărui profil de utilizator în graficul de mai sus ar putea fi descrisă de valori numerice reprezentând fiecare o dimensiune individuală a interesului acelui utilizator – inclusiv genul filmului, actorii/actrițele preferate, tema filmului etc.

Reimaginarea utilizatorilor Netflix în relație matematică unii cu alții

Să ne imaginăm în diagrama cifrelor de mai sus că:

  • „6” = comedie romantică
  • „4” = thriller

Dacă un utilizator este etichetat cu „6” de către Netflix, atunci el/ea va fi plasat/plasată în vecinătatea generală a locului unde se află toți ceilalți 6 de culoare turcoaz în reprezentarea spațială de mai sus (aproape de partea de jos).

În mod similar, dacă un utilizator este etichetat „4” de către Netflix, atunci el/ea va fi plasat(ă) în vecinătatea generală a locului unde se află toți ceilalți 4 de culoare magenta în reprezentarea spațială de mai sus (aproape de partea de sus).

Să ne imaginăm că fiecare număr reprezintă un gen de film. Un utilizator căruia îi plac comediile romantice (6) ar putea fi matematic mai aproape de cineva căruia îi place Parodia (5) decât de cineva căruia îi place un Thriller (4).

Observați cum regiunea turcoaz „6” (comedie romantică) se suprapune oarecum cu regiunea gri „5”. Acest lucru ar putea fi analog cu modul în care utilizatorii cărora le plac comediile romantice ar putea, de asemenea, să le placă filmele de parodie sau satiră, deoarece ambele implică râsul.

La fel, deoarece regiunea magenta „4” (thriller) este oarecum aproape de regiunea roz „9” – această regiune roz 9 ar putea reprezenta pe cei cărora le plac filmele de acțiune – matematic mai aproape de regiunea thriller „4” decât de regiunea comedie romantică „6”.

Este logic? Deci, atunci când este reprezentată spațial, distanța dintre două profiluri de utilizator reprezintă cât de asemănătoare / diferite sunt gusturile lor. Desigur, acest lucru poate deveni infinit mai complex atunci când cuiva căruia îi plac comediile romantice îi plac și thrillerele – dar scopul acestei analogii este de a arăta ideea generală a relațiilor matematice / spațiale dintre diferite categorii.

Grupurile de interese care sunt legate între ele ar apărea mai apropiate și ar putea fi buni predictori a ceea ce îi va plăcea unui utilizator, având în vedere că utilizatorului îi place altceva în apropiere.

Acesta este modul în care Netflix, sau chiar orice companie care utilizează modele ML, creează relații între date aparent nestructurate și transformă aceste date în numere. Aceste numere singure nu au prea mult sens, dar împreună, în relație unele cu altele, încep să aibă sens.

Pentru același film Good Will Hunting de mai jos, unui utilizator identificat ca fan al comediei i se va afișa o miniatură cu Robin Williams (comediant), în timp ce unui alt utilizator identificat ca fan al comediei romantice i se va afișa o miniatură cu un sărut cu Matt Damon și Minnie Driver. Deși nu sunt perfecți, algoritmii Netflix sugerează că un astfel de nivel de personalizare bazat pe caracteristicile profilului utilizatorului crește probabilitatea ratelor de click-thru.

Așa că să rezumăm. O grămadă de miniaturi de imagini Netflix este o grămadă de date nestructurate.

Dar odată ce Netflix adnotează fiecare miniatură și atribuie metadate fiecăreia dintre ele pentru a descrie ce se află în acea miniatură – acum avem o reprezentare numerică a acestor date nestructurate.

Plotați această reprezentare numerică sub formă de vectori pe o sferă 3D, așa cum am făcut mai sus – și acum Netflix începe să formeze relații între punctele de date.

Netflix găsește apoi punctele de date care sunt relativ apropiate unele de altele și le folosește pentru a ajuta la prezicerea comportamentului viitor al clickurilor. Dacă predicțiile se dovedesc a fi proaste sau bune, ei ajustează poziționarea matematică a acestor caracteristici în mod corespunzător, până când modelul devine din ce în ce mai bun în timp.

Așa se face că Netflix transformă datele nestructurate în reprezentări matematice. Folosește distanța relațională dintre punctele de date ca bază pentru a face și a îmbunătăți recomandările de imagini în miniatură.

Ce a învățat Netflix din toate aceste date?

Acum că știm cum Netflix transformă imaginile în numere într-un model de învățare automată, care sunt câteva informații pe care Netflix le-a descoperit din toată procesarea datelor și din testele A/B pe care le-a efectuat timp de atâția ani?

Păi, pe lângă învățarea milioanelor de miniaturi individuale care au convertit utilizatorii în abonați loiali de-a lungul timpului, iată câteva lucruri suplimentare pe care Netflix le-a învățat în ceea ce privește ceea ce funcționează în ceea ce privește miniaturile:

  • Prezentați prim-planuri ale fețelor expresive din punct de vedere emoțional
  • Prezentați oamenilor răufăcători în loc de eroi
  • Nu prezentați mai mult de trei personaje

În concluzie: Netflix a implementat AI (în mare parte) în mod corect. Să învățăm din abordarea lor.

Netflix a făcut o treabă fenomenală în ceea ce privește aplicarea inteligenței artificiale, a științei datelor și a învățării automate în „modul corect” – folosind o abordare bazată pe produs, care se concentrează mai întâi pe nevoia de afaceri, apoi pe soluția de inteligență artificială, mai degrabă decât invers.

Când este aplicată corect, inteligența artificială poate face minuni.

Am văzut cât de eficiente pot fi soluțiile de inteligență artificială în personalizarea experienței în beneficiul atât al Netflix în ceea ce privește abonamentele, cât și al utilizatorilor în ceea ce privește satisfacția generală.

Am văzut, de asemenea, limitările algoritmilor care „exagerează” și am discutat exemple specifice în care algoritmul Netflix a prezentat miniaturi înșelătoare pentru persoanele de culoare, deoarece algoritmul a optimizat pentru clicuri, „păcălind” efectiv utilizatorii să dea clic pe momeală. Acest lucru s-a întâmplat chiar și atunci când acea miniatură nu reprezenta cu exactitate acel videoclip.

Niciun algoritm nu va fi perfect în a ține cont de toate nuanțele unei experiențe umane. De fapt, algoritmii concepuți să exploateze metricele vor face exact acest lucru – astfel încât este rolul managerului de produs să colaboreze cu designul sau cu alți membri ai echipei pentru a găsi modalități de a aborda aceste deficiențe ale algoritmilor.

În viitor, integrarea inteligenței artificiale în societate, precum și în spațiul întreprinderilor corporative va continua să devină din ce în ce mai răspândită.

Tehnologii pot avea tendința de a prescrie soluțiile de inteligență artificială existente, dar, de fapt, cel mai eficient mod de a adopta inteligența artificială este modul în care a făcut-o Netflix – mai întâi dintr-o perspectivă orientată spre afaceri.

Dig deep and you will see that Netflix generated supporting data before making the strategic move forward.

În timp ce lumea inteligenței artificiale, a științei datelor și a învățării automate continuă să crească, noi, managerii de produs, putem lua cu toții o lecție sau două din manualul Netflix atunci când vine vorba de implementarea corectă a soluțiilor de inteligență artificială.

YouTube video showcasing Netflix’s thumbnail generation algorithm.

Similar Posts

Lasă un răspuns

Adresa ta de email nu va fi publicată.