Jak Netflix korzysta z AI, Data Science i Machine Learning – z perspektywy produktu

author
25 minutes, 31 seconds Read
27 lutego, 2019 – 18 min read

Algorytmy uczenia maszynowego w serwisie Netflix są napędzane potrzebami biznesowymi.

Obecność AI w dzisiejszym społeczeństwie staje się coraz bardziej wszechobecna – zwłaszcza, że duże firmy, takie jak Netflix, Amazon, Facebook, Spotify i wiele innych nieustannie wdrażają rozwiązania związane z AI, które bezpośrednio wchodzą w interakcje (często za kulisami) z konsumentami na co dzień.

Po odpowiednim zastosowaniu do problemów biznesowych, te rozwiązania związane z AI mogą zapewnić naprawdę unikalne rozwiązania, które skalują się i poprawiają z czasem, tworząc znaczący wpływ zarówno dla firmy, jak i użytkownika. Ale co to znaczy „właściwie zastosować” rozwiązanie AI? Czy oznacza to, że istnieje niewłaściwa droga? Z perspektywy produktu, krótka odpowiedź brzmi tak, a my dojdziemy do tego, dlaczego tak jest w dalszej części tego artykułu, gdy będziemy kopać głębiej.

Przegląd: Po pierwsze, przedstawimy 5 przypadków użycia nauki o danych lub uczenia maszynowego w Netflixie. Następnie omówimy niektóre potrzeby biznesowe i względy techniczne, na które zwróciłby uwagę Product Manager. Następnie zanurzymy się nieco głębiej w to, co jest być może najbardziej interesującym z tych 5 przypadków użycia, ponieważ zidentyfikujemy, jaki problem biznesowy stara się rozwiązać.

1. Zbudujmy prostą sieć neuronową!

2. Drzewa decyzyjne w uczeniu maszynowym

3. Intuicyjne wprowadzenie do uczenia maszynowego

4. Równowaga między pasywnym a aktywnym A.I.

5 Use Cases of AI/Data/Machine Learning at Netflix

  1. Personalizacja rekomendacji filmów – Użytkownicy, którzy oglądają A, prawdopodobnie będą oglądać B. Jest to prawdopodobnie najbardziej znana cecha Netflixa. Netflix wykorzystuje historię oglądania innych użytkowników o podobnych upodobaniach, aby polecić Ci to, co możesz być najbardziej zainteresowany obejrzeniem w następnej kolejności, dzięki czemu pozostaniesz zaangażowany i będziesz mógł kontynuować miesięczną subskrypcję, aby uzyskać więcej.
  2. Automatyczne generowanie i personalizacja miniatur/opracowań graficznych – Korzystając z tysięcy klatek wideo z istniejącego filmu lub programu jako punktu wyjścia do generowania miniatur, Netflix dodaje adnotacje do tych obrazów, a następnie szereguje każdy obraz w celu określenia, które miniatury mają największe prawdopodobieństwo spowodowania Twojego kliknięcia. Te obliczenia opierają się na tym, w co kliknęli inni, podobni do Ciebie. Jednym z wniosków może być to, że użytkownicy, którzy lubią pewnych aktorów / gatunki filmowe są bardziej skłonni do kliknięcia miniatur z pewnymi aktorami / atrybutami obrazu.
  3. Location Scouting for Movie Production (Pre-Production) – Wykorzystanie danych do pomocy w podjęciu decyzji, gdzie i kiedy najlepiej nakręcić plan filmowy – biorąc pod uwagę ograniczenia harmonogramu (dostępność aktorów/załogi), budżet (miejsce, koszty przelotu/hotelu) i wymagania sceny produkcyjnej (dzień vs noc, prawdopodobieństwo zagrożenia pogodowego w danej lokalizacji). Zauważ, że jest to raczej problem optymalizacji danych naukowych niż model uczenia maszynowego, który dokonuje przewidywań na podstawie danych z przeszłości.
  4. Montaż filmów (postprodukcja) -Używanie danych historycznych dotyczących tego, kiedy kontrole jakości nie powiodły się w przeszłości (kiedy synchronizacja napisów z dźwiękiem/ruchami była wyłączona w przeszłości) – aby przewidzieć, kiedy ręczna kontrola jest najbardziej korzystna w tym, co w przeciwnym razie mogłoby być bardzo czasochłonnym i pracochłonnym procesem.
  5. Jakość przesyłania strumieniowego – Wykorzystanie danych o oglądalności z przeszłości do przewidywania wykorzystania przepustowości, aby pomóc firmie Netflix w podjęciu decyzji, kiedy buforować serwery regionalne w celu uzyskania szybszych czasów ładowania podczas szczytowego (spodziewanego) popytu.

Te 5 przypadków użycia / zastosowań nauki o danych lub uczenia maszynowego tylko w firmie Netflix miało tak skalowalny wpływ, że na zawsze zmieniło krajobraz technologiczny i doświadczenia użytkowników dla milionów i nie tylko. Adopcja tych rozwiązań związanych z AI będzie z czasem coraz silniejsza.

Ale zanim te przypadki użycia były tak powszechne jak dziś i używane przez użytkowników takich jak Ty i ja, ktoś lub jakaś grupa w Netflixie odpowiednio połączyła te rozwiązania AI z potrzebą biznesową. Bez tego powiązania biznesowego, te przypadki użycia byłyby po prostu pomysłami z lotu ptaka, leżącymi na dnie backlogu, jak wiele innych świetnych pomysłów. Tylko dzięki odpowiedniemu pozycjonowaniu i powiązaniu z głównym problemem biznesowym Netflixa, pomysły te stały się rzeczywistością, którą są dzisiaj.

Netflix wykorzystuje uczenie maszynowe do generowania wielu wariantów miniatur obrazów o wysokim prawdopodobieństwie kliknięcia, które nieustannie testuje metodą A/B w całej bazie użytkowników – dla każdego użytkownika i każdego filmu – wszystko po to, aby zwiększyć prawdopodobieństwo, że użytkownik kliknie i obejrzy.

Jaka jest potrzeba biznesowa/problem?

Zauważ w każdym z przypadków użycia, które zidentyfikowałem powyżej, każdy z nich jest związany z konkretną potrzebą biznesową, celem lub hipotezą.

Jest to absolutnie ważne dla każdego menedżera produktu – aby uniknąć pokusy entuzjasty technologii, który zachwyca się szczegółami nauki o danych / lub ML z powodów intelektualnych bez wyraźnego zidentyfikowania problemu lub potrzeby biznesowej – potencjalnie wykorzystując cenne zasoby techniczne bez wpływu na biznes.

Na koniec dnia, menedżerowie produktu muszą prawidłowo połączyć problem biznesowy z rozwiązaniem uczenia maszynowego danych. Chcemy uniknąć posiadania rozwiązania, które goni za problemem, w przeciwnym razie projekt straci impet w firmie: inżynierowie nie będą mieli jasności, co jest ich północną gwiazdą, interesariusze w całej organizacji nie będą kupować i przydzielać niezbędnych zasobów, aby projekt zakończył się sukcesem, itp.

Upewnij się, że istnieje problem, z którym rozwiązanie AI może być bezpośrednio powiązane

Uczenie maszynowe (ML) jest potencjalnym rozwiązaniem AI – ale musimy najpierw zdefiniować problem przed przepisaniem tego rozwiązania.

Jaki jest wynik biznesowy, który próbujemy osiągnąć za pomocą ML? Ponieważ ta podstawowa potrzeba biznesowa jest tym, co napędza parametry używanych modeli ML, jakie dane są zbierane i przetwarzane, itp. Nie robimy ML, aby zapewnić personalizację tylko dlatego, że to ciekawa technologia – musimy powiązać ją z problemem biznesowym. Data scientists są specjalistami w odkrywaniu insightów z danych, ale rolą product managera jest odpowiednie powiązanie ich z potrzebą lub problemem biznesowym i porównanie z konkurencyjnymi priorytetami.

Na przykład, entuzjasta technologii może powiedzieć:

Czy nie byłoby fajnie, gdybyś mógł przeanalizować / omówić odcinek za pomocą głosu z Netflix – a Netflix, z danymi wejściowymi z tysięcy reakcji innych użytkowników na ten odcinek, mógłby inteligentnie odpowiedzieć na twoje komentarze w dwukierunkowym dialogu tam i z powrotem?

Tak, to byłby całkiem niesamowity przypadek użycia wykorzystujący przetwarzanie języka naturalnego (NLP), aby zrozumieć Twój komentarz po odcinku w kontekście. Oprócz NLP, ten przypadek użycia wykorzystuje tekst do głosu osobowości, jak również analizy sentymentu, jak tysiące innych osób czuł o tym, co się stało w tym odcinku, lub jak czują się o określonej postaci. W istocie jest to piękne połączenie wielu najnowocześniejszych technologii w jednym przypadku użycia.

Jeśli pilotażowa wersja MVP pokazała, że użytkownicy, którzy zaangażowali się w tę nową funkcję, pozostali dłużej lub wracali częściej, albo pomogli w uzyskaniu większej ilości informacji o Netfliksie, to może to uzasadniać dalsze zasoby. Początkowa decyzja o zbudowaniu MVP zależałaby od strategicznej decyzji podjętej przez interesariuszy, niekoniecznie uszeregowanej według priorytetów metryki. To będzie zależało od strategii firmy.

Ale jak piękny jest scenariusz użytkownika, o którym mowa powyżej, jaki problem to rozwiązuje?

Jak to się odnosi do głównego problemu Netflixa, jakim jest utrzymanie użytkowników subskrybowanych co miesiąc? Jeśli jest to powiązane, jakie dowody (jakościowe lub ilościowe) mamy na poparcie tego związku?

A jeśli jest to uzasadnione rozwiązanie tego problemu, czy istnieje prostsza wersja tego rozwiązania, która mogłaby równie osiągnąć ten problem, ale być mniej złożona technicznie? Na przykład, zamiast wprowadzania głosu i wyjścia głosowego, jak złożoność samego wprowadzania tekstu i wyjścia tekstowego mogłaby wpłynąć na poziom wysiłku i wpływ na zaangażowanie użytkownika?

A co jeśli konwersacyjny interfejs AI bez części głosowej (tylko tekst) osiągnąłby 80% zamierzonego zaangażowania użytkownika, ale wymagałby tylko 40% wysiłku deweloperskiego? Czy warto byłoby rozważyć taką alternatywną drogę?

Jaki wpływ biznesowy miałoby takie rozwiązanie w porównaniu do poziomu nakładu pracy? Jak ten stosunek wypada w porównaniu z innymi konkurencyjnymi zadaniami w backlogu?

To wszystko są pytania skoncentrowane na produkcie, które PM powinien zadawać w celu dostosowania rozwiązań technologicznych do potrzeb biznesowych. Ponieważ ostatecznie to potrzeby biznesowe napędzają parametry modelu ML, a nie odwrotnie.

Spójrzmy więc jeszcze raz na rekomendacje filmowe i te spersonalizowane miniaturki – jaki jest problem lub cel biznesowy?

Because You Watched…You’ll Love… – What Problem Does Movie Recommendation Help Solve?

Movie Recommendations: Identyfikacja problemu

Problem polega na tym, że Netflix posiada ogromną kolekcję treści (ponad 100 milionów różnych produktów, według Netflix), która ciągle się zmienia i może być przytłaczająca dla użytkownika. Użytkownicy nie chcą być sfrustrowani w poszukiwaniu treści odpowiadających ich zainteresowaniom. Jaki jest więc najlepszy sposób, aby umożliwić każdemu użytkownikowi korzystanie z tych danych w sposób, który ostatecznie maksymalizuje lojalność abonamentową?

Cele produktu obejmują:

  • Wzrost / utrzymanie oglądalności pod względem # minut konsumowanych,
  • Wzrost # eksplorowanych tytułów, częstotliwość ponownego logowania
  • Przekroczenie dowolnego minimalnego progu, który firma uzna za metrykę sukcesu
  • Ogólny wzrost lojalności miesięcznej subskrypcji / spadek rezygnacji z subskrypcji

Netflix Personalized Thumbnails At Work: 2 różnych użytkowników widzi 2 różne obrazy dla tego samego filmu Ojciec chrzestny: 1 przedstawiający dramatyczne zbliżenie twarzy, drugi przedstawiający szczęśliwą, uśmiechniętą parę.

Spersonalizowana miniatura obrazu / grafika: Identifying the Problem

Ten przypadek użycia jest podzbiorem Movie Recommendations. Biorąc pod uwagę, że rekomendacje filmów są dostarczane użytkownikowi, mamy teraz kolejny problem biznesowy/użytkownikowy.

Problem: Jak (i kiedy) najlepiej przedstawić rekomendację filmu użytkownikowi w sposób, który maksymalizuje oglądalność i miesięczną lojalność subskrybentów?

Dobrze, jednym ze sposobów dostarczenia tej rekomendacji jest miniatura obrazu – ale jaki rodzaj miniatury dostarczymy? I jak bardzo jesteśmy pewni, że zmiana miniatury obrazu wpłynie pozytywnie na oglądalność lub lojalność subskrybentów?

I jak ważna jest ta miniatura? Czy mamy dane na ten temat?

Gathering Data to Support That Hypothesis

Cóż, możecie być pewni, że jakaś osoba skupiona na produkcie w Netflixie – w czasie przed 2014 rokiem – zadawała dokładnie te same pytania wewnętrznie. I ta osoba lub grupa pracowała razem (prawdopodobnie z UX i powiązanymi interesariuszami), aby zebrać badania użytkowników lub dane w innym miejscu, aby udowodnić, że rzeczywiście istniał silny związek między miniaturą obrazu a oglądalnością.

To była ich hipoteza: że dostosowanie zawartości artystycznej miniatury obrazu może mieć silny związek z oglądalnością.

Cóż, okazuje się, że już w 2014 roku Netflix przeprowadził badania pokazujące, jak ważna jest ta miniaturka:

Nick Nelson, globalny menedżer usług kreatywnych Netflixa, wyjaśnił, że firma przeprowadziła badania na początku 2014 roku, które wykazały, że grafika była „nie tylko największym czynnikiem wpływającym” na decyzję użytkownika o tym, co oglądać, ale także stanowiła ponad 82 procent ich uwagi podczas przeglądania Netflixa.

„Zauważyliśmy również, że użytkownicy spędzili średnio 1,8 sekundy na rozważaniu każdego tytułu, który został im przedstawiony podczas korzystania z Netflixa” – napisał Nelson. „Byliśmy zaskoczeni tym, jak duży wpływ miał obraz na znalezienie przez użytkownika wspaniałych treści i jak mało czasu mieliśmy na zdobycie ich zainteresowania.”

Mała, przekonująca miniaturka może oznaczać różnicę między skłonieniem użytkownika do spędzenia całego weekendu na oglądaniu najnowszego hitu Netflix Originals lub utratą zainteresowania i przejściem do konkurencyjnej usługi, takiej jak Hulu lub podobnych usług strumieniowych OTT, takich jak ESPN / Disney / HBO Go.

Więc w oparciu o badania, powyższa hipoteza okazała się bardzo prawdziwa.

OK, Thumbnails Are Important. But What Exactly Do We Tweak?

And how does an unstructured data set like a bunch of image thumbnails get fed into a digital/mathematical machine learning model? Na to drugie pytanie odpowiemy poniżej.

Po pierwsze, biorąc pod uwagę, jak ważny wpływ miała miniatura na decyzję użytkownika o obejrzeniu czegoś, jak Netflix może generować lepsze miniatury dla każdego użytkownika, aby zwiększyć szansę, że użytkownik obejrzy film?

Używanie oryginalnej grafiki filmu jako jedynej miniatury używanej dla każdej osoby najprawdopodobniej nie przyniesie najwyższych wskaźników kliknięć. Firma prawdopodobnie pozostawia kliknięcia (i czas oglądania) na stole!

Co by było, gdyby Netflix stworzył inną miniaturkę dla każdego użytkownika, która jest zoptymalizowana w celu zwiększenia współczynnika klikalności?

Jakie rzeczy w obrębie miniaturki obrazu są pod kontrolą Netflixa, które mogą dostosować, aby zwiększyć współczynnik klikalności?

Ten sam film Riverdale, ale dwie różne artystyczne miniatury obrazów, oparte na dotychczasowych preferencjach użytkownika w zakresie gatunków filmowych: romans (słodkie uśmiechy) lub thriller (poważne, dramatyczne spojrzenia).

Który aktor(y)/postać(y) powinien być na tej miniaturce, jeśli w ogóle? Ilu? Która automatycznie generowana ramka lub odmiana plakatu byłaby najbardziej kusząca dla danego użytkownika do kliknięcia? Jakie oświetlenie działa najlepiej? Filtry?

Jakie dane mamy na temat wcześniejszych zachowań kliknięć innych użytkowników, z których możemy wyciągnąć skojarzenia, aby pomóc w podjęciu decyzji dotyczącej miniaturki w skali?

  • Większy współczynnik klikalności (CTR) rekomendacji filmowych – oznaczający zaangażowanie
  • Hipoteza, że wyższy współczynnik zaangażowania doprowadzi do wyższego zadowolenia i lojalności subskrybentów

Więc jest to naprawdę interesujący problem z miniaturką obrazu, który może mieć ogromny wpływ na prawdopodobieństwo, że ktoś kliknie w wideo i obejrzy.

Jeśli celem jest zmaksymalizowanie prawdopodobieństwa obejrzenia poprzez dostosowanie miniatury – jakie są niektóre decyzje produktowe do rozważenia?

Uwagi produktowe w personalizowanych miniaturach obrazów

Nie będziemy zagłębiać się w każdy z powyższych przypadków użycia, ale zanurzmy się trochę bardziej w drugi: Personalizacja dzieł sztuki / miniatur

Jest to funkcja personalizacji oparta na danych, która znajduje się na szczycie silnika rekomendacji filmów

Uwagi dotyczące produktu

Algorytmy są świetne, ale mają ograniczenia. Menedżer produktu powinien zawsze myśleć z wyprzedzeniem o możliwych scenariuszach skrajnych, w których algorytm może nie dać najlepszych wyników.

  1. Każdy film powinien mieć idealnie spersonalizowaną miniaturkę, która maksymalizuje kliknięcia. Ponieważ Netflix posiada dane o zachowaniach kliknięć innych osób o podobnych zainteresowaniach, rozsądną hipotezą jest przypuszczenie, że jeśli inne osoby o podobnych zainteresowaniach i historii oglądania miały wysoki współczynnik kliknięć na określoną miniaturę, to jest prawdopodobne, że ta miniatura obrazu będzie działać na nowej osobie, której jeszcze nie polecono tego filmu / miniatury.
  2. Spersonalizowana miniatura powinna uwzględniać inne filmy, które są polecane w tym samym czasie – i jakie są te rekomendacje obrazu. Załóżmy, że Netflix poleca użytkownikowi dwa różne filmy o Spidermanie – oba mają Spidermana zwróconego twarzą do kamery z wyłączoną maską. W jednym jest Tobey Maguire, a w drugim Andrew Garfield. Czy nie byłoby dziwne dla użytkownika, gdyby zobaczył oba portrety Maguire’a i Garfielda jako Spidermana ze zdjętymi maskami – obok siebie? Coś, co należy wziąć pod uwagę, jeśli kiedykolwiek miałoby się to zdarzyć.
    Jedna miniatura obrazu może działać dobrze w izolacji, ale to może nie być wystarczająco dobre, gdy pojawi się strona z tuzinem miniatur. Jeśli wszystkie są zoptymalizowane tak, aby wyglądały tak samo, to jako grupa, każda z nich może wydawać się mniej atrakcyjna. Więc patrząc na każdą miniaturkę razem z tym, co jeszcze jest prezentowane będzie ważne.
  3. Dane są świetne, ale uważaj na algorytmy, które wykonują swoją pracę zbyt dobrze, powodując niezamierzone konsekwencje / fałszywe pozytywy!
    W statystyce nazywają to błędem typu I – fałszywe (lub niewłaściwe) sugerowanie miniaturki obrazu, która nie powinna być sugerowana.

Przypadek w punkcie: Wystarczy spojrzeć na poniższy przykład Like Father, filmu z Kristen Bell w roli głównej. Jednak algorytm Netflix (prawdopodobnie) dokonał fałszywych zaleceń miniatur wspierających czarnych aktorów/aktorki, którzy tak naprawdę nie reprezentują tego, o czym był film, ale doświadczyli wyższej stawki za kliknięcie wśród niektórych odbiorców etnicznych.

Czarni użytkownicy widzą miniaturkę po prawej stronie, pomimo tego, że nie jest ona reprezentatywna dla tego, o czym jest film.

Więc należy mieć świadomość, że nadmiernie zoptymalizowane / spersonalizowane doświadczenie może stworzyć monotonne doświadczenie użytkownika, które w niektórych przypadkach może być mylące dla użytkownika. Chcemy zapewnić zdrową mieszankę tego, co znane z tym, co nieoczekiwane, ale także dokładnie przedstawić zawartość użytkownikowi, aby nie został on niewłaściwie wprowadzony w błąd.

Jest jeszcze jeden przykład:

Bazując na wysokim prawdopodobieństwie klikalności (CTR), Netflix zakończył prezentowanie użytkownikom miniatur, które pasowały do pochodzenia etnicznego użytkownika – – nawet jeśli ten (zazwyczaj) drugoplanowy aktor/aktorka miał bardzo mało czasu na ekranie w tym filmie.

Po rekomendacji czarnego użytkownika wyświetlane są miniaturki odzwierciedlające jego pochodzenie etniczne – nawet jeśli ta miniaturka niekoniecznie jest reprezentatywna dla filmu w ogóle.

Jakkolwiek jest to inicjatywa poparta danymi, jest to dość oczywiste dla użytkownika, że istnieje poczucie nieszczerości, które może być mylące, jeśli chodzi o miniaturkę dokładnie reprezentującą ten film (błąd typu I false positive).

Oczywiście, ten algorytm będzie prawdopodobnie dopracowany w czasie, ale lekcja tutaj jest taka, że nie przesadzaj z kapitalizacją danych – zastosuj trochę zdrowego rozsądku, aby to zrównoważyć.

Nie chcemy wprowadzać użytkowników w błąd lub dać im do zrozumienia, że są traktowani inaczej z powodu ich rasy, na przykład.

4. Wreszcie, algorytm powinien wziąć pod uwagę, jakie miniaturki użytkownik widział wcześniej w związku z tym filmem i dążyć do zapewnienia spójnego, nie dezorientującego doświadczenia użytkownika.

Chcemy uniknąć sytuacji, w której użytkownik widzi różne miniaturki za każdym razem, gdy ten film pojawia się przed użytkownikiem. Nie tylko dezorientowałoby to użytkownika, ale także utrudniałoby Product Managerowi przypisanie atrybucji do kliknięcia – który obraz spowodował wyższy współczynnik klikalności (CTR), skoro ciągle się zmienia? PM’s muszą być w stanie prawidłowo przypisać każdy nowy wynik do konkretnej zmiany – więc utrzymanie spójnej atrybucji danych jest ważne.

Więc są to niektóre rzeczy, które menedżer produktu rozważy podczas projektowania scenariuszy skrajnych przypadków i tego, co ekstremalne przypadki użycia danych mogą spowodować. Mówiąc o danych, z czego konkretnie korzysta Netflix?

What Data Do We Have?

There’s 2 parts to this:

  1. What data does Netflix use to create these personalized thumbnails / artwork?
  2. What data does Netflix use target these custom-created thumbnails to the appropriate individual?

W przypadku pierwszego pytania rozważ, że

  • Godzinny odcinek Stranger Things ma >86 000 statycznych klatek wideo
  • Każda z tych klatek wideo może być indywidualnie przypisana do pewnych atrybutów, które są później używane do filtrowania najlepszych kandydatów na miniatury za pomocą zestawu narzędzi i algorytmów zwanych Estetyczną Analizą Wizualną (AVA). Ma to na celu znalezienie najlepszego niestandardowego obrazu miniaturki z każdej statycznej klatki wideo
  • Anotacja Netflix – Netflix tworzy metadane dla każdej klatki, w tym jasność (.67), # twarzy (3) , odcienie skóry (.2), prawdopodobieństwo nagości (.03), poziom rozmycia ruchu (4), symetria (.4)
  • Netflix Image Ranking – Netflix używa meta danych z góry, aby wybrać konkretne obrazy, które są najwyższej jakości (dobre oświetlenie, brak rozmycia ruchu, prawdopodobnie zawiera jakieś ujęcie twarzy głównych postaci pod przyzwoitym kątem, nie zawiera nieautoryzowanych markowych treści itp.) i najbardziej klikalne

Na drugie pytanie, jakie dane Netflix wykorzystuje do określenia, do kogo kierować te niestandardowe wygenerowane miniatury, rozważ, że Netflix śledzi:

  • # obejrzanych filmów, # minut każdego obejrzanego serialu
  • % ukończenia dla każdego filmu/serialu
  • # głosów poparcia, które filmy były faworyzowane, itp
  • % ogólnej oglądanej zawartości, którą można przypisać konkretnemu serialowi (a zatem poziom pokrewieństwa, jaki użytkownik ma do konkretnego serialu lub powiązanych z nim członków obsady)
  • wszelkie sezonowe lub tygodniowe trendy związane z poziomem zaangażowania użytkownika, itp.

Interesujące, aby zauważyć, w połowie 2018 roku Netflix przestał akceptować recenzje użytkowników jako punkt danych, który wcześniej zabiegał tylko na swojej stronie internetowej. Dlaczego? Ponieważ ta „funkcja” faktycznie zmniejsza oglądalność, ponieważ negatywne recenzje zniechęcają użytkowników do wypróbowania filmu. To tylko kolejny przykład tego, jak potrzeba biznesowa zastępuje popularną potrzebę użytkownika!

Więc Netflix ma mnóstwo danych o każdym ze swoich klientów – od obejrzanych filmów do klikniętych zdjęć. Co robią z tymi wszystkimi danymi?

How Netflix Uses Data to Construct A Universe of User Profile Interests

No cóż, używają ich do stworzenia profilu 360 każdego użytkownika i matematycznego indeksowania każdego użytkownika według setek, prawdopodobnie tysięcy różnych atrybutów.

Robią to, aby spróbować zgrupować ludzi o podobnych zainteresowaniach razem, dzięki czemu mogą wykorzystać dane od jednego użytkownika, aby pomóc przewidzieć prawdopodobne zachowanie innych podobnych użytkowników.

Jak to grupowanie podobnych profili użytkowników działa i jak menedżer produktu ma sens z tych danych?

Po przejściu przez złożoną matematykę i algorytmy związane z macierzami, wektorami i n-wymiarową analizą cech, stwierdziłem, że najłatwiejszym sposobem na zrozumienie, jak to działa, jest trójwymiarowa reprezentacja przestrzenna o ponad 10 wymiarach.

Tutaj jest zrzut ekranu, który zrobiłem podczas korzystania z Google TensorBoard na bazie danych mNIST odręcznego pisma cyfrowego. Jest to fantazyjny wykres zwany wykresem t-SNE – efektywnie reprezentacja 3D o wiele większej liczby wymiarów niż tylko 3. W tym przypadku pokazujemy 10 wymiarów (po jednym dla każdej cyfry od 1 do 10) na układzie współrzędnych przypominającym kulę 3D.

Wykres t-SNE 10 wymiarów w widoku 3D przy użyciu Google’s Tensorboard. Na początku wygląda na skomplikowany, ale w rzeczywistości jest dość prosty.

Położenie każdej ręcznie napisanej cyfry w tej reprezentacji przestrzennej można opisać wektorem – podobnym do współrzędnych szeregiem liczb w dowolnej liczbie wymiarów cech.

Podobnie, w przypadku użytkowników Netflixa, położenie każdego profilu użytkownika na powyższym wykresie można opisać wartościami liczbowymi, z których każda reprezentuje indywidualny wymiar zainteresowań tego użytkownika – w tym gatunek filmu, ulubionych aktorów/aktorki, temat filmu itp.

Reimagining Netflix Users in Mathematical Relation To Each Other

Udawajmy na powyższym wykresie cyfr, że:

  • „6” = komedia romantyczna
  • „4” = thriller

Jeśli użytkownik jest oznaczony przez Netflix jako „6”, to zostanie on umieszczony w ogólnym sąsiedztwie miejsca, w którym znajdują się wszystkie inne turkusowe szóstki w powyższej reprezentacji przestrzennej (w pobliżu dołu).

Analogicznie, jeśli użytkownik zostanie oznaczony przez Netflix jako „4”, zostanie umieszczony w ogólnym sąsiedztwie miejsca, w którym znajdują się wszystkie inne magentowe „4” w powyższej reprezentacji przestrzennej (w pobliżu góry).

Upozorujmy, że każda liczba reprezentuje gatunek filmowy. Użytkownik, który lubi komedie romantyczne (6) może być matematycznie bliższy komuś, kto lubi parodie (5) niż komuś, kto lubi thrillery (4).

Zauważ, jak turkusowy region „6” (komedia romantyczna) nieco pokrywa się z szarym regionem „5”. Może to być analogiczne do tego, jak użytkownicy, którzy lubią komedie romantyczne, mogą również lubić parodie lub filmy satyryczne, ponieważ oba wiążą się ze śmiechem.

Podobnie, ponieważ magentowy region „4” (thriller) jest nieco blisko różowego regionu „9” – ten różowy region 9 mógłby reprezentować tych, którzy lubią filmy akcji – matematycznie bliżej regionu thrillera „4” niż komedii romantycznej „6”.

Czy to ma sens? Tak więc, gdy jest reprezentowany przestrzennie, odległość między dwoma profilami użytkowników reprezentuje jak podobne / różne są ich gusta. Oczywiście, może to być nieskończenie bardziej skomplikowane, gdy ktoś, kto lubi komedie romantyczne, lubi również thrillery – ale celem tej analogii jest pokazanie ogólnej idei matematycznych / przestrzennych relacji między różnymi kategoriami.

Grupy zainteresowań, które są ze sobą powiązane, pojawią się bliżej siebie i mogą być dobrymi predyktorami tego, co użytkownik będzie lubił, biorąc pod uwagę, że użytkownik lubi coś innego w pobliżu.

To jest sposób, w jaki Netflix, lub naprawdę każda firma wykorzystująca modele ML, tworzy relacje między pozornie niestrukturalnymi danymi i przekształcając te dane w liczby. Liczby te same w sobie nie mają większego sensu, ale razem, w relacji do siebie, zaczynają mieć sens.

Dla tego samego filmu Good Will Hunting poniżej, jednemu użytkownikowi zidentyfikowanemu jako fan komedii zostanie pokazana miniatura Robina Williamsa (komika), podczas gdy innemu użytkownikowi zidentyfikowanemu jako fan komedii romantycznej zostanie pokazana miniatura pocałunku z udziałem Matta Damona i Minnie Driver. Choć nie jest to rozwiązanie idealne, algorytmy Netflixa sugerują, że taki poziom personalizacji oparty na charakterystyce profilu użytkownika zwiększa prawdopodobieństwo klikalności.

Podsumujmy. Zbiór miniatur obrazów Netflixa to zbiór nieustrukturyzowanych danych.

Ale gdy Netflix opatrzy każdą miniaturę adnotacją i przypisze do każdej z nich metadane, aby opisać, co jest w tej miniaturze – teraz mamy numeryczną reprezentację tych nieustrukturyzowanych danych.

Plot tej numerycznej reprezentacji w formie wektorów na sferze 3D, tak jak zrobiliśmy to powyżej – i teraz Netflix zaczyna tworzyć relacje pomiędzy punktami danych.

Netflix następnie znajduje punkty danych, które są stosunkowo blisko siebie i używa ich do pomocy w przewidywaniu przyszłego zachowania kliknięć. Jeśli przewidywania okażą się złe lub dobre, dostosowują matematyczne pozycjonowanie tych cech odpowiednio, aż model staje się coraz lepszy w czasie.

Więc w ten sposób Netflix zamienia nieustrukturyzowane dane w matematyczne reprezentacje. Wykorzystuje relacyjną odległość między punktami danych jako podstawę do tworzenia i ulepszania rekomendacji miniatur obrazów.

Czego Netflix nauczył się z tych wszystkich danych?

Teraz, gdy wiemy, jak Netflix zamienia obrazy w liczby w modelu uczenia maszynowego, jakie spostrzeżenia ma Netflix dzięki przetwarzaniu danych i testom A/B przeprowadzanym od wielu lat?

Oprócz nauki milionów pojedynczych miniaturek, które z czasem przekształciły użytkowników w lojalnych subskrybentów, oto kilka dodatkowych rzeczy, których Netflix się nauczył, jeśli chodzi o to, co działa w zakresie miniaturek:

  • Pokazuj zbliżenia emocjonalnie wyrazistych twarzy
  • Pokazuj ludziom czarne charaktery zamiast bohaterów
  • Nie pokazuj więcej niż trzy postacie

W podsumowaniu: Netflix wdrożył AI (w większości) we właściwy sposób. Let’s Learn From Their Approach.

Netflix wykonał fenomenalną pracę, stosując sztuczną inteligencję, naukę o danych i uczenie maszynowe we „właściwy sposób” – wykorzystując podejście oparte na produktach, które skupia się najpierw na potrzebach biznesowych, a następnie na rozwiązaniach sztucznej inteligencji, a nie na odwrót.

Właściwie zastosowana sztuczna inteligencja może zdziałać cuda.

Widzieliśmy, jak skuteczne mogą być rozwiązania AI w personalizacji doświadczeń z korzyścią zarówno dla Netflixa pod względem subskrypcji, jak i dla użytkowników pod względem ogólnego zadowolenia.

Widzieliśmy również ograniczenia algorytmów, które „przesadzają” i omówiliśmy konkretne przykłady, w których algorytm Netflixa prezentował mylące miniaturki dla osób kolorowych, ponieważ algorytm optymalizował kliknięcia, skutecznie „oszukując” użytkowników, aby kliknęli w przynętę. Stało się to nawet wtedy, gdy ta miniaturka nie reprezentowała dokładnie tego wideo.

Żaden algorytm nie będzie idealny w rozliczaniu wszystkich niuansów ludzkiego doświadczenia. W rzeczywistości algorytmy zaprojektowane w celu wykorzystania metryk będą robić właśnie to – więc rolą menedżera produktu jest współpraca z projektowaniem lub innymi członkami zespołu w celu znalezienia sposobów na rozwiązanie tych braków w algorytmach.

Dalej, integracja AI w społeczeństwie, jak również w przestrzeni korporacyjnej przedsiębiorstwa będzie coraz bardziej powszechna.

Technologowie mogą mieć tendencję do przepisywania istniejących rozwiązań AI, ale tak naprawdę najbardziej skutecznym sposobem na przyjęcie AI jest sposób, w jaki zrobił to Netflix – najpierw z perspektywy biznesowej.

Sięgnij głęboko, a zobaczysz, że Netflix wygenerował dane pomocnicze przed wykonaniem strategicznego ruchu naprzód.

Ponieważ świat AI, nauki o danych i uczenia maszynowego wciąż się rozwija, my, menedżerowie produktu, możemy wziąć lekcję lub dwie z podręcznika Netflixa, jeśli chodzi o prawidłowe wdrażanie rozwiązań AI.

Wideo z YouTube przedstawiające algorytm generowania miniatur Netflixa.

Przykłady.

Similar Posts

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.