Cómo utiliza Netflix la IA, la ciencia de los datos y el aprendizaje automático – Desde una perspectiva de producto

author
28 minutes, 20 seconds Read
27 de febrero, 2019 – 18 min read

Los algoritmos de aprendizaje automático de Netflix se rigen por las necesidades del negocio.

La presencia de la IA en la sociedad actual es cada vez más omnipresente, sobre todo porque grandes empresas como Netflix, Amazon, Facebook, Spotify y muchas más despliegan continuamente soluciones relacionadas con la IA que interactúan directamente (a menudo entre bastidores) con los consumidores todos los días.

Cuando se aplican correctamente a los problemas empresariales, estas soluciones relacionadas con la IA pueden proporcionar soluciones realmente únicas que se amplían y mejoran con el tiempo, creando un impacto significativo tanto para la empresa como para el usuario. Pero, ¿qué significa «aplicar correctamente» una solución de IA? ¿Significa que hay una forma incorrecta? Desde la perspectiva del producto, la respuesta corta es sí, y llegaremos al porqué más adelante en este artículo cuando profundicemos en ello.

Overview: En primer lugar, esbozaremos 5 casos de uso de la ciencia de datos o el aprendizaje automático en Netflix. A continuación, discutiremos algunas necesidades de negocio frente a las consideraciones técnicas que un Gerente de Producto miraría. A continuación, profundizaremos un poco más en el que quizás sea el más interesante de estos 5 casos de uso al identificar qué problema de negocio busca resolver.

1. Construyamos una simple Red Neural¡

2. Árboles de Decisión en el Aprendizaje Automático

3. Una introducción intuitiva al Aprendizaje Automático

4. El equilibrio de la Inteligencia Artificial Pasiva vs. Activa.

5 Casos de uso de la IA/datos/aprendizaje automático en Netflix

  1. Personalización de las recomendaciones de películas: los usuarios que ven A es probable que vean B. Esta es quizás la característica más conocida de Netflix. Netflix utiliza el historial de visionado de otros usuarios con gustos similares para recomendar lo que más te puede interesar ver a continuación, de manera que te mantengas enganchado y continúes con tu suscripción mensual por más.
  2. Generación automática y personalización de miniaturas / ilustraciones – Utilizando miles de fotogramas de vídeo de una película o programa existente como punto de partida para la generación de miniaturas, Netflix anota estas imágenes y luego clasifica cada una de ellas en un esfuerzo por identificar qué miniaturas tienen la mayor probabilidad de resultar en tu clic. Estos cálculos se basan en lo que otras personas similares a ti han hecho clic. Un hallazgo podría ser que los usuarios que les gustan ciertos actores / géneros de películas son más propensos a hacer clic en las miniaturas con ciertos actores / atributos de la imagen.
  3. Location Scouting for Movie Production (Pre-Production) – El uso de datos para ayudar a decidir sobre dónde y cuándo es mejor rodar un set de película – dadas las limitaciones de programación (disponibilidad de actores / equipo), el presupuesto (lugar, los costos de vuelo / hotel), y los requisitos de la escena de producción (día frente a la noche de tiro, la probabilidad de riesgos de eventos climáticos en un lugar). Obsérvese que se trata más de un problema de optimización de la ciencia de datos que de un modelo de aprendizaje automático que hace predicciones basadas en datos anteriores.
  4. Edición de películas (postproducción) – Utilización de datos históricos de cuándo han fallado las comprobaciones de control de calidad en el pasado (cuando la sincronización de los subtítulos con el sonido/los movimientos estaba mal en el pasado) – para predecir cuándo es más beneficiosa una comprobación manual en lo que, de otro modo, podría ser un proceso muy lento y laborioso.
  5. Calidad de streaming – Utilizar los datos de visionado pasados para predecir el uso del ancho de banda para ayudar a Netflix a decidir cuándo almacenar en caché los servidores regionales para conseguir tiempos de carga más rápidos durante los picos de demanda (esperados).

Estos 5 casos de uso / aplicaciones de la ciencia de los datos o el aprendizaje automático solo en Netflix han tenido un impacto tan escalable que han cambiado para siempre el panorama tecnológico y la experiencia de los usuarios para millones de personas y más por venir. La adopción de estas soluciones relacionadas con la IA sólo va a ser más fuerte con el tiempo.

Pero antes de que estos casos de uso fueran tan comunes como lo son hoy y utilizados por usuarios como tú y yo, alguien o algún grupo dentro de Netflix conectó adecuadamente estas soluciones de IA con una necesidad de negocio. Sin este vínculo con el negocio, estos casos de uso no serían más que ideas fantasiosas que se quedarían en el fondo de la cartera de pedidos, como tantas otras grandes ideas. Sólo a través del posicionamiento adecuado y la conexión con el problema de negocio principal de Netflix, estas ideas se convirtieron en la realidad que son hoy.

Netflix utiliza el aprendizaje automático para generar muchas variaciones de miniaturas de imágenes de alta probabilidad de clic que prueba implacable y continuamente A/B en toda su base de usuarios – para cada usuario y cada película – todo para aumentar la probabilidad de que usted haga clic y vea.

¿Cuál es la necesidad/problema del negocio?

Nótese que en cada uno de los casos de uso que he identificado anteriormente, cada uno está asociado a una necesidad, objetivo o hipótesis de negocio específica.

Esto es absolutamente importante para cualquier gerente de producto – para evitar la tentación del entusiasta de la tecnología que se maravilla en los detalles de la ciencia de datos / o ML por razones intelectuales sin identificar claramente el problema o la necesidad de negocio – potencialmente utilizando valiosos recursos técnicos sin impacto en el negocio.

Al final del día, los gerentes de producto necesitan conectar adecuadamente un problema de negocio a una solución de aprendizaje automático de datos. Queremos evitar tener una solución que está persiguiendo un problema, de lo contrario el proyecto perderá impulso dentro de la empresa: los ingenieros no tendrán claro cuál es su estrella del norte, las partes interesadas de toda la organización no comprarán y asignarán los recursos necesarios para que el proyecto sea un éxito, etc.

Asegúrese de que hay un problema al que se puede conectar directamente una solución de IA

El aprendizaje automático (ML) es una solución potencial de IA – pero tenemos que definir primero el problema antes de prescribir esa solución.

¿Cuál es el resultado empresarial que estamos tratando de lograr con ML? Porque esta necesidad de negocio principal es la que impulsa los parámetros de los modelos de ML utilizados, qué datos se recogen y procesan, etc. No hacemos ML para proporcionar personalización sólo porque sea una tecnología interesante, sino que tenemos que vincularlo a un problema de negocio. Los científicos de datos son especialistas en descubrir ideas a partir de los datos, pero es el papel del gerente de producto para vincularlo adecuadamente a una necesidad o problema de negocio y compararlo con las prioridades de la competencia.

Por ejemplo, un entusiasta de la tecnología podría decir:

¿No sería genial si pudieras analizar / debatir un episodio usando la voz con Netflix – y Netflix, con la entrada de datos de las reacciones de miles de otros usuarios a ese episodio, podría responder inteligentemente a tus comentarios en un diálogo bidireccional de ida y vuelta?

Sí, eso sería un caso de uso bastante impresionante aprovechando el procesamiento del lenguaje natural (PNL) para entender tu comentario posterior al episodio en su contexto. Además del PNL, este caso de uso utiliza personalidades de texto a voz, así como el análisis de sentimiento de cómo miles de personas se sintieron acerca de lo que sucedió en ese episodio, o cómo se sienten acerca de un determinado personaje. De hecho, se trata de una hermosa fusión de múltiples tecnologías de vanguardia en un solo caso de uso.

Si una versión piloto MVP de esto demostrara que los usuarios que se involucraron con su nueva característica se quedaron más tiempo o volvieron más a menudo o ayudaron a impulsar más boca a boca sobre Netflix, entonces podría justificar más recursos. La decisión inicial de construir ese MVP dependería de la decisión estratégica tomada por las partes interesadas, no necesariamente priorizada por la métrica. Eso dependerá de la estrategia de la empresa.

Pero por muy bonito que sea el escenario de los usuarios, ¿qué problema resuelve eso?

¿Cómo se relaciona con el problema principal de Netflix de mantener a los usuarios suscritos cada mes? Si está relacionado, ¿qué pruebas (cualitativas o cuantitativas tenemos para apoyar esa relación?

Y si se trata de una solución legítima a ese problema, ¿hay una versión más simple de esta solución que podría igualmente lograr ese problema pero ser menos compleja técnicamente? Por ejemplo, en lugar de la entrada de voz y la salida de voz, ¿cómo podría la complejidad de sólo la entrada de texto y la salida de texto afectar el nivel de esfuerzo y el impacto en el compromiso del usuario?

¿Qué pasa si una interfaz de IA conversacional sin la parte de voz (sólo texto) logró el 80% del compromiso del usuario previsto, pero sólo requirió el 40% del esfuerzo de desarrollo? ¿Valdría la pena considerar esa vía alternativa?

¿Qué impacto empresarial tendría esa solución en comparación con el nivel de esfuerzo? ¿Cómo se compara esta proporción con la de otras tareas que compiten en el backlog?

Todas estas son preguntas centradas en el producto que un PM debería estar haciendo para alinear las soluciones tecnológicas con las necesidades del negocio. Porque, en última instancia, es la necesidad de negocio la que impulsa los parámetros de un modelo de ML, y no al revés.

Así que veamos una vez más las recomendaciones de películas y esas miniaturas personalizadas: ¿cuál es el problema o el objetivo de negocio?

Porque has visto… te gustará… – ¿Qué problema ayuda a resolver la recomendación de películas?

Recomendaciones de películas: Identificando el problema

Aquí el problema es que Netflix tiene una enorme colección de contenidos (más de 100 millones de productos diferentes, según Netflix) que cambia constantemente y puede ser abrumador para un usuario consumir. Los usuarios no quieren verse frustrados a la hora de encontrar contenidos relevantes para sus intereses. Entonces, ¿cuál es la mejor manera de permitir que cada usuario consuma esos datos de una manera que, en última instancia, maximice la fidelidad de la suscripción?

Los objetivos del producto incluyen:

  • Aumentar / mantener la audiencia en términos de # minutos consumidos,
  • Aumentar el # de títulos explorados,
  • Superar cualquier umbral mínimo que la empresa determine como métrica de éxito
  • Aumento global de la fidelidad de la suscripción mensual / disminución de las cancelaciones de suscriptores

Netflix Personalized Thumbnails At Work: 2 Usuarios diferentes viendo 2 imágenes diferentes para la misma película del Padrino: 1 mostrando un primer plano dramático de un rostro, el otro mostrando una pareja feliz y sonriente.

Imagen personalizada en miniatura / obra de arte: Identificación del problema

Este caso de uso es un subconjunto de las recomendaciones de películas. Dado que las recomendaciones de películas se proporcionan al usuario, ahora tenemos otro problema de negocio/usuario.

Problema: ¿Cómo (y cuándo) presentamos mejor esa recomendación de películas al usuario de forma que se maximice el número de espectadores y la fidelidad de los suscriptores mensuales?

Bueno, una forma de proporcionar esa recomendación es a través de una imagen en miniatura – pero ¿qué tipo de miniatura proporcionamos? ¿Y hasta qué punto estamos seguros de que ajustar una imagen en miniatura afectará a la audiencia o a la fidelidad de los suscriptores de forma positiva?

¿Y qué importancia tiene esa miniatura? ¿Tenemos datos para eso?

Recogiendo datos para apoyar esa hipótesis

Bueno, puedes estar seguro de que algún individuo centrado en el producto en Netflix -en un momento anterior a 2014- estaba haciendo exactamente estas mismas preguntas internamente. Y ese individuo o grupo trabajó en conjunto (probablemente con UX y partes interesadas relacionadas) para reunir estudios de usuarios o datos en otros lugares, para demostrar que efectivamente había un fuerte vínculo entre una imagen en miniatura y la audiencia.

Esa era su hipótesis: que ajustar el contenido artístico de una imagen en miniatura podría tener un fuerte vínculo con la audiencia.

Pues bien, resulta que en 2014, Netflix realizó estudios que mostraban lo importante que es esa miniatura:

Nick Nelson, director global de servicios creativos de Netflix, explicó que la empresa realizó una investigación a principios de 2014 en la que se descubrió que el material gráfico «no solo era el que más influía» en la decisión de un usuario sobre lo que iba a ver, sino que también constituía más del 82% de su atención mientras navegaba por Netflix.

«También vimos que los usuarios pasaban una media de 1,8 segundos considerando cada título que se les presentaba mientras estaban en Netflix», escribió Nelson. «Nos sorprendió el impacto que tenía una imagen para que un miembro encontrara un gran contenido, y el poco tiempo que teníamos para captar su interés.»

Una pequeña y convincente miniatura podría significar la diferencia entre conseguir que pases todo el fin de semana viendo el último éxito de Originals de Netflix o perder el interés y rebotar a un servicio de la competencia como Hulu o servicios de streaming OTT similares como ESPN / Disney / HBO Go.

Así que en base a los estudios, se demostró que la hipótesis anterior era muy cierta.

OK, las miniaturas son importantes. Pero, ¿qué es exactamente lo que ajustamos?

¿Y cómo se introduce un conjunto de datos no estructurados como un montón de miniaturas de imágenes en un modelo de aprendizaje automático digital/matemático? Responderemos a esta segunda pregunta más adelante.

En primer lugar, teniendo en cuenta lo importante que era la miniatura para la decisión de un usuario de ver algo, ¿cómo puede Netflix generar mejores miniaturas para cada usuario para aumentar la probabilidad de que un usuario vea un vídeo?

Usar el arte original de la película como la única miniatura utilizada para cada persona muy probablemente no producirá las mayores tasas de clics. ¿Qué pasaría si Netflix creara una miniatura diferente para cada usuario que estuviera optimizada para aumentar el porcentaje de clics?

Misma película de Riverdale, pero dos miniaturas de imágenes artísticas diferentes, basadas en la preferencia pasada del usuario por los géneros de películas románticas (sonrisas dulces) o de suspense (miradas serias y dramáticas).

¿Qué actor(es)/personaje(s) debería(n) estar en esa miniatura, si es que hay alguno? ¿Cuántos? ¿Qué variación de marco o póster autogenerado sería más atractivo para que un usuario concreto hiciera clic en él? ¿Qué iluminación funciona mejor? Filtros?

¿Qué datos tenemos sobre el comportamiento de clicks de otros usuarios en el pasado podemos sacar asociaciones para ayudar a informar esta decisión de miniaturas a escala?

  • Aumentar las tasas de clics (CTR) de las recomendaciones de películas – lo que significa compromiso
  • Hipótesis de que las tasas de compromiso más altas conducirán a una mayor satisfacción y lealtad de los suscriptores

Así que este es un problema realmente interesante con la imagen en miniatura que puede tener un gran impacto en la probabilidad de que alguien haga clic en un vídeo y lo vea.

Si el objetivo es maximizar esa probabilidad de ver la película ajustando la miniatura – ¿cuáles son algunas de las decisiones de producto a tener en cuenta?

Consideraciones de producto en las miniaturas de imágenes personalizadas

No nos sumergiremos en cada uno de los casos de uso anteriores, pero vamos a profundizar un poco más en el segundo: Personalización de obras de arte / miniaturas

Se trata de una función de personalización basada en datos que se asienta sobre el motor de recomendación de películas

Consideraciones sobre el producto

Los algoritmos son geniales, pero tienen limitaciones. Un gerente de producto siempre debe pensar por adelantado en posibles escenarios de casos límite en los que el algoritmo puede fallar para producir los mejores resultados.

  1. Cada película debería tener idealmente una miniatura personalizada que maximice los clics. Dado que Netflix tiene datos sobre el comportamiento de los clics de otras personas con intereses similares, es una hipótesis razonable para adivinar que si otras personas con intereses similares y ver la historia tenía una alta tasa de clic a través de una determinada miniatura, entonces es probable que esta imagen miniatura llevará a cabo será en una nueva persona que aún no se ha recomendado esta película / miniatura.
  2. La miniatura personalizada debe tener en cuenta otras películas que se están recomendando al mismo tiempo – y lo que esas recomendaciones de imagen son. Digamos que Netflix está recomendando 2 diferentes películas de Spiderman a un usuario de lado a lado – y ambos tienen Spiderman frente a la máscara de la cámara fuera. Uno es Tobey Maguire y el otro es Andrew Garfield. ¿No sería extraño para el usuario ver los dos retratos de Maguire y Garfield como Spiderman sin máscara, uno al lado del otro? Algo a tener en cuenta si alguna vez ocurriera eso.
    Una imagen en miniatura podría funcionar bien de forma aislada, pero puede no ser suficiente cuando aparezca una página con una docena de miniaturas. Si todas están optimizadas para tener el mismo aspecto, entonces, como grupo, cada una puede parecer menos convincente. Así que mirar cada miniatura junto con lo que se presenta será importante.
  3. ¡Los datos son geniales, pero cuidado con los algoritmos que hacen su trabajo demasiado bien, dando lugar a consecuencias no deseadas / falsos positivos!
    En estadística, llaman a esto un error de Tipo I – sugerir falsamente (o incorrectamente) una miniatura de imagen que no debería ser sugerida.

Ejemplo: Basta con mirar el ejemplo de abajo de Like Father, una película protagonizada por Kristen Bell. Sin embargo, el algoritmo de Netflix (podría decirse que) hizo falsas recomendaciones de miniaturas de apoyo a actores/actrices negros que no representan realmente de lo que trata la película, pero sí experimentaron una mayor tasa de clics entre ciertas audiencias étnicas.

Los usuarios negros están viendo la miniatura de la derecha, a pesar de que no es representativa de lo que trata la película.

Así que hay que tener en cuenta que una experiencia demasiado optimizada / personalizada podría crear una experiencia de usuario monótona que, en algunos casos, puede ser engañosa para el usuario. Queremos proporcionar una mezcla saludable de lo familiar con lo inesperado, pero también retratar con precisión el contenido al usuario para que no sea engañado indebidamente.

Aquí hay otro ejemplo:

Basado en la alta probabilidad de click-thru-rates (CTRs), Netflix terminó presentando miniaturas a los usuarios que coincidían con el origen étnico de un usuario – – incluso cuando ese (por lo general) actor/actriz secundario tenía muy poco tiempo de pantalla en esa película.

La recomendación de un usuario negro muestra miniaturas que reflejan su etnia – incluso cuando esa miniatura no es necesariamente representativa de la película en general.

Aunque se trata de una iniciativa basada en datos, es bastante obvio para el usuario que hay una sensación de falta de sinceridad que puede ser engañosa en cuanto a que una miniatura represente con precisión esa película (error de falso positivo de tipo I).

Por supuesto, este algoritmo probablemente se afinará con el tiempo, pero la lección aquí es que no hay que exagerar al capitalizar los datos – aplicar algo de sentido común para equilibrarlo.

No queremos engañar indebidamente a los usuarios ni hacerles saber que están siendo tratados de forma diferente debido a su raza, por ejemplo.

4. Por último, el algoritmo debería tener en cuenta qué imágenes en miniatura vio el usuario previamente en asociación con esta película y tratar de proporcionar una experiencia de usuario consistente y no confusa.

Queremos evitar que el usuario vea diferentes miniaturas cada vez que esa película aparezca ante el usuario. Esto no sólo confundiría al usuario, sino que también dificultaría a un gestor de productos asignar la atribución a un clic: ¿qué imagen dio lugar a un mayor índice de clics (CTR) cuando cambia constantemente? Los PM’s necesitan ser capaces de atribuir adecuadamente cada nuevo resultado a un cambio específico – por lo que mantener una atribución de datos consistente es importante.

Así que esas son algunas de las cosas que un gerente de producto consideraría al diseñar escenarios de casos extremos y lo que los casos extremos de uso de datos pueden resultar. Hablando de datos, ¿con qué trabaja específicamente Netflix?

¿Qué datos tenemos?

Hay 2 partes en esto:

  1. ¿Qué datos utiliza Netflix para crear estas miniaturas / ilustraciones personalizadas?
  2. ¿Qué datos utiliza Netflix para dirigir estas miniaturas creadas a medida al individuo apropiado?

Para la primera pregunta, considere que

  • Un episodio de 1 hora de Stranger Things tiene >86.000 fotogramas de vídeo estáticos
  • A cada uno de estos fotogramas de vídeo se le pueden asignar individualmente ciertos atributos que más tarde se utilizan para filtrar a los mejores candidatos a miniaturas a través de un conjunto de herramientas y algoritmos llamados Análisis Visual Estético (AVA). Esto está diseñado para encontrar la mejor imagen en miniatura personalizada de cada fotograma estático del vídeo
  • Anotación de Netflix – Netflix crea metadatos para cada fotograma incluyendo el brillo (.67), el número de caras (3) , los tonos de piel (.2), la probabilidad de desnudez (.03), el nivel de desenfoque de movimiento (4), la simetría (.4)
  • Clasificación de imágenes de Netflix: Netflix utiliza los metadatos anteriores para elegir las imágenes específicas de mayor calidad (buena iluminación, sin desenfoque de movimiento, que probablemente contengan alguna toma de la cara de los personajes principales desde un ángulo decente, que no contengan contenido de marca no autorizado, etc.) y más clicables

Para la segunda pregunta de qué datos utiliza Netflix para identificar a quién dirigir estas miniaturas generadas a medida, considere que Netflix rastrea:

  • # de películas vistas, # de minutos de cada programa visto
  • % de finalización de cada video/serie
  • # de upvotes, qué películas fueron favorecidas, etc
  • % del contenido general de los relojes que es atribuible cualquier espectáculo específico (y por lo tanto el nivel de afinidad que el usuario tiene a un espectáculo específico o miembros del reparto relacionados)
  • cualquier tendencia estacional o semanal relacionada con el nivel de compromiso de un usuario, etc.

Es interesante tener en cuenta que, a mediados de 2018, Netflix dejó de aceptar las reseñas de los usuarios como punto de datos, que antes solo solicitaba en su sitio web. ¿Por qué? Porque esta «característica» en realidad reduce el número de espectadores, ya que las críticas negativas desaniman a los usuarios a probar un vídeo. Este es otro ejemplo más de cómo una necesidad comercial se sobrepone a una necesidad popular de los usuarios.

Así que Netflix tiene un MONTÓN de datos sobre cada uno de sus clientes, desde los vídeos vistos hasta las imágenes pulsadas. ¿Qué hacen con todos esos datos?

Cómo utiliza Netflix los datos para construir un universo de intereses de perfil de usuario

Bueno, los utilizan para elaborar un perfil 360 de cada usuario e indexar matemáticamente a cada usuario según cientos, posiblemente miles de atributos diferentes.

Hacen esto para tratar de agrupar a las personas con intereses similares para poder utilizar los datos de un usuario para ayudar a predecir el comportamiento probable de otros usuarios similares.

¿Cómo funciona esta agrupación de perfiles de usuarios similares y cómo un gestor de productos da sentido a los datos?

Habiendo pasado por las complejas matemáticas y algoritmos asociados con matrices, vectores y análisis de características n-dimensionales, encontré que la forma más fácil de entender cómo funciona esto es a través de una representación 3D-espacial de 10+ dimensiones.

Aquí hay una captura de pantalla que tomé al usar el TensorBoard de Google en la base de datos mNIST de dígitos escritos a mano. Se trata de un elegante gráfico llamado t-SNE – efectivamente una representación 3D de muchas más dimensiones que sólo 3. En este caso, estamos mostrando 10 dimensiones (una para cada dígito de 1 a 10) en un sistema de coordenadas 3D tipo esfera.

Un gráfico t-SNE de 10 dimensiones en una vista 3D utilizando el Tensorboard de Google. Parece complejo al principio, pero en realidad es bastante simple.

La posición de cada dígito escrito a mano en esta representación espacial puede ser descrita por un vector – una serie de números en forma de coordenadas a través de cualquier dimensión de características.

De la misma manera, con los usuarios de Netflix, la posición de cada perfil de usuario en el gráfico anterior podría ser descrita por valores numéricos que representan cada una de las dimensiones individuales de interés de ese usuario – incluyendo el género de la película, los actores/actrices favoritos, el tema de la película, etc.

Reimaginar a los usuarios de Netflix en relación matemática entre sí

Supongamos en el diagrama de dígitos de arriba que:

  • «6» = comedia romántica
  • «4» = thriller

Si un usuario es etiquetado como un «6» por Netflix, entonces él/ella será colocado en la vecindad general de donde todos los otros 6 de color turquesa están en la representación espacial anterior (cerca de la parte inferior).

De la misma manera, si un usuario es etiquetado con un «4» por Netflix, entonces él/ella será colocado en la vecindad general de donde todos los otros 4 magenta están en la representación espacial anterior (cerca de la parte superior).

Supongamos que cada número representa un género de película. Un usuario al que le gustan las comedias románticas (6) podría estar matemáticamente más cerca de alguien al que le gusta la parodia (5) que de alguien al que le gusta un thriller (4).

Nota cómo la región turquesa «6» (comedia romántica) se solapa un poco con la región gris «5». Esto podría ser análogo a cómo a los usuarios que les gustan las comedias románticas también les podrían gustar las películas de parodia o sátira porque ambas implican risas.

De la misma manera, ya que la región magenta «4» (thriller) está algo cerca de la región rosa «9» – esta región rosa 9 podría representar a los que les gustan las películas de acción – matemáticamente más cerca de la región «4» del thriller que de la región «6» de la comedia romántica.

¿Tiene esto sentido? Así que cuando se representa espacialmente, la distancia entre dos perfiles de usuario representa lo similares / diferentes que son sus gustos. Por supuesto, esto puede llegar a ser infinitamente más complejo cuando alguien que le gusta comedias románticas también le gusta thrillers – pero el propósito de esta analogía es mostrar la idea general de las relaciones matemáticas / espaciales entre las diferentes categorías.

Los grupos de interés que están relacionados entre sí aparecerían más juntos y podrían ser buenos predictores de lo que le gustará a un usuario, dado que al usuario le gusta algo más cercano.

Así es como Netflix, o realmente cualquier empresa que aprovecha los modelos ML, crea relaciones entre datos aparentemente no estructurados y convierte esos datos en números. Estos números por sí solos no tienen mucho sentido, pero juntos en relación con los demás, comienzan a tenerlo.

Para la misma película de Good Will Hunting que se muestra a continuación, a un usuario identificado como fanático de la comedia se le mostraría una miniatura de Robin Williams (comediante), mientras que a otro usuario identificado como fanático de la comedia romántica se le mostraría una miniatura de un beso con Matt Damon y Minnie Driver. Aunque no son perfectos, los algoritmos de Netflix sugieren que este nivel de personalización basado en las características del perfil del usuario aumenta la probabilidad de que se hagan clics.

Así que resumamos. Un montón de miniaturas de imágenes de Netflix es un montón de datos no estructurados.

Pero una vez que Netflix anota cada miniatura y asigna metadatos a cada una para describir lo que hay en esa miniatura – ahora tenemos una representación numérica de esos datos no estructurados.

Planifica esa representación numérica en forma de vectores a través de una esfera 3D como hicimos anteriormente – y ahora Netflix empieza a formar relaciones entre los puntos de datos.

Netflix entonces encuentra puntos de datos que están relativamente cerca unos de otros y los utiliza para ayudar a predecir el comportamiento futuro de los clics. Si las predicciones resultan malas o buenas, ajustan el posicionamiento matemático de estas características en consecuencia hasta que el modelo se vuelve cada vez mejor con el tiempo.

Así es como Netflix convierte los datos no estructurados en representaciones matemáticas. Utiliza la distancia relacional entre los puntos de datos como base para hacer y mejorar las recomendaciones de imágenes en miniatura.

¿Qué ha aprendido Netflix de todos estos datos?

Ahora que sabemos cómo Netflix convierte las imágenes en números en un modelo de aprendizaje automático, ¿cuáles son algunas ideas que Netflix ha encontrado de todo el procesamiento de datos y las pruebas A/B que han llevado a cabo durante tantos años?

Bueno, además de aprender los millones de miniaturas individuales que convirtieron a los usuarios en suscriptores fieles a lo largo del tiempo, aquí hay algunas cosas adicionales que Netflix ha aprendido para lo que funciona en términos de miniaturas:

  • Mostrar primeros planos de rostros emocionalmente expresivos
  • Mostrar a la gente villanos en lugar de héroes
  • No mostrar más de tres personajes

En Conclusión: Netflix desplegó la IA (en su mayoría) de forma correcta. Aprendamos de su enfoque.

Netflix ha hecho un trabajo fenomenal al aplicar la IA, la ciencia de los datos y el aprendizaje automático de la «manera correcta»: utilizando un enfoque basado en el producto que se centra primero en la necesidad del negocio y luego en la solución de IA, y no al revés.

Cuando se aplica correctamente, la IA puede hacer maravillas.

Hemos visto lo eficaces que pueden ser las soluciones de IA a la hora de personalizar la experiencia en beneficio tanto de Netflix en términos de suscripciones como de los usuarios en términos de satisfacción general.

También hemos visto las limitaciones de los algoritmos que se «exceden» y hemos hablado de ejemplos concretos en los que el algoritmo de Netflix presentaba miniaturas engañosas para las personas de color porque el algoritmo optimizaba los clics, «engañando» efectivamente a los usuarios para que hicieran clic en el cebo. Esto ocurría incluso cuando esa miniatura no representaba con exactitud ese vídeo.

Ningún algoritmo será perfecto a la hora de tener en cuenta todos los matices de la experiencia humana. De hecho, los algoritmos diseñados para explotar las métricas harán precisamente eso, por lo que el papel del director de producto es trabajar con el diseño u otros miembros del equipo para encontrar formas de abordar estas deficiencias en los algoritmos.

De cara al futuro, la integración de la IA en la sociedad, así como en el espacio empresarial corporativo, seguirá siendo cada vez más frecuente.

Los tecnólogos pueden tener una tendencia a prescribir las soluciones de IA existentes, pero realmente la manera más eficaz de adoptar la IA es la forma en que lo hizo Netflix: desde una perspectiva impulsada por el negocio primero.

Consulte y verá que Netflix generó datos de apoyo antes de dar el paso estratégico.

A medida que el mundo de la IA, la ciencia de los datos y el aprendizaje automático sigue creciendo, todos los gestores de productos podemos tomar una o dos lecciones del libro de jugadas de Netflix cuando se trata de desplegar adecuadamente las soluciones de IA.

Vídeo de YouTube que muestra el algoritmo de generación de miniaturas de Netflix.

Similar Posts

Deja una respuesta

Tu dirección de correo electrónico no será publicada.