¿Cómo podría ayudarme el aprendizaje automático a encontrar tendencias en Internet?

Veamos el estilo de Gangnam. Esta es la línea de tiempo de cómo se convirtió en una tendencia después de que se subió a YouTube el 15 de julio de 2012 (fuente: Gangnam Style – Wikipedia):

2, 3 y 10 parecen ser puntos importantes en el tiempo: la “pendiente” aumenta después de cada uno de esos eventos. Corresponden a la parodia notable más temprana que se subió a YouTube (2), el video se compartió en Reddit (3) y Katy Perry tuiteó al respecto (10).

Al “ayudar a encontrar tendencias”, supongo que queremos predecir tendencias, es decir, identificar tendencias antes de que se conviertan en tendencias. Entonces, idealmente, deberíamos haber predicho que Gangnam Style se volvería viral después de que ocurrieran 2 y 3.

Antes de construir un modelo de aprendizaje automático supervisado, una buena pregunta que debemos hacernos es: “Si tuviéramos toda la información del mundo, ¿qué usaríamos para predecir la variable de resultado?” (En nuestro caso, la variable de resultado es si algo se volverá viral).

Asumiendo que tenemos toda la información sobre las primeras semanas después de que se cargó el video, intuitivamente, todos estos podrían ser buenos indicadores de viralidad futura:

  • Vistas, me gusta y comentarios (denominados colectivamente “compromiso” en adelante).
  • Tasa de cambio de compromiso en los últimos días.
  • Sentimiento del compromiso.
  • Número de referencias (o acciones) y el compromiso que traen.
  • Promedio de popularidad o reputación de esos referentes.
  • ¿Han referido esos referentes y comentaristas de manera similar al contenido viral en el pasado?
  • En comparación con otros videos del mismo canal en sus primeras 2 semanas, ¿este video ha tenido más participación de lo esperado?
  • En comparación con los videos de otros canales con un número de suscriptores, alcance y género similares, ¿este video ha tenido más participación de lo esperado?
  • … y así.

Deberíamos obtener un montón de videos virales y no virales, extraer las características anteriores para todos ellos en sus primeras dos semanas, y luego construir un modelo para predecir la viralidad utilizando esas características.

Se ha trabajado en ese sentido, aquí y aquí, por ejemplo.

Tenga en cuenta que estamos prediciendo popularidad usando solo la respuesta al contenido y no el contenido en sí . También se ha trabajado para predecir la popularidad usando el contenido, aquí y aquí, por ejemplo.

Ahora, construya el modelo mientras experimento una crisis de un cuarto de vida lamentando el hecho de que han pasado cinco años desde que Gangnam Style se convirtió en algo. : /

El aprendizaje automático es una rama de la ciencia de datos y la informática estadística que se ocupa de la información de aprendizaje después de una serie de aprendizajes / inspecciones por parte del alumno (computadora). Con la ayuda de funciones y representaciones, los datos pueden predecirse en un grado preciso, debido a las distribuciones de probabilidad entre los conjuntos de entrenamiento y prueba.

El aprendizaje automático podría ayudarlo a encontrar tendencias en Internet debido a las expectativas e identidades de lo que pertenece a una tendencia de Internet (es decir, número de visitas, número de descargas). Un modelo de aprendizaje automático implementado podría hacer una búsqueda y colocar cada capa de aprendizaje como un criterio relacionado con las tendencias de Internet. Una vez que esta búsqueda está en marcha, las diferentes capas examinarían los datos, eliminando conjuntos de datos que no cumplen, digamos un rango de salida de la función de activación, y al hacerlo, eliminan las tendencias que no pasan los criterios y, por lo tanto, no son tendencias de Internet tan populares.

Para cuando este modelo termine de ejecutarse, los datos restantes deberían ser las tendencias de Internet que pasan todos los criterios que lo habilitan como tendencia de Internet. Y así, así es como un modelo de aprendizaje automático puede ayudar a encontrar tendencias en Internet.