Crear un modelo de preferencias del usuario basado en el análisis del comportamiento del usuario
Construir un modelo de preferencia del usuario basado en el análisis del comportamiento del usuario
A menudo simplemente abstraemos la idea de recomendación personalizada como: inferir los intereses del usuario a través del comportamiento del usuario, para proporcionar usuarios con recomendaciones satisfactorias Artículos que les interesen. Entonces, en realidad necesitamos construir un modelo de preferencia del usuario (preferencia es interés) a través del análisis del comportamiento del usuario, que contenga una o más preferencias de cada usuario.
Insertar un párrafo
La mayoría de las personas tienen una percepción predeterminada de palabras como "comportamiento del usuario" e "intereses del usuario", y es posible que su comprensión de dichas palabras incluso se haya solidificado. sentido, por lo que rara vez veo artículos que utilicen estas palabras mientras las explican. Siento que cuando se trata de modelos algorítmicos, una comprensión amplia y sin reservas de estas palabras puede afectar fácilmente la comprensión profunda de los modelos algorítmicos, lo que lleva a percepciones vagas sin saberlo. Porque diferentes personas pueden tener la misma comprensión básica de estas palabras, pero su comprensión ampliada varía. Este artículo dará una explicación limitada y el comportamiento del usuario analizado en este artículo se refiere al comportamiento en la red (que puede ser una red de telecomunicaciones, Internet).
Explicación conceptual
Dominio de entidad
Cuando queremos construir un modelo de preferencia de usuario basado en el análisis del comportamiento del usuario, debemos limitar el comportamiento del usuario y los temas de interés a uno. en el dominio de la entidad. Las recomendaciones personalizadas se implementan en recomendaciones específicas en un determinado dominio de entidad. Por ejemplo, para un sitio web de lectura, el dominio de entidad incluye todos los libros, al que podemos llamar dominio de libros. Otros incluyen recomendaciones de música personalizadas, recomendaciones de películas personalizadas, recomendaciones de información personalizadas, etc.
Comportamiento del usuario
Los usuarios hacen clic en información en el sitio web del portal, comentan información, publican estados y comentan estados en sitios de redes sociales, buscan productos en sitios web de comercio electrónico, compran productos, revisar productos y varios comportamientos en otros tipos de sitios web son comportamientos de usuario. El comportamiento del usuario al que se hace referencia en este artículo se refiere al comportamiento del usuario en un determinado dominio de entidad. Por ejemplo, los comportamientos de los usuarios en el dominio del libro incluyen leer, comprar, calificar, comentar, etc.
Temas de interés
Las dimensiones de interés del usuario también son intereses limitados a un determinado dominio de entidad y generalmente se pueden expresar en forma de etiquetas. Por ejemplo, para la lectura de libros, el tema de interés puede ser "suspenso", "tecnología", "emoción" y otras etiquetas de clasificación. Vale la pena mencionar que los temas de interés son solo dimensiones de interés abstraídas del comportamiento del usuario y no existe un estándar unificado. Por ejemplo, las etiquetas de clasificación de libros de QQ Reading y Douban Reading son bastante diferentes. La granularidad de la dimensión de interés no es fija, al igual que el sitio web del portal tiene categorías de primer nivel como "Noticias", "Deportes" y "Entretenimiento", y debajo de las noticias hay categorías de segundo nivel como "Nacional". , "Social", "Internacional" y Entretenimiento. A continuación se presentan categorías secundarias de "estrellas", "signos del zodíaco" y "chismes". La granularidad del espacio de interés que elijamos depende de nuestros requisitos para el modelo de preferencia del usuario.
Espacio de interés
Una colección de dimensiones de interés en el mismo nivel, como Douban Reading, puede estar compuesta por "recién lanzado", "popular", "precio especial" y "gratis" Un espacio de interés (por supuesto, si usa este espacio de interés para representar los intereses del usuario, sería demasiado aproximado, esto es solo una hipótesis), también puede usar "novela", "fantasía", "computadora" , "tecnología", "historia"· ····"Alimentos" constituye un espacio de interés. Se trata de dos dimensiones de clasificación diferentes. Si también se agrega "recién lanzado" al último conjunto, obviamente será un poco confuso. Vale la pena mencionar que esto no es imposible. Depende de cómo ver esta colección. Si no se considera una clasificación basada en contenido, sino una biblioteca de etiquetas de libros, entonces también es factible e incluso propicio para establecer un mejor sistema. . Modelo. Lo mencioné más adelante en este artículo.
Datos de comportamiento del usuario
Xiang Liang los presenta en detalle en la Sección 2.1 de su "Práctica del sistema de recomendaciones". Por lo general, los datos más fáciles de entender generados después de agregar y procesar los registros de comportamiento son un registro de sesión que describe el comportamiento del usuario. Este tipo de registro registra varios comportamientos de los usuarios. Por ejemplo, en una aplicación de lectura de libros, estos comportamientos incluyen principalmente clics, lecturas de prueba, compras, lectura (en aplicaciones locales, es posible que no se realice un seguimiento de los comportamientos de lectura), calificaciones y comentarios.
Establecimiento de un modelo de preferencia del usuario
La tarea principal de establecer un modelo de preferencia del usuario basado en el análisis del comportamiento del usuario es convertir el comportamiento del usuario en preferencias del usuario.
Adoptamos la forma de pensar de las operaciones matriciales y tomamos la lectura de libros como ejemplo.
La siguiente figura representa la colección de usuarios:
La siguiente figura representa la colección de libros (artículos):
Entonces la matriz de comportamiento del usuario se puede expresar como:
p>
Las filas representan usuarios y las columnas representan libros. Por ahora solo consideramos el comportamiento de compra de libros. 1 significa que el usuario ha leído el libro y 0 significa que el usuario. no ha leído el libro.
Cómo convertir la matriz de comportamiento del usuario anterior en una matriz de interés del usuario (es decir, las filas representan usuarios y las columnas representan dimensiones de interés). Un método obvio es determinar primero la matriz de relación correspondiente entre libros y. Dimensiones de interés. La premisa de esto es que determinamos qué tipo de espacio de interés utilizar. Una forma común es que los expertos proporcionen los resultados de clasificación de algunas muestras, que es entrenar datos en un sentido general, y luego usen el algoritmo de clasificación para obtener el modelo de clasificación y luego lo apliquen al problema de clasificación de los datos restantes para resolverlo. el problema de clasificación de las grandes cantidades de datos restantes. La característica de esta clasificación es que un libro solo se marca como una categoría. Si hay 3 categorías,
Entonces la matriz de interés por el libro es:
Entonces la matriz de comportamiento del usuario es. Convertido a La fórmula de cálculo de la matriz de intereses del usuario se puede expresar como la siguiente figura. Las filas representan los usuarios y las columnas representan los intereses. Una vez normalizada la matriz calculada, cada valor representa el peso de preferencia de un determinado usuario. un cierto interés.
La limitación de elegir dicho espacio de interés es obvia: un libro sólo puede pertenecer a una dimensión de interés. En situaciones reales, un libro suele pertenecer a más de una categoría y, cuando los datos del libro son enormes, puede resultar cada vez más difícil mantener la clasificación de edición, por lo que suele ser el usuario quien añade activamente etiquetas al libro, o la máquina etiqueta el libro según el contenido y extrae palabras clave. Sin embargo, el conjunto de etiquetas obtenido de esta manera puede resultar sinónimo, desconocido o tener demasiadas dimensiones, y requiere un importante trabajo de limpieza de etiquetas. Como hemos visto antes, la elección del espacio de interés es realmente importante y afecta directamente a la matriz de intereses del usuario obtenida. Por tanto, el mismo método ha obtenido las preferencias del usuario, pero si es útil o no depende de esta parte del trabajo.
Ponderación del comportamiento del usuario
El ejemplo de matriz de comportamiento del usuario que se muestra arriba es un ejemplo muy simple que se puede extraer directamente de la base de datos. En la práctica, no podemos considerar sólo un comportamiento si los datos pueden respaldarlo. Para obtener una matriz de comportamiento más razonable, necesitamos realizar una ponderación del comportamiento. Por ejemplo, A1 representa la matriz de comportamiento de clic del usuario, A2 representa la matriz de comportamiento de compra y A3 representa la matriz de comportamiento de calificación, entonces la matriz ponderada es:
En cuanto al peso de cada matriz, está relacionado con el fin de construir un modelo de preferencia del usuario, si preferimos conocer la preferencia de gusto del usuario, entonces el peso puede ser: a1 lt; a2 lt; a3; a1 litro; a3 litro; a2.
Otros métodos de análisis del comportamiento del usuario
El método presentado anteriormente también es un método convencional. Sin embargo, a partir de los "Temas de interés" y los "Espacios de interés" presentados anteriormente, también podemos ver que no es fácil hacer una buena clasificación. La granularidad de la clasificación y las dimensiones de la clasificación no son fáciles de controlar. El etiquetado del usuario también requiere un trabajo complejo de limpieza de etiquetas. . En dominios de entidades como libros y películas, también podemos recomendar elementos que les gusten a los usuarios a través de categorías. Sin embargo, en el campo de la recomendación de información personalizada (aquí hay solo un ejemplo, la recomendación de información debe tener sus propias características especiales), es posible que no lo seamos. poder recomendarlo a través de categorías. Las categorías recomiendan información que les gusta a los usuarios, incluso si a los propios usuarios no les importan las categorías. No necesitamos construir explícitamente la matriz de correspondencia entre artículos e intereses y también podemos asociar a los usuarios con artículos en sus categorías favoritas. Esto implica tecnología de análisis semántico implícito. Esta parte se agregará a este artículo en el futuro.
Pequeño resumen
Como se puede ver en lo anterior, el método convencional de modelado de preferencias del usuario basado en el análisis del comportamiento del usuario es muy simple y claro. De hecho, este es el caso. No es difícil escribir programas y cálculos utilizando estos métodos o ideas.
De hecho, el problema que encontramos no fue el método en sí, sino los datos en sí. Dos problemas importantes con los datos son la escasez y las distribuciones de cola larga. Por lo general, hay muy pocos usuarios con datos de comportamiento y los objetos de comportamiento de los usuarios también se concentran en unos pocos elementos. El método es fácil de aprender, pero los problemas de datos solo se pueden comprender profundamente en el combate real, y encontrará que la principal energía y dificultades están en resolver la escasez y la larga cola de datos. Espero poder escribir artículos sobre la resolución de problemas de datos basados en problemas prácticos en el futuro.
Además, aunque lo anterior se describe utilizando la idea de operaciones matriciales, descubrí en proyectos reales que la esencia de las operaciones son en realidad las estadísticas del comportamiento del usuario. Por lo tanto, en el combate real, no es necesario construir la matriz primero y luego realizar los cálculos. Es muy conveniente utilizar cálculos SQL directamente en la base de datos.