Cómo utilizar los datos de las etiquetas de usuario
El objetivo del sistema de recomendación es conectar los intereses y elementos de los usuarios, y esta conexión depende de diferentes medios. GroupLens cree en el artículo 1 que los sistemas de recomendación actualmente populares básicamente conectan los intereses y elementos de los usuarios de tres maneras. Como se muestra en la Figura 1, la primera forma es a través de los elementos que le han gustado al usuario: se pueden recomendar al usuario elementos similares a los que le han gustado. Este es el algoritmo basado en elementos mencionado anteriormente. La segunda forma es a través de otros usuarios con intereses similares a los del usuario: puede recomendar elementos que les gusten a otros usuarios que tienen intereses y pasatiempos similares a los del usuario, que también es el algoritmo basado en el usuario mencionado anteriormente. Además de estos dos métodos, la tercera y más importante forma es conectar usuarios y elementos a través de algunas funciones (características), que pueden recomendar elementos con las características que le gustan al usuario. Las características aquí se pueden expresar de diferentes maneras. Por ejemplo, se pueden expresar como conjuntos de atributos de elementos (por ejemplo, para libros, el conjunto de atributos incluye autor, editor, tema, palabras clave, etc.), o se pueden expresar. como vectores semánticos latentes (vectores de factores latentes), que se pueden aprender a través del modelo semántico latente (modelo de factores latentes) propuesto anteriormente. En este capítulo, analizamos una representación importante de características: las etiquetas.
Figura 1 Varias formas en que los sistemas de recomendación contactan a los usuarios y elementos
Según la definición 2 de Wikipedia, las etiquetas son palabras clave sin una estructura jerárquica que se utilizan para describir información. Por lo tanto, las etiquetas se pueden utilizar para describir con precisión la semántica de un elemento. Generalmente existen dos tipos de aplicaciones de etiquetado dependiendo de quién etiqueta los artículos. La primera es permitir que los autores o editores etiqueten elementos, y la otra es permitir que los usuarios normales etiqueten elementos, que es la aplicación de etiquetas UGC. La Tabla 1 enumera los sitios web representativos de estos dos sistemas de etiquetado diferentes. En este capítulo, analizamos principalmente la aplicación de etiquetas de UGC, estudiamos el comportamiento de los usuarios que etiquetan elementos y cómo hacer recomendaciones personalizadas a los usuarios analizando este comportamiento.
Tabla 1 Sitios web representativos de dos sistemas de etiquetas diferentes
El sistema de etiquetas UGC es una forma muy importante de expresar los intereses de los usuarios y la semántica de los elementos. Cuando un usuario pone una etiqueta en un artículo, la etiqueta describe el interés del usuario por un lado y también representa la semántica del artículo por el otro, conectando así al usuario con el artículo.
Aplicaciones representativas del sistema de etiquetas UGC
El sistema de etiquetas UGC es un componente necesario de muchos sitios web Web 2.0. Esta sección analizará los sitios web representativos que utilizan el sistema de etiquetas UGC: el creador de. el sistema de etiquetas UGC Delicious, el sitio web de marcadores de ensayos CiteULike, el sitio web de música Lastfm, el sitio web de vídeos Hulu, el sitio web de reseñas de libros y películas Douban, etc. Estas aplicaciones se presentan a continuación.
Delicious
Delicous es el creador del sistema de etiquetado. Permite a los usuarios etiquetar cada página web en Internet, reorganizando así toda la página web a través de etiquetas. La Figura 2 muestra las páginas web de Delicious que los usuarios han etiquetado más con el sistema de recomendación. Estas páginas web reflejan las páginas web que son más relevantes para el sistema de recomendación en la mente de los usuarios. La Figura 3 muestra la página web “Douban Radio” etiquetada con más frecuencia en Delicious por los usuarios. Se puede ver que estas etiquetas describen con precisión Douban Radio.
Figura 2 Sistema de recomendación de páginas web etiquetadas de Delicious
Figura 3 Páginas web de Delicious "Douban Radio" etiquetadas con mayor frecuencia por los usuarios
CiteULike
CiteULike es un conocido sitio web de marcadores de artículos que permite a los investigadores enviar o guardar artículos que les interesan y etiquetarlos, ayudando así a los usuarios a descubrir mejores artículos excelentes relacionados con sus campos de investigación.
Sabemos que a los investigadores les lleva mucho tiempo y es laborioso buscar artículos dignos de referencia en sus propios campos de investigación. CiteULike utiliza inteligencia de grupo para permitir que cada investigador marque los artículos que conoce, ayudando así a los usuarios a descubrir mejor sus propios sentimientos. Más rápido. Artículos interesantes. La Figura 4 muestra el artículo sobre la evaluación del sistema de recomendación que más ha sido etiquetado por los usuarios en CiteULike. Se puede encontrar que los dos artículos más etiquetados son el filtrado colaborativo (filtrado colaborativo) y la evaluación (evaluación), que de hecho lo refleja con mayor precisión. El contenido principal de este artículo.
Figura 4 Etiquetas de un artículo en CiteULike
Lastfm
Lastfm es un conocido sitio web de música que predice a los usuarios analizando su comportamiento de escucha. Interés en la música. recomendando así música personalizada a los usuarios. Como multimedia, la música no se puede analizar fácilmente en busca de información de contenido como el texto. Para obtener información del contenido de la música sin realizar análisis de audio complejos, Lastfm introdujo un sistema de etiquetado que permite a los usuarios etiquetar música y artistas con etiquetas. La Figura 5 muestra la nube de etiquetas de los Beatles en Lastfm. Como puedes ver en esta nube de etiquetas, los Beatles deberían ser una banda de rock tradicional británica que fue popular en la década de 1960.
Figura 5 La nube de etiquetas de los Beatles en Lastfm
Douban
Douban es un famoso sitio de comentarios y redes sociales en China, y también es una recomendación personalizada. sitio web en China. Una de las empresas líderes en el campo. Douban ha hecho grandes intentos en el campo de las recomendaciones personalizadas, y el sistema de etiquetas también es una de las áreas que han probado. Permiten a los usuarios etiquetar libros y películas para obtener información de contenido sobre libros y películas, y utilizar esta información para mejorar sus recomendaciones. La Figura 7 muestra cómo los usuarios de Douban etiquetaron "Introducción a la minería de datos". Como se muestra en la Figura 7, las etiquetas más comunes son: minería de datos, informática, informática, análisis de datos y análisis de datos de TI. Estas etiquetas reflejan con precisión el contenido del libro.
Figura 6 Etiquetas comunes para el libro "Introducción a la minería de datos" en Douban Reading
Hulu
Hulu es un sitio web de vídeos famoso en los Estados Unidos. Al ser el multimedia más complejo, el vídeo es el más difícil de obtener información sobre su contenido. Por lo tanto, Hulu también ha introducido un sistema de etiquetas de usuario para permitir a los usuarios etiquetar series de televisión y películas. La Figura 7 muestra las etiquetas de uso común de la serie de televisión estadounidense "Doctor House". Se puede ver que Hulu ha clasificado las etiquetas y muestra las etiquetas más populares en cada categoría. Desde la perspectiva del género, Dr. House es un drama médico; desde la perspectiva del tiempo, este drama inició en el año 2004, desde la perspectiva de los personajes, el papel protagónico de este drama estadounidense es hugh laurie, quien interpreta el papel del personaje; es la casa de greg.
Figura 7 Etiquetas utilizadas habitualmente para "House" en Hulu
Como se puede observar en las distintas aplicaciones anteriores, el sistema de etiquetas se utiliza en varios sitios web (música, vídeo y redes sociales). , etc.) han sido ampliamente utilizados. La mayor ventaja del sistema de etiquetas es que puede utilizar la inteligencia del grupo para obtener una descripción de palabras clave más precisa de la información del contenido del artículo, y la información precisa del contenido es un recurso importante para mejorar el sistema de recomendación personalizado.
Problemas de recomendación en sistemas de etiquetas
El comportamiento de etiquetado, como comportamiento importante del usuario, contiene mucha información que refleja los intereses de los usuarios, por lo que es necesario un estudio en profundidad del comportamiento de etiquetas de los usuarios. Puede ser una buena forma de guiar el sistema de recomendación personalizado para mejorar la calidad de sus propias recomendaciones. Al mismo tiempo, como método de representación de contenido importante, las etiquetas pueden reflejar mejor las opiniones de los usuarios sobre los elementos que las representaciones de atributos de contenido tradicionales, y la forma de representación es muy simple y fácil de procesar mediante muchos algoritmos.
Hay dos problemas principales de recomendación en el sistema de etiquetas.
¿Cómo utilizar el comportamiento de etiquetas del usuario para recomendar artículos al usuario (recomendación basada en etiquetas)?
¿Cómo recomendar etiquetas adecuadas para el artículo cuando el usuario etiqueta el artículo (recomendación de etiqueta)?
Para estudiar las dos preguntas anteriores, primero debemos responder las siguientes tres preguntas.
¿Por qué los usuarios deberían etiquetar (Por qué)?
¿Cómo etiquetan los usuarios (Cómo)?
¿Qué tipo de etiqueta pone el usuario?
Por qué los usuarios etiquetan
Antes de diseñar un sistema de recomendación personalizado basado en etiquetas, debemos tener un conocimiento profundo del comportamiento de etiquetado del usuario y saber por qué los usuarios etiquetan y cómo lo hacen. Sólo comprendiendo a fondo el comportamiento del usuario podremos diseñar un sistema de recomendación personalizado que satisfaga a los usuarios en función de este comportamiento.
Morgan Ames estudió la cuestión de la motivación de las anotaciones de los usuarios en sitios web para compartir fotografías3. Descompuso la motivación de las anotaciones de los usuarios en dos dimensiones. La primera es la dimensión social. Algunas anotaciones de usuario son para uso de quienes suben contenido, mientras que otras anotaciones de usuario son para uso de la mayoría de los usuarios. Dejemos que una dimensión sea la dimensión funcional. Algunas anotaciones sirven para organizar mejor el contenido para facilitar la búsqueda futura por parte de los usuarios, mientras que otras anotaciones sirven para transmitir cierta información, como la hora y el lugar donde se tomó la foto.
Cómo etiquetan los usuarios
En Internet, aunque el comportamiento de cada usuario parece aleatorio, en realidad existen muchas leyes detrás de estos comportamientos aparentemente aleatorios. En esta sección, estudiamos el delicioso conjunto de datos de marcadores para descubrir algunas reglas estadísticas en el comportamiento de anotación del usuario.
Investigadores alemanes han publicado un gran conjunto de datos 4 de Tasty Bookmark, que contiene 420 millones de registros de comportamiento de etiquetas de los usuarios de Tasty Bookmark desde septiembre de 2003 hasta diciembre de 2007. Esta sección selecciona los datos de todo el año 2007 para su análisis y estudia las características estadísticas del conjunto de datos.
Esta sección contará la siguiente información del conjunto de datos.
Distribución de la actividad de los usuarios.
Distribución de la popularidad de los artículos.
Distribución de la popularidad de las etiquetas.
La curva del comportamiento de las etiquetas de los usuarios evoluciona con el tiempo.
Los cambios en los intereses de los usuarios a lo largo del tiempo.
El ciclo de vida del artículo.
*[****Los resultados estadísticos específicos se anunciarán cuando el libro se publique oficialmente**]*
¿Qué tipo de etiquetas utilizan los usuarios?
Cuando los usuarios ven Cuando se trata de un artículo, lo más esperado es que la etiqueta que etiqueta sea una palabra clave que pueda describir con precisión el contenido y los atributos del artículo. Sin embargo, los usuarios a menudo no operan de acuerdo con nuestras ideas, sino que pueden etiquetar artículos con varias etiquetas extrañas.
Scott A. Golder resume las etiquetas de los deliciosos marcapáginas y las divide en las siguientes categorías.
Indica cuál es el objeto: por ejemplo, si es un pájaro, habrá una etiqueta con la palabra "pájaro"; si es la página de inicio de Douban, habrá una etiqueta llamada "Douban"; "; si es la página de inicio de Steve Jobs, habrá una etiqueta con la palabra "pájaro". Hay una etiqueta llamada "Jobs".
Indica el tipo de artículo: Por ejemplo, en los marcadores Delicious, las etiquetas que indican la categoría de una página web incluyen artículo (artículo), blog (blog), libro (libro), etc.
Indique quién es el propietario del artículo: por ejemplo, muchas etiquetas de blog incluirán información como el autor del blog.
Expresar el punto de vista del usuario: Por ejemplo, si el usuario piensa que la página web es interesante, se etiquetará como divertida (interesante); si el usuario piensa que es aburrida, se etiquetará como aburrida (aburrida); ).
Etiquetas relacionadas con el usuario: algunas etiquetas, como mi favorito (mi favorito), mi comentario (mi comentario), etc.
Tareas de usuario: como leer (a punto de leer), buscar trabajo (encontrar trabajo), etc.
Muchos sitios web diferentes también han diseñado sus propios sistemas de clasificación de etiquetas. Por ejemplo, Hulu ha clasificado etiquetas de vídeo.
La figura 8 es la etiqueta del famoso drama americano "Doctor House". Como puedes ver, Hulu divide las etiquetas de series de televisión en varias categorías.
Género: Indica principalmente la categoría de esta serie de televisión. Por ejemplo, "House" es un drama médico que también tiene elementos de comedia y misterio.
Tiempo: incluye principalmente el momento en que se estrenó la serie de televisión, y en ocasiones también incluye el momento en que tuvieron lugar los hechos de la serie de televisión, como durante la Segunda Guerra Mundial o la década de 1990.
Personas: incluyen principalmente a los directores, actores y personajes importantes de la serie de televisión.
Lugar: El lugar donde se desarrolla la trama, o donde se rodó el vídeo, etc.
Idioma: El idioma utilizado en esta serie de TV.
Premios: Premios relevantes obtenidos por esta serie de TV.
Otros (Detalles): Contiene todas las demás etiquetas que no se pueden clasificar en las categorías anteriores.
Figura 8 El famoso drama americano "House" en el sitio web de vídeos Hulu