Методы бикластеризации для анализа интернет-данных

       

Интернет-приложения: e-commerce, recommendation systems, collaborative filtering, target marketing


Методы бикластеризации могут быть использованы для так называемой коллаборативной фильтрации (collaborative filtering) при обнаружении групп покупателей со сходными предпочтениями в виде некого подмножества товаров (задача целевого маркетинга). Похожая ситуация имеет место в рекомендательных системах, где бикластеры предоставляют информацию о сходных интересах групп посетителей.

Необходимо отметить, что рекомендательные системы и целевой маркетинг — важные приложения в области электронной коммерции (см., например, [12]). В таких приложениях основной целью является обнаружение групп покупателей, ведущих себя похожим образом, чтобы предсказать их интересы и предложить адекватные рекомендации. Отметим несколько работ, освещающих вопросы применения методов бикластеризации к таким данным.

Джионг Янг и др. [84,85] использовали для проведения экспериментов массив данных MovieLens, собранный исследовательской группой GroupLens университета Миннесоты. Массив данных представляет собой матрицу, строки которой описывают 943 покупателя, а столбцы — 1682 фильма. Значения матрицы — целые числа от 1 до 10, они представляют рейтинг, который покупатель присвоил фильму. Матрица довольно разреженная, т.к. покупатель оценивает в среднем менее 10% фильмов. Хайксун Янг и др. [81] также провели эксперименты на этих данных.

Хоффман и Пузича [42] применяли бикластеризацию для коллаборативной фильтрации на массиве EachMovie, который состоит из данных, собранных в Интернете для почти трех миллионов предпочтений с оценками от 0 до 5. Унгар и Фостер [79] также используют данные о фильмах, в которых учитывается лишь факт просмотра фильма, поэтому анализируемая матрица — бинарная.

Другим примером является рынок Интернет-рекламы, для которого актуален поиск бикластеров, представляющих отдельные рынки, т.е. множества покупателей и приобретаемых ими рекламных словосочетаний (см. [88]). Решение аналогичной задачи описывается и в данной работе (см. раздел 5.3).



Содержание раздела