Методы бикластеризации для анализа интернет-данных

       

Основные определения и свойства


Дадим определение частого множества признаков в терминах ФАП.

Определение 2.25   Пусть дан формальный контекст

Основные определения и свойства

. Множество признаков

Основные определения и свойства

называется частым множеством признаков, если

Основные определения и свойства

, где

Основные определения и свойства

— заданный числовой порог

Основные определения и свойства

.

Здесь контекст

Основные определения и свойства

представляет собой объектно-признаковую таблицу, которую можно интерпретировать как базу данных покупок,

Основные определения и свойства

— множество транзакций, а

Основные определения и свойства

— множество товаров.

Ключевым понятием для данной задачи является поддержка.

Определение 2.26   Пусть дан формальный контекст

Основные определения и свойства

. Поддержкой множества признаков

Основные определения и свойства

называется величина

Основные определения и свойства
.

Значение

Основные определения и свойства

показывает, какая доля объектов

Основные определения и свойства

содержит

Основные определения и свойства
. Часто поддержку выражают в
Основные определения и свойства
.

Если задано значение минимальной поддержки

Основные определения и свойства
, то Определение 2.25 можно переписать следующим образом.

Определение 2.27   Пусть дан формальный контекст

Основные определения и свойства
. Множество признаков
Основные определения и свойства

называется частым множеством признаков, если

Основные определения и свойства
.

Дадим определения частых замкнутых множеств признаков и максимальных частых множеств признаков.

Определение 2.28   Пусть дан формальный контекст

Основные определения и свойства

. Множество признаков

Основные определения и свойства

называется частым замкнутым множеством признаков, если

Основные определения и свойства

и не существует

Основные определения и свойства
, такого что
Основные определения и свойства

и

Основные определения и свойства
.

Используя оператор замыкания, можно дать следующее определение, эквивалентное 2.28.

Определение 2.29   Пусть дан формальный контекст

Основные определения и свойства

. Множество признаков

Основные определения и свойства

называется частым замкнутым множеством признаков, если

Основные определения и свойства

и

Основные определения и свойства

.

Определение 2.30   Пусть дан формальный контекст

Основные определения и свойства

. Множество признаков

Основные определения и свойства

называется максимальным частым множеством признаков, если

Основные определения и свойства

и не существует

Основные определения и свойства

, такого что

Основные определения и свойства

и

Основные определения и свойства

.

Пусть

Основные определения и свойства

— множество всех частых множеств признаков,

Основные определения и свойства

— множество всех частых замкнутых множеств признаков,

Основные определения и свойства

— множество всех максимальных частых множеств признаков. Тогда, очевидно, выполнено следующее соотношение

Основные определения и свойства

.

Как уже было отмечено выше, частые замкнутые множества позволяют компактно представлять все множество частых признаков без потерь информации об их частоте. Максимальные множества признаков, хотя и являются компактным представлением даже меньшего размера, не позволяют вычислить поддержку всех частых множеств признаков.


Тем не менее, применение максимальных частых множеств признаков оправдано для плотных контекстов, например, для данных телекоммуникационных компаний, данных переписи, данных последовательностей, изучаемых в биоинформатике. Это связано с тем, что для частого множества признаков длины
Основные определения и свойства


приходится вычислять
Основные определения и свойства


его частых подмножеств на ранних этапах работы алгоритмов, таких как Apriori. Поэтому MFI помогают понять структуру извлекаемых множеств признаков в указанных выше задачах (в случае плотных контекстов, для которых длина частых множеств признаков довольно часто равна 30-40), в то время как поиск всех частых множеств признаков оказывается невозможным.

Отметим два важных для практической реализации свойства частых множеств признаков.

Свойство 2.1 (нисходящее замыкание). Все подмножества частого множества признаков являются частыми.

Название свойства "нисходящее замыкание" (downward closure) обязано тому, что множество частых множеств признаков замкнуто по вложению.

Свойство 2.2 (антимонотонность). Все надмножества множества признаков, не являющего частым, не частые.

Свойство 2.1 позволяет создавать алгоритмы, использующие поуровневый поиск частых множеств признаков. А свойство антимонотонности помогает сократить число шагов такого поиска, т.е. не рассматривать надмножества множеств признаков, не являющихся частыми. Алгоритмы поиска частых множеств признаков, использующие эти два свойства, называются поуровневыми (levelwise).

Пример 2.1   Объектно-признаковая таблица транзакций

Покупатели/товары Пиво Пряники Молоко Мюсли Чипсы
С
Основные определения и свойства


1 0 0 0 1
С
Основные определения и свойства


0 1 1 1 0
С
Основные определения и свойства


1 0 1 1 1
С
Основные определения и свойства


1 1 1 0 1
С
Основные определения и свойства


0 1 1 1 1
  • Основные определения и свойства


    Пиво, Чипсы
    Основные определения и свойства


  • Основные определения и свойства


    Молоко, Пиво, Чипсы
    Основные определения и свойства


    Назад Содержание Вперёд


    Содержание раздела