Методы бикластеризации для анализа интернет-данных

       

Описание алгоритма


Алгоритм BiMax следует стратегии "разделяй и властвуй". Первоначально алгоритм определяет области матрицы

Описание алгоритма
, содержащие только 0, и затем исключает их из дальнейшего рассмотрения. Эта стратегия особенно выигрышна при условии разреженных данных, получение которых из исходных наборов зависит от выбора порога отсечения. В экспериментах, представленных в статье[13], для всех наборов данных доля 1-значений не превышает 6%.

Идея, лежащая в основе алгоритма, состоит в следующем: исходная матрица

Описание алгоритма

разбивается на три подматрицы, одна из которых содержит только нулевые значения и в дальнейшем не рассматривается. Затем алгоритм рекурсивно применяется к оставшимся двум подматрицам

Описание алгоритма

и

Описание алгоритма
. Рекурсия прекращается, если текущая матрица, представляющая собой бикластер, содержит только единицы.

Для обработки подматрицы

Описание алгоритма

необходимы специальные операции, чтобы гарантировать максимальность по вложению бикластеров. Проблема возникает в том случае, если

Описание алгоритма

содержит части бикластеров, найденных в

Описание алгоритма
; поэтому необходимо проводить проверку того, что алгоритм рассматривает только те бикластеры, которые расширяются в
Описание алгоритма
. С этой целью вводится параметр
Описание алгоритма
, который содержит множества столбцов, ограничивающие число допустимых бикластеров. Бикластер
Описание алгоритма

допустим, если

Описание алгоритма

обладает одним или несколькими столбцами с каждым множеством столбцов

Описание алгоритма

из

Описание алгоритма

, т.е.

Описание алгоритма

.

Алгоритм 2.2.1. BiMax(E)



Содержание раздела