Статистические критерии отбора признаков в комбинаторных алгоритмах распознавания

Слабейшие требования к признаку

Принадлежность к классу A или классу B разделяет объекты обучающей выборки на два подмножества; количества элементов в них обозначим через m₁ и m₂, пусть M = m₁+m₂ обозначает объем обучающей выборки.

Пусть p_i(z) есть вероятность того, что условие z истинно на произвольно взятом объекте i-го класса. Количества #_i(z) объектов i-го класса из обучающей выборки, на которых z истинно, а, следовательно, и общее количество #(z) объектов, на которых z истинно, являются случайными величинами, причем функционально связанными: #(z) = #₁(z)+#₂(z).

Связь между случайными величинами #(z) и #_i(z) позволяет считать, что объекты обучающей выборки, на которых z истинно, получены в два шага: сначала были выбраны значения K случайной величины #(z) и k₁ случайной величины #₁(z), затем из m_i объектов i-го класса случайным выбором без возвращения отобраны k_i объектов. Взаимоотношения между рассмотренными множествами обычно представляют в виде таблицы 22, так называемой таблицы сопряженности:

	`A`	`B`	Всего
`z`	`k₁`	`k₂`	`K`
	`m₁-k₁`	`m₂-k₂`	`M-K`
Всего	`m₁`	`m₂`	`M`

Условие z ничего не говорит о принадлежности объекта к классу и, следовательно, бесполезно, если можно считать, что все K объектов, на которых z истинно, получены из M объектов обучающей выборки случайным выбором без возвращения, при котором каждый объект имеет одну и ту же вероятность быть извлеченным. При этом #₁(z) будет случайной величиной, распределение которой, как известно, задается формулой:

(2) .

Эти вероятности, определенные при 0 k₁K, 0 k₁m₁, 0 k₂m₂, составляют так называемое гипергеометрическое распределение.

Если отбор K объектов действительно производился случайно и независимо от их принадлежности к классу A или классу B, то E#₁(z) = Km₁/M (символом E обозначается взятие математического ожидания) и поэтому

E= 0.

Легко видеть, что последнее соотношение эквивалентно равенству p₁(z) = p₂(z), которое и будем в данном разделе считать определением бесполезности условия. Если условие z бесполезно, что при фиксированном значении K случайная величина #₁(z) подчиняется гипергеометрическому распределению (2), а соответствующая таблица сопряженности называется незначимой (в противном случае - значимой). Для обоснования критерия проверки значимости таблицы сопряженности необходимо более точно описать способ, которым она была получена, в частности, как были получены ее маргиналы m₁ и m₂.

При фиксированном объеме M обучающей выборки в задачах распознавания есть две возможности в отношении чисел m₁ и m₂. Во-первых, они могут быть фиксированы - фактически в этом случае обучающая выборка состоит из двух независимых выборок из двух разных распределений. Фиксация m₁ и m₂ применяется, например, в тех случаях, когда объекты одного из классов встречаются редко - при этом в соответствующую выборку включают все зарегистрированные наблюдения. Такая ситуация характеризуется лишь вероятностями p_i(z) и гипотеза о равенстве двух вероятностей называется гипотезой однородности.

Во-вторых, m₁ и m₂ могут быть случайными величинами, как это имеет место, когда выборка объема M берется из генеральной совокупности, из которой объекты классов A и B поступают с априорными вероятностями pi1 и pi2 соответственно. В этом случае p₁(z) можно интерпретировать, как условную вероятность P{z( A}, соответственно, p₂(z) - как условную вероятность P{z() = 1 | B}.

Кроме того, определены вероятности p(Az) и p(Bz), p(z) и т.д. Равенство p₁(z) = p₂(z) при этом эквивалентно равенству p(Az) = p(z), где p(z) = p₁(z) + p₂(z) = p_i(z), т.е. бесполезность условия означает здесь независимость дихотомий, представленных в таблице сопряженности. Соответствующую гипотезу называют гипотезой независимости.

В данном случае наличие двух совершенно разных статистических моделей не сильно усложняет дело, поскольку известно (см., например, [Хальд, 1956]), что равномерно наиболее мощным критерием проверки нулевой гипотезы p₁(z) = p₂(z) для обеих моделей является критерий Фишера, к описанию применения которого мы и переходим.

Рассмотрим сначала альтернативу p₁(z) > p₂(z), которую естественно интерпретировать, как полезность условия z для описания класса A. Для каждого K мы можем определить критическую область как совокупность всевозможных пар k₁,k₂, удовлетворяющих соотношениям вида

(3) k₁C_K, k₂ = K - k₁, где C_K определяются соотношениями (4) p{#₁(z) C_K | K} < p{#₁(z) >= C_K - 1 | K}, причем подчиняется гипергеометрическому распределению (2). Объединяя области вида (3) для всех допустимых K (0 K M), получаем критическую область, вероятность попадания в которую точек k₁, k₂ для обеих моделей не превосходит

(при условии, конечно, что верна нулевая гипотеза о бесполезности). Другими словами, уровень значимости критерия, задаваемого этой критической областью, не превосходит. истинный же уровень значимости зависит от вида модели и значений характеризующих ее параметров и может иногда, особенно для малых k₁, k₂ быть значительно меньше

На практике, конечно, не обязательно искать критическую область в сколько-нибудь явном виде. Для проверки гипотезы p₁(z) = p₂(z) против альтернативы p₁(z) > p₂(z) на основе наблюденных частот k₁/m₁ и k₂/m₂, нужно исследовать, выполняется ли неравенство k₁ C_K для K = k₁ + k₂. Однако, если k₁ C_K, то p{k₁ C_K|K} , так что для проверки гипотезы о бесполезности достаточно вычислить вероятность

p{#₁(z)k₁| k₁ + k₂}(5) и сравнить полученную величину с

Сказанное подытожим следующим образом: условие z является признаком класса A, если вероятность (5) не превосходит ; если же она больше , то условие z бесполезно.

Описанный критерий стандартным способом превращается в двусторонний. Условие z полезно для класса A, если

p{#₁(z)k₁ | k₁ + k₂}/2;

оно полезно для класса B, если

p{#₁(z) < k₁ | k₁ + k₂}/2;

оно бесполезно, если ни то, ни другое не выполнено. В явном виде критические области задаются соотношениями

p{#₁(z) C₁(K) | K}/2 < p{#₁(z) C₁(K) - 1 | K};
p{#₁(z) < C₂(K) | K} /2 < p{#₁(z) C₂(K) + 1 | K}.

То же самое можно выразить по-другому: условие z является признаком класса A, если k₁ C₁(K), признаком класса B, если k₁ < C₂(K), и бесполезно, если C₂(K) k₁ < C₁ (K).

Вы можете попасть на эту страницу по одному из следующих адресов:
http://learn.at/infoscope/AI/patt_rec/feat_sel/FSelect1.html
http://read.at/infoscope/AI/patt_rec/feat_sel/FSelect1.html
http://now.at/infoscope/AI/patt_rec/feat_sel/FSelect1.html

Дата последней модификации: 10 октября 2000 г.

Hosted by www.Geocities.ws