Учебники Онлайн


§ 27 Кластерный анализ Общее понятие, его математические основы и задачи

Как уже известно, факторный анализ наиболее ярко отражает черты многомерного анализа в части исследования связи между признаками. Кластерный анализ эти черты отражает со стороны классификации объектов. Сииз зиег (англ) - накопление групп элементов, которые характеризуются какой - либо общим свойством. Суть его сводится к группировке (кластеризации) совокупности с разнообразными признакам с целью получи. Ання однородных групп - кластеров. При этом границы таких групп заранее не нанесены, а количество их может быть либо нанесен, или нет. Полученные в результате разграничения группы называются кластерами, а методы их нахождения - кластер-анализом. В кластерном анализе признаки объединяются в один количественный показатель схожести (несхожести) группируя объектеб'єктів.

Любая мера схожисти представляет собой некоторую функцию, которая ставит в соответствие каждой паре точек (х;,. Хи) некоторое. ЧИСЛО сиу, характеризующий степень сходства (близости) между объектами. И;, практически просмотр користовуеться следующие типы мер схожисти: 1) коэффициент подобия) так называемые квантифицировать коэффициенты связи) 2) коэффициенты связи (корреляции), 3) показатели расстояния в метрическом простор.

Роль степени сходства играет функция расстояния, введение которой ведет к понятию метрического пространства. Последний представляет собой множество элементов с какой - либо природе явлений. Для какой - либо пары элементов этой м множества предусмотрено определенное овеществленного число, которое называется расстоянием всего применяемые его показатели в задачах автоматической классификации социально - экономических объектов - это расстояние по. Хемминг и евклидово расстояниеань.

Если представить какую - либо пару элементов. Е и. Д, а овеществленный для них число. Б (Е,. Д), укажем три свойства расстоянии: 1) если. Е и. Д совпадают, расстояние. Б (Е,. Д) = 0, 2)

Б (Е,. Д). Б (Е,. С) (С,. Д), 3). Б (Е,. Д) =. Б (Д,. Е,)

Среди известных функций расстояния самая распространенная-евклидово расстояние. Эмпирическая формула ее имеет вид

где хки-значение к-й признаки в и - м объекте

Учитывая недостатки евклидового расстояния, обусловленные невозможностью учесть возможную неравномерность осей пространства, математическая литература рекомендует пользоваться нормированной евклидовой расстоянием расчет унок ее аналогичен расчету величины а4, но по стандартизированным значениями признаков

Необходимость такого способа расчета объясняется тем, что возможен случай, когда два объекта весьма схожи по всем признакам и значительно различающихся по одной. По этому признаку в евклидовой расстояния они д. дуть далекие друг от друга. Иными словами, величинна

зависит от масштаба измерения признаков. Для обеспечения сопоставимости признаков их, как правило, нормируют по среднеквадратичным отклонением (сг). Евклидова расстояние, как и аналогичные ей расстоянии. Махаланобиса расстояние метода потенциальных функций и тп приемлема в расчетах с признаками, которые имеют количественное измерение. Для качественных признаков, которые принимают только два значения (в и 1), применяют формулу расстояния п в. Хеммингінгу:

к = 1

где хк; - значение к - й признаки в и - м объекте

Если признаки классифицируются по произвольным числом градаций, рекомендуется использовать формулу степени близости двух разбиваемого а (Е, д), которая имеет свойства геометрической расстоянии:

д) = 2і к * - а* и

2 г, г = 1

где. Ег8 = 1 если объекты х3, х2 находятся в одном классе. Ег8 = 0, если объекты х $, хг находятся в разных классах

По разбиванию элемента. Д расчеты выполняются аналогично (Д,, ч 1:. Д, л 0,)

Суть задачи кластерного анализа такова: существующую некоторое множество объектов необходимо разделить с помощью определенного правила на ранее нанесенный или причиненный количество классов. В символике эти задачи можно сформулировать так: множество реализаций, нанесенных в пространстве х с помощью решаемых функций по в (по критерию сходства), нужно разделить на такое количество и таких элементов алфавита, чтобы потери информации не превышали причиненного величиныК.

Таким образом, задача кластерного анализа сводится к представлению первичной информации в сжатом виде без ее потери. Решением такой задачи (как уже понятно) проходит через классификацию оз знак (измерений), которыми характеризуется каждый объект. Но речь идет не о классических принципы классификации (например, комбинационное группировки), а о принципах многомерной классификации. Суть ее сводится к объединению (классификации) объектов не последовательно по отдельным признакам, а одновременно с большой численностью признаков. Такой набор их создает так называемый"признакового пространство"Каждому признаку предоставляется содержание овнисть координатість координати.

Оперируя п признакам, мы рассматриваем любые - какой объект как точку в п - мерном пространстве, и задача классификации состоит в обнаружены сгущения точек (объектов) в этом признакового пространства. Общим для с сгущения точек является то, что группы (кластеры) формируются на основании"похожести"(приближение) объектов за большим количеством признаков, т.е. классификация осуществляется одновременно по всему комплексу признаков, хар актеризують объект. При этом ни одна из признаков такого комплекса не является необходимым (или достаточным) условием принадлежности объекта к данной групп даної групи.

Формирование групп объектов, близких по комплексу признаков, более эффективное по сравнению с комбинационным группировкой. Так, для последнего объект, который имеет отклонение от границ групувальних признаков (нормы, хар характерен для данной группы по одной единственным признаком набора), будет исключен из группы. Легко представить ситуацию, когда данный признак используется при первой градации объектов. В этом случае объект может вы появиться в группе достаточно удаленной от той, с которой она (признак) имеет наибольшее сходство. В комбинационном группировке же группы представляют собой ни что иное как сектора признакового пространства. Осуществляя клас икацию по названному группировкой, иногда искусственно разрушаем признакового пространство нанесенными границами интервалов групп, тогда как реально существуют обособленно однородные класскласи.

Преимущество метода кластерного анализа в том, что его математический аппарат позволяет найти и выделить реально существующее в признакового пространства накопления объектов (точек) на основании одновременного группам ния за большим количеством озна.

Кластерный анализ, как и корреляционно - регрессионный, является математическим аппаратом изучения статистических связей. Это метод поиска эмпирических закономерностей, но для более широкого класса связей. Для регрессий йного анализа является целый ряд трудновыполнимых условий (требований) его применение числе требования нормальности многомерного распределения, невозможность использования качественных признаков, ограничения, накладываемые н а алгебраическую форму связи (метод наименьших квадратов эффективен для линейных уравнений) и и ін.

Для метода кластерного анализа однородность совокупности не является обязательным условием. Более того, сам метод позволяет выявить и описать структурные закономерности, обеспечив формирование однородных классов в объектов. Дискретность кластерных моделей в отличие от непрерывных регрессионных моделей, обусловлена ??усреднением и некоторыми потерями информации, обеспечивает более эвристический характер вычислительных проц едур, а также снимает ограничения, связанные с алгебраической формой связику.

Наконец, комплексное использование обоих методов в изучении статистических связей создает условия широкого использования метода корреляционно - регрессионного анализа, обеспечивая условия для адекватного его к одатк.

Изложенное выше позволяет сделать вывод о том, что применению метода кластерного анализа должно предшествовать изучение теории и накопленной практики этого использования. На начальных этапах использован. Ання этого метода исследователь должен иметь четко представление, какое из двух задач он решает ли обычная задача типизации, при котором изучаемую совокупность наблюдений следует разделить на относительно не в елико количество группам. Тогда выполняется работа, аналогичная получению интервалов статистического группирования при обработке одномерных наблюдений. При этом операция осуществляется так, чтобы элементы одной области группировки находились друг от друга по возможности на небольшом расстоянии. Вторая задача может заключаться в том, что исследователь пытается определить естественную расстояние исходных элементов (наблю режень) на четко выраженные кластеры, находящиеся друг от друга на некотором расстоянии, но не разбиваются на такие же удалены друг от друга части. Следует помнить, что первая задача (задача ты пизации) всегда имеет решение, второе - в своей постановке может иметь отрицательный результат, то есть может оказаться, что множество исходных наблюдений не обнаруживает естественного расположения на кластеры, например, образует один классластер.

Немаловажным этапом кластер - анализа является выбор переменных (признаков). Эта стадия анализа является основой формирования одинаковых пространств, в которых должно проводиться моделирование

Выбор признаков осуществляется, как правило, в две стадии. В основе первой из них лежит формирование первичной гипотезы о наборе признаков, влияющих на изучаемое явление; в основе второй - уточнение гипотезы и по результатам консультаций (опросов) специалистов исследуемой областиі.

Завершенной считается экономическая постановка задачи при условии ее согласованности с требованиями используемого математического аппарата и возможностями вычислительной техники. После этого приступают к сбору в исходной информацииї.