Порядок выполнения факторного анализа. Использование факторного анализа в психологии
Гальтоном Ф. (1822-1911), внесшим также большой вклад в исследование индивидуальных различий. Но в разработку Факторного анализа внесли вклад многие ученые. Разработкой и внедрением факторного анализа в психологию занимались такие ученые как Спирмен Ч. (1904, 1927, 1946), Терстоун Л. (1935, 1947, 1951) и Кеттел Р. (1946, 1947, 1951). Также нельзя не упомянуть английского математика и философа Пирсона К., в значительной степени развившего идеи Ф. Гальтона, американского математика Хотеллинга Г. , разработавшего современный вариант метода главных компонент . Внимания заслуживает и английский психолог Айзенк Г. , широко использовавший Факторный анализ для разработки психологической теории личности. Математически факторный анализ разрабатывался Хотеллингом, Харманом, Кайзером, Терстоуном, Такером и др. Сегодня факторный анализ включён во все пакеты статистической обработки данных - , SAS , SPSS , Statistica и т. д.
Задачи и возможности факторного анализа
Факторный анализ позволяет решить две важные проблемы исследователя: описать объект измерения всесторонне и в то же время компактно . С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических связей корреляций между наблюдаемыми переменными.
Таким образом можно выделить 2 цели Факторного анализа:
При анализе в один фактор объединяются сильно коррелирующие между собой переменные, как следствие происходит перераспределение дисперсии между компонентами и получается максимально простая и наглядная структура факторов. После объединения коррелированность компонент внутри каждого фактора между собой будет выше, чем их коррелированность с компонентами из других факторов. Эта процедура также позволяет выделить латентные переменные, что бывает особенно важно при анализе социальных представлений и ценностей. Например, анализируя оценки, полученные по нескольким шкалам, исследователь замечает, что они сходны между собой и имеют высокий коэффициент корреляции, он может предположить, что существует некоторая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Такую латентную переменную называют фактором . Данный фактор влияет на многочисленные показатели других переменных, что приводит нас к возможности и необходимости выделить его как наиболее общий, более высокого порядка. Для выявления наиболее значимых факторов и, как следствие, факторной структуры, наиболее оправданно применять метод главных компонентов (МГК). Суть данного метода состоит в замене коррелированных компонентов некоррелированными факторами. Другой важной характеристикой метода является возможность ограничиться наиболее информативными главными компонентами и исключить остальные из анализа, что упрощает интерпретацию результатов. Достоинство МГК также в том, что он - единственный математически обоснованный метод факторного анализа .
Факторный анализ может быть:
- разведочным - он осуществляется при исследовании скрытой факторной структуры без предположения о числе факторов и их нагрузках;
- конфирматорным , предназначенным для проверки гипотез о числе факторов и их нагрузках (примечание 2).
Условия применения факторного анализа
Практическое выполнение факторного анализа начинается с проверки его условий. В обязательные условия факторного анализа входят:
Основные понятия факторного анализа
- Фактор - скрытая переменная
- Нагрузка - корреляция между исходной переменной и фактором
Процедура вращения. Выделение и интерпретация факторов
Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Цель ортогональных вращений - определение простой структуры факторных нагрузок, целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Согласно определению Мюльека простая структура соответствует требованиям:
- в каждой строке матрицы вторичной структуры V должен быть хотя бы один нулевой элемент;
- Для каждого столбца k матрицы вторичной структуры V должно существовать подмножество из r линейно-независимых наблюдаемых переменных, корреляции которых с k-м вторичным фактором - нулевые. Данный критерий сводится к тому, что каждый столбец матрицы должен содержать не менее r нулей.
- У одного из столбцов каждой пары столбцов матрицы V должно быть несколько нулевых коэффициентов (нагрузок) в тех позициях, где для другого столбца они ненулевые. Это предположение гарантирует различимость вторичных осей и соответствующих им подпространств размерности r-1 в пространстве общих факторов.
- При числе общих факторов больше четырех в каждой паре столбцов должно быть некоторое количество нулевых нагрузок в одних и тех же строках. Данное предположение дает возможность разделить наблюдаемые переменные на отдельные скопления.
- Для каждой пары столбцов матрицы V должно быть как можно меньше значительных по величине нагрузок, соответствующих одним и тем же строкам. Это требование обеспечивает минимизацию сложности переменных.
(В определении Мьюлейка через r обозначено число общих факторов, а V - матрица вторичной структуры, образованная координатами (нагрузками) вторичных факторов, получаемых в результате вращения.) Вращение бывает:
- ортогональным
- косоугольным .
При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид - это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс ». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности .
Главной проблемой факторного анализа является выделение и интерпретация главных факторов. При отборе компонент исследователь обычно сталкивается с существенными трудностями, так как не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Существует несколько часто употребляемых критериев определения числа факторов. Некоторые из них являются альтернативными по отношению к другим, а часть этих критериев можно использовать вместе, чтобы один дополнял другой:
Практика показывает, что если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных. Возможны ещё два варианта: 1). сильное перераспределение дисперсии - результат выявления латентного фактора; 2). очень незначительное изменение (десятые, сотые или тысячные доли нагрузки) или его отсутствие вообще, при этом сильные корреляции может иметь только один фактор, - однофакторное распределение. Последнее возможно, например, когда на предмет наличия определённого свойства проверяются несколько социальных групп, однако искомое свойство есть только у одной из них.
Факторы имеют две характеристики: объём объясняемой дисперсии и нагрузки. Если рассматривать их с точки зрения геометрической аналогии, то касательно первой отметим, что фактор, лежащий вдоль оси ОХ, может максимально объяснять 70 % дисперсии (первый главный фактор), фактор, лежащий вдоль оси ОУ, способен детерминировать не более 30 % (второй главный фактор). То есть в идеальной ситуации вся дисперсия может быть объяснена двумя главными факторами с указанными долями . В обычной ситуации может наблюдаться два или более главных факторов, а также остаётся часть неинтерпретируемой дисперсии (геометрические искажения), исключаемая из анализа по причине незначимости. Нагрузки, опять же с точки зрения геометрии, есть проекции от точек на оси ОХ и ОУ (при трёх- и более факторной структуре также на ось ОZ). Проекции - это коэффициенты корреляции, точки - наблюдения, таким образом, факторные нагрузки являются мерами связи. Так как сильной считается корреляция с коэффициентом Пирсона R ≥ 0,7, то в нагрузках нужно уделять внимание только сильным связям. Факторные нагрузки могут обладать свойством биполярности - наличием положительных и отрицательных показателей в одном факторе. Если биполярность присутствует, то показатели, входящие в состав фактора, дихотомичны и находятся в противоположных координатах .
Методы факторного анализа:
Примечания
Литература
- Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. - М .: Мир, 1982. - С. 488.
- Колин Купер. Индивидуальные различия. - М.: Аспект Пресс, 2000. - 527 с.
- Гусев А. Н., Измайлов Ч. А., Михалевская М. Б. Измерение в психологии. - М.: Смысл, 1997. - 287 с.
- Митина О. В., Михайловская И. Б. Факторный анализ для психологов. - М.: Учебно-методический коллектор Психология, 2001. - 169 с.
- Факторный, дискриминантный и кластерный анализ / сборник работ под ред. Енюкова И. С. - М.: Финансы и статистика, 1989. - 215 с.
- Пациорковский В. В., Пациорковская В. В. SPSS для социологов. - М.: Учебное пособие ИСЭПН РАН, 2005. - 433 с.
- Бююль А., Цёфель П. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей. - СПб.: ООО «ДиаСофтЮП», 2002. - 603 с.
- Факторный, дискриминантныи и кластерный анализ: Пер.
Ф18 с англ./Дж.-О. Ким, Ч. У. Мьюллер, У. Р. Клекка и др.; Под ред. И. С. Енюкова. - М.: Финансы и статистика, 1989.- 215 с:
Ссылки
- Электронный учебник StatSoft. Главные компоненты и факторный анализ
- Нелинейный метод главных компонент (сайт-библиотека)
Wikimedia Foundation . 2010 .
Смотреть что такое "Факторный анализ" в других словарях:
факторный анализ - — факторный анализ Область математической статистики (один из разделов многомерного статистического анализа), объединяющая вычислительные методы, которые в ряде случаев позволяют … Справочник технического переводчика
Статистический метод проверки гипотез о влиянии разл. факторов на изучаемую случайную величину. Разработана и общепринята модель, при которой влияние фактора представлено в линейном виде. Процедура анализа сводится к оценочным операциям с помощью … Геологическая энциклопедия
факторный анализ - (от лат. factor действующий, производящий и греч. analysis разложение, расчленение) метод многомерной математической статистики (см. статистические методы в психологии), применяемый при исследовании статистически связанных признаков с целью… … Большая психологическая энциклопедия
Метод исследования экономики и производства, в основе которого лежит анализ воздействия разнообразных факторов на результаты экономической деятельности, ее эффективность. Райзберг Б.А., Лозовский Л.Ш., Стародубцева Е.Б.. Современный экономический … Экономический словарь
Факторный анализ - область математической статистики (один из разделов многомерного статистического анализа), объединяющая вычислительные методы, которые в ряде случаев позволяют получить компактное описание исследуемых явлений на основе… … Экономико-математический словарь
ФАКТОРНЫЙ АНАЛИЗ, в статистике и психометрии математический метод, при помощи которого большое количество измерений и исследований сводится к малому числу «факторов», полностью объясняющих полученные результаты исследований, а также их… … Научно-технический энциклопедический словарь
Раздел статистического анализа многомерного (См. Статистический анализ многомерный),. объединяющий методы оценки размерности множества наблюдаемых переменных посредством исследования структуры ковариационных или корреляционных матриц.… … Большая советская энциклопедия
Факторный анализ принадлежит к числу таких методов, которые, будучи разработанными в рамках запросов одной науки, впоследствии приобрели более широкое междисциплинарное значение. Заслугой психологии можно считать разработку именно такого метода.
Основные идеи факторного анализа были заложены в трудах известного английского психолога Ф. Гальтона (1822-1911), основателя евгеники, внесшего большой вклад в исследование индивидуальных различий. Дальнейшая разработка и внедрение факторного анализа (ФА) в психологию связаны с именами Ч. Спирмена, Р. Кеттелла, Л. Терстоуна.
Необходимость применения ФА в психологии как одного из методов многомерного количественного описания наблюдаемых переменных в первую очередь следует из многомерности объектов, изучаемых данной наукой. Под многомерным представлением объекта понимается результат его оценивания по нескольким различным и существенным для его описания характеристикам - измерениям, т. е. присвоение ему сразу нескольких числовых значений.
Информативность многомерного описания объекта изучения возрастает с увеличением количества используемых признаков или измерительных шкал. Однако очень трудно выбрать сразу и существенные, и независимые друг от друга характеристики. Как правило, исследователь начинает с заведомо избыточного количества признаков и в процессе работы сталкивается с необходимостью адекватной интерпретации большого объема полученных данных и их компактной визуализации. Анализируя полученные данные, исследователь замечает тот факт, что оценки изучаемого объекта, полученные по некоторым шкалам, сходны между собой. Другими словами, возникает вопрос о том, что многие характеристики, по которым производилось измерение нашего объекта, вероятно, в некоторой степени дублируют друг друга, а вся полученная информация в целом избыточна. За связанными друг с другом переменными, по-видимому, стоит влияние некоторой скрытой, латентной переменной, с помощью которой можно объяснить наблюдаемое сходство полученных оценок. Очень часто эту переменную называют фактором.
Таким образом, метод научного познания - обобщение - приводит нас к возможности и необходимости выделения факторов как переменных более общего, более высокого порядка. Обобщение позволяет заметить те связи между исходными характеристиками, которые ранее не были очевидными, а после этого выйти на более высокий уровень понимания сущности измеряемого объекта.
Существует несколько статистических методов, которые позволяют исследовать отношения между переменными, не определяя, какие из них являются зависимыми, а какие - независимыми. Для этих методов все переменные оказываются в равном положении - ни одна из них не является более важной, чем другая. Первый метод, который мы рассмотрим, метод главных компонент, объясняет наибольшую вариативность в терминах наименьшего количества линейных комбинаций переменных. Второй метод, факторный анализ, объясняет отношения между переменными с помощью нескольких факторов, которые не могут быть прямо измерены. Оба метода равного количеству исходных переменных. Однако факторы, определяемые в результате факторизации, как правило, не равноценны по своему значению.
Коэффициенты, определяющие новую переменную, выбираются таким образом, чтобы новые переменные (главные компоненты, факторы) описывали максимальное количество вариативности данных и не коррелировали между собой. Они представляют собой коэффициент корреляции между исходной переменной и новой переменной (фактором). Коэффициенты называются факторными нагрузками. Обычно они представляются в виде таблицы, где факторы располагаются в виде
Чтобы проанализировать изменчивость признака под воздействием контролируемых переменных, применяется дисперсионный метод.
Для изучения связи между значениями – факторный метод. Рассмотрим подробнее аналитические инструменты: факторный, дисперсионный и двухфакторный дисперсионный метод оценки изменчивости.
Дисперсионный анализ в Excel
Условно цель дисперсионного метода можно сформулировать так: вычленить из общей вариативности параметра 3 частные вариативности:
- 1 – определенную действием каждого из изучаемых значений;
- 2 – продиктованную взаимосвязью между исследуемыми значениями;
- 3 – случайную, продиктованную всеми неучтенными обстоятельствами.
В программе Microsoft Excel дисперсионный анализ можно выполнить с помощью инструмента «Анализ данных» (вкладка «Данные» - «Анализ»). Это надстройка табличного процессора. Если надстройка недоступна, нужно открыть «Параметры Excel» и включить настройку для анализа .
Работа начинается с оформления таблицы. Правила:
- В каждом столбце должны быть значения одного исследуемого фактора.
- Столбцы расположить по возрастанию/убыванию величины исследуемого параметра.
Рассмотрим дисперсионный анализ в Excel на примере.
Психолог фирмы проанализировал с помощью специальной методики стратегии поведения сотрудников в конфликтной ситуации. Предполагается, что на поведение влияет уровень образования (1 – среднее, 2 – среднее специальное, 3 – высшее).
Внесем данные в таблицу Excel:
Значимый параметр залит желтым цветом. Так как Р-Значение между группами больше 1, критерий Фишера нельзя считать значимым. Следовательно, поведение в конфликтной ситуации не зависит от уровня образования.
Факторный анализ в Excel: пример
Факторным называют многомерный анализ взаимосвязей между значениями переменных. С помощью данного метода можно решить важнейшие задачи:
- всесторонне описать измеряемый объект (причем емко, компактно);
- выявить скрытые переменные значения, определяющие наличие линейных статистических корреляций;
- классифицировать переменные (определить взаимосвязи между ними);
- сократить число необходимых переменных.
Рассмотрим на примере проведение факторного анализа. Допустим, нам известны продажи каких-либо товаров за последние 4 месяца. Необходимо проанализировать, какие наименования пользуются спросом, а какие нет.
Теперь наглядно видно, продажи какого товара дают основной рост.
Двухфакторный дисперсионный анализ в Excel
Показывает, как влияет два фактора на изменение значения случайной величины. Рассмотрим двухфакторный дисперсионный анализ в Excel на примере.
Задача. Группе мужчин и женщин предъявляли звук разной громкости: 1 – 10 дБ, 2 – 30 дБ, 3 – 50 дБ. Время ответа фиксировали в миллисекундах. Необходимо определить, влияет ли пол на реакцию; влияет ли громкость на реакцию.
Факторный анализ (англ. factor analysis) - совокупность математических методов снижения размерности пространства наблюдаемых переменных с помощью линейного проектирования. Исходным материалом для применения Ф. а. служат матрицы расстояний между наблюдаемыми переменными (показателями разных тестов, показателями отдельных шкал тестов, измерениями к.-л. характеристик испытуемых); в классических вариантах Факторный анализ - это матрицы парных корреляций, в поздних модификациях - ненормированные аналоги корреляций или даже топологические меры расстояния. Основные алгоритмы факторного анализа: метод главных компонент и центроидный метод. Наибольшую сложность представляет интерпретация результатов Ф. а. Многие методы психодиагностики создавались с помощью факторного анализа.
О некоторых применениях Факторный анализ - см .: Большая пятерка , Метод семантического дифференциала , Первичные интеллектуальные способности .
Большая энциклопедия по психиатрии. Жмуров В.А.
Факторный анализ - общее название ряда статистических процедур, которые направлены на определение места меньшего числа измерений, кластеров или факторов в большем наборе независимых переменных или пунктов.
Психомоторика: cловарь-справочник. Дудьев В.П.
Факторный анализ (от лат. factor - делающий, производящий и греч. analysis - разложение, расчленение) - метод многомерной математической статистики, применяемый при исследовании статистически связанных признаков с целью выявления определенного числа скрытых от непосредственного наблюдения факторов
Неврология. Полный толковый словарь. Никифоров А.С.
нет значения и толкования слова
Оксфордский толковый словарь по психологии
Факторный анализ - этот термин в действительности не представляет собой единого понятия, скорее он служит общим названием для ряда статистических процедур, которые направлены на определение места меньшего числа измерений, кластеров или факторов в большем наборе независимых переменных или пунктов. Основной отличительный элемент факторного анализа – репозиция данных. Начиная с массива коэффициентов корреляций между всеми первичными переменными базы данных (число которых может быть очень велико, особенно если это пункты личностного опросника или теста интеллекта) с помощью методики факторного анализа выделяется малое число основных компонентов, которые могут рассматриваться как исходные переменные, объясняющие взаимосвязи, наблюдаемые в данных. Переменные, которые коррелируют друг с другом на высоком уровне, будут определяться как представляющие один фактор; переменные, которые не коррелируют друг с другом, определяются как представляющие ортогональные (или независимые) факторы. Идеальный факторный анализ выделил бы малое число факторов, каждый из которых был бы ортогональным друг другу; то есть в пространственных понятиях, которые располагались бы под прямым углом Друг к другу в графическом изображении. Обратите внимание , что все эти процедуры – строго статистические; факторы, которые выявляются в ходе анализа, еще должны быть субъективно исследованы, чтобы определить, представляют ли они наиболее яркие психологические измерения.
Например, в тестах на Ю значения по ряду пунктов могут оказаться высоко коррелирующими друг с другом и определяться как статистический фактор, например, исследование этих пунктов может показать, что все они содержат математические элементы, и таким образом это может привести к предположению о существовании математического фактора. Имеется тенденция, особенно когда методы факторного анализа применяются к личностным опросникам, определять выявляемые факторы как черты. Строго говоря, фактор – не черта; черта выводится из фактора, он представляет регулярность, лежащую в основе базы данных, и эти два термина не должны рассматриваться как синонимы. Установление валидной черты требует дополнительных выводов; для обсуждения использования и сопутствующих проблем см. черта.
Факторный анализ является важным инструментом в тех областях психологии, в которых основные компоненты предполагаются, но трудно различимы, например, тестирование интеллекта, оценки личности, Семантика и т.п. Сами эти процедуры довольно сложны, и для того чтобы понимать и использовать их, требуется владение в некоторой степени математическими знаниями. Во многих последующих статьях даются основные понятия концептуальной базы факторного анализа; для того чтобы познакомиться с математическими основами и методами применения, читателю следует обратиться к книгам по факторному анализу.
предметная область термина
ОБРАТНЫЙ ФАКТОРНЫЙ АНАЛИЗ - см. факторный анализ, обратный.
ФАКТОРНЫЙ АНАЛИЗ (FACTOR ANALYSIS) - набор техник, предназначенных для выявления переменных, которые могли бы частично описывать связи внутри большого числа переменных.
ИНВЕРТИРОВАННЫЙ ФАКТОРНЫЙ АНАЛИЗ - см. обратный факторный анализ.
Переменные |
Фактор 1 |
Фактор 2 |
Фактор 3 |
Объяснимая | |||
дисперсия |
гументация содержания, фактически угадываемого в том или ином факторе - самая сложная и противоречивая задача. Например, если с большими положительными весами в один из выделившихся факторов вошли такие переменные, как высокий рост, грубый голос, большая мышечная масса, склонность к риску, широкие плечи, агрессивное поведение, то вероятнее всего подобная комбинация антропологом будет трактоваться как фактор мужского пола, эндокринолог увидит влияние какого-то гормона, а психолог попытается найти некие аналоги в типологии личности. Особо широко в психологии приемы факторного анализа представлены при попытках произвести упорядочение (объединение в шкалы) многочисленных пунктов в объемных личностных опросниках.
Большинство программ факторного анализа построено таким образом, что первый выделившийся фактор обладает самым большим влиянием на разброс показателей в группе (объяснимая дисперсия), а значение остальных факторов последовательно убывает.
Существует несколько основных форм факторного анализа, дающих в итоге различные результаты. Выбор необходимого варианта диктуется конкретными задачами дипломного исследования.
❖ Кластерный анализ
Если вам необходимо разбить множество ваших переменных (объектов) на заданное или неизвестное число классов, то целесообразно использовать кластерный анализ (cluster - гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством). Это не слишком часто используемая в дипломных работах форма математической обработки эмпирических материалов, представляющая интерес в тех случаях, когда переменных достаточно мно-
Рис. 3. Пример одного из вариантов графического представления результатов кластерного анализа шести переменных.
го и хочется наглядно увидеть их упорядоченность - в каких иерархических отношениях находятся переменные более высокого уровня обобщенности к более конкретным, частным (рис. 3).
Весьма любопытные результаты, тяготеющие к сфере психолингвистики, с помощью кластерного анализа можно получить при применении его к пунктам психологических тестов, вопросам опросников и анкет.
Существует точка зрения, что в отличие от многих других статистических процедур, методы кластерного анализа используются в большинстве случаев тогда, когда еще не имеется каких-либо гипотез относительно классов, т. е. когда вы все еще находитесь в описательной стадии исследования.
Пользоваться результатами кластерного анализа нужно осторожно, поскольку он может навязывать экспериментатору гипотезу об отношениях переменных, построенную на внешних, формальных критериях и не учитывать их качественную специфику. Для того, чтобы избежать подобной ошибки, предпочтительно применять несколько разных алгоритмов расчета (их много, техники группировки отличаются) и выбрать из результатов тот, который лучше всего объясняется с позиции здравого смысла. Следует понимать, что кластерный анализ определяет «наиболее возможно значимое решение».
❖ Дискримииантный анализ
Еще один из методов статистической обработки, который может оказаться полезным в дипломной работе, называется дискриминант- ним анализом. Суть его состоит в том, что он позволяет делить обладающие какими-то признаками объекты или состояния, относя их к како- му-либо классу или оценивать близость конкретного состояния к одному из классов. Сама исследовательская процедура дискриминан- тного анализа состоит из нескольких шагов:
определяются группы, которые в дальнейшем нужно различать (например, больных истерическим неврозом от больных неврозом навязчивых состояний) - это так называемая обучающая выборка;
эти группы, каждый член которых уже имеет точный (верифицированный) диагноз, исследуются по максимальному числу признаков (текущая симптоматика, личностная предрасположенность, специфика семейного воспитания, характер психотравмирующих ситуаций и т. п.);
по каждому из исследованных признаков вся обучающая выборка (и тех и других больных) дискриминируется и отслеживается - насколько точно данный признак разделил группу по диагнозам по сравнению с фактическим положением дел;
из всех просмотренных признаков отбираются наиболее информативные (те, которые наиболее точно делят обучающую выборку) и в дальнейшем они начинают использоваться для улучшения точности диагноза у тех, кому он еще не поставлен;
Попутно, при необходимости, можно отследить, насколько близко или далеко находится каждый из обследованных индивидов к тому или другому состоянию.
В итоге дискриминантного анализа для каждой переменной вы получите стандартизованный коэффициент (Т - лямбда Уилк- са), интерпретируемый следующим образом: чем он больше, тем меньше вклад соответствующей переменной в различение совокупностей.
Другими словами, основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какой-либо переменной (или их комбинации), и затем использовать эту переменную, чтобы предсказать для новых членов их принадлежность к той или иной группе (это задача прогноза). Более простой пример: показатель роста может служить дискриминирующим признаком для отнесения неизвестного нам человека к мужскому или женскому полу, поскольку уже точно известно, что средний рост мужчины выше среднего роста женщины.
Один подобный признак, как можно догадаться из представленного примера, не гарантирует надежности прогноза, но совокупность характеристик может сделать его достаточно уверенным.
Ниже приводится иллюстрация графического представления дискриминантного анализа (рис. 4).
Root 1 vs. Root2
Рис. 4. Графический пример разделения носителей признака на три группы, полученный в результате дискриминантного анализа.
❖ Непараметрические методы
Еще раз хотелось бы подчеркнуть, что все рассмотренные процедуры статистического анализа могут быть корректно использованы только в том случае, если ваши экспериментальные данные подчиняются т. н. нормальному закону распределения или хотя бы приближаются к нему. Это значит, что в имеющемся у вас распределении крайние значения признака - и наименьшие и наибольшие - появляются редко, а чем ближе значение признака к средней арифметической, тем чаще оно встречается (см. рис. 1).
Если такого соответствия нет, что, как правило, объясняется либо малыми размерами выборки (менее 20-30), либо измерениями в порядковых шкалах (типа «высокий», «средний», «низкий»), либо тем, что переменные объективно распределены «ненормально», то для обработки эмпирических материалов диплома нужно использовать так называемые непараметрические критерии, хотя они и имеют меньшую мощность и обладают меньшей гибкостью (для их расчета не рассматриваются и не учитываются значения среднего и стандартного отклонения). Но у них есть и ряд преимуществ. Они малочувствительны к неточным измерениям и эти методы могут применяться для обработки данных, имеющих полуколичественную природу (ранги, баллы и т. д.). Кроме того, с их помощью можно получить ответы на такие вопросы, которые неразрешимы с использованием методов, основанных на нормальном распределении. Следовательно, они иногда оказываются уместны и для обработки нормально распределенных результатов исследования.
Не вдаваясь в подробности, укажем лишь на названия непараметрических процедур, позволяющих получить показатели, аналогичные нормально распределенным.
Для выяснения достоверности различий между двумя независимыми выборками (например, при сравнении мальчиков и девочек) непараметрическими альтернативами t-критерия являются серийный критерий В альд а-Вольфович a, U критерий Манна-Уитни и двухвы- бор очный критерий типа Колмогорова-Смирнова.
Если в дипломе выясняются различия между зависимыми выборками (например, показателями одной группы до коррекционной работы и после нее), то нужно использовать Т-критерий Уилкоксона для разностей пар, который может быть применен также и к ранжированным данным. По сравнению сt-критерием Стъюдента, он требует значительно меньшего объема вычислений и почти также строго проверяет нормально распределенные выборки. Его эффективность для больших и малых выборок составляет около 95%.
Если две рассматриваемые переменные имеют альтернативное распределение (включают только две градации, как например, показатели теста в группе ниже или выше некой избранной величины до и после тренировок, либо количество справившихся с контрольной по математике среди мальчиков и девочек), то подходящими непараметрическими критериями достоверности различий будут % 2 (хи-квадратен не рекомендован к применению, если число опытов в каждом из сравниваемых распределений меньше 10) и точный критерий Фишера для четырехпольной таблицы. Внимание: не путайте алгоритм расчета упомянутого непараметрического критерия % 2 с имеющим много общего алгоритмом расчета критерия согласия х 2 Пирсона, полезного при сравнении эмпирического и теоретического распределений, как правило используемого для установления соответствия реально полученного распределения нормальному закону.
Для выяснения связей между признаками (корреляции) можно рассчитать уже упоминавшийся тетрахорический показатель (г),ранговые коэффициенты корреляции Спирмена (R или р) и may (т)Кендалла. Последние два могут быть использованы для определения тесноты связей как между количественными, так и между качественными признаками при условии, если их значения упорядочить или проранжировать по степени убывания или возрастания признака.
❖ Компьютерная обработка и графические иллюстрации
Пускай вас не смущает некоторая перегруженность статистических процедур, рекомендуемых для использования в дипломной работе. В большинстве случаев вам не обязательно (хотя и желательно) быть знакомыми с их математическим аппаратом. К сегодняшнему дню для нужд науки разработаны многочисленные компьютерные программы, позволяющие даже не сведущему в математике человеку довольно легко рассчитывать большинство желаемых показателей. Самыми известными и популярными из них являются пакеты Statistica (табличные и графические примеры с ее использованием приведены выше) иSPSS. Обе программы снабжены справочным материалом в формеHelp-ов и специальным информационным сопровождением с обзором основных расчетных алгоритмов. При выведении показателей различия, в корреляционных матрицах и в других таблицах автоматически выделяются цветом и жирностью числовые значения, представляющие для исследователя особый интерес (по достоверности, важности, приоритетности и т. д.).
Эти же пакеты позволяют существенно улучшить внешний вид дипломной работы за счет внесения в нее большей наглядности. Это достигается заменой некоторых трудно читаемых таблиц и цифровых данных на графики, гистограммы, и другие формы иллюстраций, хорошо вписывающихся в смысловую канву предъявленных результатов (но ничего лишнего!).
Выбор формы графика не должен быть случаен. Например, изменения во времени лучше воспринимаются в линейном представлении, сопоставление показателей двух групп - в столбчатом, пропорции - в круговых гистограммах, а рассеяние - в точечном (рис. 5-8).