СТАТИСТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ



БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ ФИЛОСОФИИ И СОЦИАЛЬНЫХ НАУК

КАФЕДРА ПСИХОЛОГИИ

«СТАТИСТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ»

ЛЕКЦИИ

студента 1 курса отделения психологии

Тункевича Виктора Викторовича

преподаватель В.В. Сечко

Минск, 2012

§1. Составные части математической статистики.

Математическую статистику можно условно подразделить на три части:

Описательная статистика.

Теория статистического вывода.

Планирование и анализ эксперимента.

Описательная статистика – это раздел математической статистики, занимающейся описанием, представлением и табулированием совокупности исходных данных.

Теория статистического вывода представляет собой общий класс задач, характеризующихся попытками вывести свойства большого массива данных (генеральной совокупности). Путём исследования небольшого объёма данных (выборки). Теория статистического вывода строится на описательной статистике.

Планирование и анализ эксперимента представляют собой статистические методы, разработанные для обнаружения и исследования взаимосвязей между изучаемыми переменными.

§2. Основные этапы статистической обработки данных.

1-й этап: Исходный (предварительный) анализ исследуемого реального явления.

В результате этого анализа определяются:

Основные цели исследования на содержательном неформализованном уровне.

Совокупность единиц, представляющих собой предмет статистического исследования (например: люди участвующие в психологическом эксперименте).

Перечень отобранных из представленного специалистами априорного (до эксперимента) набора показателей характеризующих состояние каждого из исследуемых объектов.

Степень формализации соответствующих записей при сборе исходных данных.

Общее время и трудозатраты на планируемые работы.

Формализованная постановка задачи по возможности, включающая в себя статистическую модель изучаемого явления.

Трудоёмкость 1-го этапа бывает, сравнима с трудоёмкостью всех остальных вместе взятых этапов.

2-й этап: Составление детального плана сбора исходной статистической информации.

При составлении этого плана необходимо по возможности учитывать полную схему дальнейшего статистического анализа.

При планировании особого внимания заслуживает ситуация, когда определяется, какой должна быть выборка – случайной, пропорциональной, расслоенной и т.п.

3-й этап: Сбор исходных статистических данных и ввод этих данных в компьютер.

4-й этап: Первичная статистическая обработка данных.

В ходе этой обработки решаются следующие задачи:

Отображение переменных, описанных текстом в номинальную или порядковую шкалу.

Анализ резко выделяющихся наблюдений.

Восстановление пропущенных наблюдений.

Проверка статистической независимости исходных данных.

5-й этап: Составление детального плана вычислительного анализа собранного материала.

На этом этапе определяются основные группы, для которых будет проводиться дальнейший статистический анализ. Желательно чётко знать блок схему анализов с указанием привлекаемых методов. Формируется критерий, на основании которого выбирается один из альтернативных методов статистической обработки исходных данных.

6-й этап: Вычислительная реализация основной части статистической обработки данных.

7-й этап: Подведение итогов исследования.

Результаты исследования и его основные выводы формулируются в содержательных терминах. На этом этапе проверяется, в какой мере достигнуты намеченные цели исследования. Если некоторые из них не достигнуты, то объясняется почему.

Работа завершается содержательной формулировкой новых задач, вытекающих из проведённого исследования.

§3. Генеральная совокупность и выборка из неё. Репрезентативность выборки.

Исследование обычно начинается с некоторого предположения требующего проверки с привлечением фактов. Это предположение (гипотеза) формулируется в отношении связей, явлений или свойств в некоторой совокупности объектов.

Например: «исследователь может предположить, что женщины более тревожны, чем мужчины». В этом случае объектами носителями свойств будут все мужчины и женщины. Для проверки предположения на фактор необходимо измерить соответствующие свойства у их носителей. Но невозможно измерить тревожность у всех мужчин и женщин. Поэтому при проведении исследования ограничиваются лишь относительно небольшой группой людей.

Генеральная совокупность – это всё множество объектов в отношении которого, формулируется исследовательская гипотеза.

В нашем примере такой генеральной совокупностью, является все мужчины и все женщины. Таким образом, генеральная совокупность – это как правило недоступное для сплошного исследования множество потенциальных испытуемых.

Выборка – это ограниченная по численности группа объектов (в психологии испытуемых), специально отбираемое из генеральной совокупности для изучения её свойств.

Фактически при статистической обработки выборкой из рассматриваемой генеральной совокупности, являются результаты ограниченного ряда наблюдений исследуемого показателя (признака — переменной).

В дальнейшем будем обозначать выборку следующим образом: х12,…,хn, где нижний индекс соответствует порядковому номеру элемента в исходной выборке.

Количество наблюдений образующих выборку, то есть, число n, называется объёмом выборки.

Изучение на выборке свойств генеральной совокупности называется выборочным исследованием.

Практически все психологические исследования являются выборочными, а их выводы, распространяются на генеральные совокупности.

Одним из важнейших вопросов от успешного лишения которого зависит достоверность выводов получаемых в результате статистической обработки данных и является вопросом репрезентативности выборки, то есть, вопрос полноты и адекватности представления выборкой интересующих нас свойств исследуемой генеральной совокупности.

Полнота чаще всего характеризуется объёмом выборки, чем больше изменчивость изучаемого

Свойства, тем больше должен быть объём выборки. К сожалению, строгих рекомендаций по предварительному определению требуемого объёма выборки не существует. Тем не менее, можно сформулировать наиболее общие рекомендации (по Наследову).

Наибольший объём выборки необходим при разработке диагностической методике, от 200 до 1000-2000 человек.

Если необходимо сравнивать 2 выборки, то их общая численность должна быть не менее 50-ти человек, причём численность сравниваемых выборок должна быть приблизительно одинакова.

Если изучается взаимосвязь между какими-либо свойствами (признаками), то объём выборки должен быть не меньше 30-35 человек.

Под адекватностью понимают соответствие выбранной модели реальному изучаемому явлению. Таким образом, репрезентативность выборки, иными словами, её представительность – это способность выборки представлять изучаемые явления достаточно полно с точки зрения их изменчивости в генеральной совокупности.

§4. Способы организации выборки.



Сущность статистических методов состоит в том, чтобы по некоторой части генеральной совокупности, то есть по выборке выносить суждения о свойствах генеральной совокупности в целом. Таким образом, после того, как сформулирована гипотеза и определены соответствующие генеральные совокупности, перед исследователем возникает проблема организации выборки. Рассмотрим основные способы организации выборки:

Простой случайный отбор – это способ получения n объектов из конечной генеральной совокупности состоящей из N объектов при котором, каждая выборка имеет одинаковую возможность (вероятность)быть отобранным. На практике для реализации простого случайного отбора объекты генеральной совокупности нумеруют от 1 до N.

Затем, используя таблицу случайных чисел или корзину с шарами, отбирают друг за другом n объектов. Полученная таким образом выборка называется случайной.

Простой отбор с помощью регулярной, но не существенной для изучаемого вопроса процедуры. Например, в психологических исследованиях по первой букве фамилии.

Курс лекций статистические методы в психологииСтратифицированный (расслоённый) способ отбора. В этом случае генеральную совокупность объёма N подразделяют на непересекающиеся подсовокупности. Эти подсовокупности называются слоями или стратами. Из каждого слоя извлекается простая случайная выборка соответственно объёма n1 n2nr=n. Стратифицированный отбор применяется, когда слои являются однородными, то есть входящие в них объекты, близки по своим характеристикам.

Серийный отбор. Используется тогда, когда удобнее использовать не отдельные элементы генеральной совокупности, а целые блоки или серии таких элементов. Например, выбираем все семьи в одном доме. Такой способ отбора иногда называют гнездовым.

Комбинированный (ступенчатый) отбор. он объединяет в себе сразу несколько из вышеперечисленных способов отбора, которые составляют различные ступени выборочного исследования.

Последовательный (активный) отбор. в основном используется при анализе физико-химических и технологических процессов и называется активным, так как исследователь может влиять на величину некоторых переменных.

§5. Шкалы измерений.

Любое эмпирическое научное исследование начинается с того, что исследователь фиксирует выраженность интересующих его свойств у объектов исследования как правило, при помощи чисел. Таким образом, следует различать:

Объекты исследования (в психологии это чаще всего люди)

Их свойства (то, что интересует исследователя и составляет предмет изучения)

Признаки, отражающие в числовой шкале выраженность свойств

В зависимости от того, какая операция лежит в основе измерения признака, различают так называемые шкалы измерений. Рассмотрим наиболее употребляемые в статистике шкалы измерений.

Номинальная шкала (шкала наименований, шкала классификации)используется для отнесения объектов к определённому классу. Например: пол, темперамент. Если объект может относиться только к одному из двух классов, то такая шкала называется номинальной дихотомической. Например: пол или варианты ответов на вопрос (да или нет).

Порядковая шкала (ранговая, ординальная), используется для отнесения объектов к определённому классу в соответствии со степенью выраженности заданного свойства изучаемого объекта. Например: оценки на экзамене или уровень тревожности.

Количественные шкалы имеются две разновидности количественных шкал:

Интервальная шкала

Абсолютная шкала (шкала отношений)

Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описывать различия между свойствами объектов. Для задания этой шкалы устанавливают единицу измерения и произвольную нулевую точку отсчёта. Например: температура по шкале Цельсия (0С).

Абсолютная шкала отличается от интервальной шкалы, только тем, что в ней устанавливается абсолютная нулевая точка отсчёта соответствующее полному отсутствию выраженности измеряемого свойства. Например: температура по шкале Кельвина (0К).

Определение того, в какой шкале измерен признак, является ключевым моментом анализа данных, так как выбор необходимого статистического метода зависит именно от этого. Данные полученные в одной шкале, можно перевести в другую шкалу только в следующем направлении.

Курс лекций статистические методы в психологии

Курс лекций статистические методы в психологииВ обратном направлении, это не возможно:

Поэтому нужно стараться по мере возможности измерять в количественной шкале, так как в этом случае мы сможем перейти к любой из рассмотренных шкал.

Однако при этом происходит частичная потеря столь ценной для нас эмпирической информации об индивидуальных различиях испытуемых. Следствием этого может являться падение статистической достоверности результатов исследования.

Перевод исходных данных из количественной шкалы в порядковую, называется ранжированием. Для этого сначала, необходимо упорядочить исходную выборку, а затем каждому элементу выборки присвоить ранг. То есть, число соответствующее порядковому номеру этого элемента в упорядоченной выборке.

§6. Табулирование данных.

Для анализа и интерпретации количественных данных их необходимо каким-то образом обобщить. Для этого часто используют табулирование данных, то есть, представляют исходную выборку в виде таблицы соответствующей структуры. Табулирование данных осуществляется в 4 этапа:

R=xmaxxmin

R=xmaxxmin

Определение размаха выборки. Для этого необходимо из максимального элемента выборки вычесть минимальный элемент выборки.

Формула №6.1

Определение ширины интервала группирования данных. Для этого размах выборки делится на количество интервала.

h=

h=

Формула №6.2

К1= и К2=

К1= и К2=

где h— ширина интервала, R— размах выборки, k— количество интервала. Одной из основных проблем на этом этапе, является выбор количество интервала. Очень небольшое количество интервалов, может слишком упростить и сгладить общую тенденцию. Слишком большое количество интервалов, может привести к излишней детализации рассматриваемого явления. Можно воспользоваться следующей рекомендацией: количество интервалов выбирается таким образом, чтобы в среднем, каждый интервал попадало 5-6 элементов выборки. Поэтому сначала вычисляются 2 числа К1 и К2 по следующим формулам:

Формула №6.3

после этого, в качестве требуемого количественного интервала выбирается целое число, находящееся между К1 и К2. Например: К1=7,3 и К2=8,8 поэтому К=8, если между К1 и К2 нет целого числа, то в качестве К выбирается ближайшее целое число. Например: К1=6,2 и К2=6,6 поэтому К=6. После определения К, вычисляется ширина интервала h по формуле №6.2. При этом, для простоты дальнейших вычислений полученная величина h, округляется до целого числа, например: h=4,22≈4 или h=4,53≈5.

Определение границ интервалов группирования данных.

При этом необходимо обращать внимание, чтобы левая граница первого интервала оказалась слева от наименьшего элемента выборки или равнялась ему. Каждая последующая граница, получается путём прибавления ширины интервала к предыдущей границе.

Непосредственно само табулирование данных. На этом этапе подсчитывается, сколько элементов исходной выборки, попало в каждый интервал. Количество элементов выборки, попавших в интервал, называется частотой.

Результатом табулирования данных, является таблица, состоящая обычно из 2-х столбцов. 1-й столбец содержит границы интервалов, а 2-й столбец частоты.

Пример: в классе из 38 учащихся, был проведён эксперимент, в котором измерялась скорость чтения. Были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95, 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные данные.

Хmax=112

хmin=44

n=38

K1==≈6,3

К2==≈7,6

K=7

h===9,7≈10

k=7

h=10

Границы интервалов

Подсчёт

Частоты

Примечание

40-50

2

Перед непосредственным подсчётом частот, мы должны определить для себя, в какой интервал будем включать значения, попадающие точно на границу интервала. Здесь возможны 2 ситуации:

Включаем левую границу.

Включаем правую границу.

Желательно отметить этот выбор «птичкой» в 1-ом столбце таблицы.

50-60

4

60-70

4

70-80

8

80-90

7

90-100

7

100-110

5

110-120

1

n=38

Для некоторого контроля правильности вычислений, необходимо сложить все полученные частоты, если мы правильно сосчитали все наблюдения, то сумма частот должна равняться количеству наблюдений в выборке.

По полученной таблице, можно сделать следующую интерпретацию: основная часть учащихся, читает со средней скоростью, но есть ряд учащихся, которые обладают не высокой скоростью чтения и ряд учащихся, которые читают с достаточно высокой скоростью.

§7. Квантили и их интерпретация.

Одним из наиболее эффективных методов обобщения исходных данных, является описание их при помощи квантилей. Квантиль – это общее, понятие частными случаями её являются: квартиль, дециль, процентиль.

Курс лекций статистические методы в психологииКвантиль (К) – это такая точка на числовой прямой, которая делит исходные данные на 2 части с известными пропорциями (долями), в каждой из частей.

Обычно указывают долю наблюдений, расположенных слева от квантилей. Эта доля называется порядком или уровнем квантили. Квантиль, обычно обозначается (Кр), где р — порядок(уровень квантилей), причём, 0<p<1.

Например: пусть по результатам эксперимента, в котором измерялась скорость чтения, было найдено, что К0,35=70 это означает, что 35% участников эксперимента имеют скорость чтения 70 слов в минуту и меньше или другими словами, 65% участников эксперимента, имеют скорость чтения 70 слов в минуту и больше.

Квартиль (Q) – это такая точка на числовой прямой, которая делит исходные данные на 2 части, каждая из которых, пропорциональна одной или нескольким четвертям.

Обычно, используются 3 квартили: Q1, Q2, Q3, где нижний индекс указывает, сколько четвертей исходных данных расположены на числовой оси слева, под соответствующей квартили. Отметим, что Q4 и Q0 не используются, так как они не несут новой информации, потому что:

Курс лекций статистические методы в психологии

Дециль (Д) – это такая точка на числовой прямой, которая делит исходные данные на 2 части, каждая из которых, пропорциональна одной или нескольким десятым частям. Обычно используются 9 децилей Д12,,Д9, где нижний индекс указывает, сколько десятых частей исходных данных, расположены на числовой оси, слева от соответствующих децилей. Д10 и Д0 не используются, так как Д10max, а Д0=Xmin.

Процентиль (Р) – это такая точка на числовой прямой, которая делит исходные данные на 2 части, каждая из которых, пропорциональна одной или нескольким сотым частям. Обычно используется 99 процентилей Р1, Р2, …,Р99, где нижний сколько сотых частей (процентов) исходных данных расположенных слева от соответствующих процентилей. Р100 и Р0 не используется, так как Р100=Xmax, а Р0=Xmin.для каждой выборки, будут свои квантили. Для одной и той же выборки, некоторая точка, может быть одновременно и квантилью, и квартилью и т.д.

например: К0,5=Q2550.

§8. Графическое представление данных.

Существует 3 основных метода графического представления данных: гистограмма (столбиковая диаграмма), полигон частот, сглаженная кривая (огива).

Гистограмма!

Гистограмма, представляет собой, последовательность столбцов, каждый из которых, опирается на один интервал группирования данных, а высота его, обычно равна количеству исходных данных, попавших в этот интервал, то есть, частоте.

Для построения гистограммы на горизонтальной оси, указываются границы интервалов группирования данных, а на вертикальной оси, частот. Обычно гистограмма строится по результатам табулирования данных.

Пример: построить гистограмму для данных примера из §6.

Курс лекций статистические методы в психологии

Полигон частот!

Построение полигона частот во многом напоминает построение гистограммы, только в этом случае, на горизонтальной оси указываются не границы интервалов, а значения середин интервалов. После этого на координатной плоскости наносятся точки, первая координата которых соответствует середине интервала, а вторая координата – частоте. Для окончательного построения полигона частот указанные точки, соединяются прямыми линиями.

Пример: построить полигон частот, для данных примера из §6.

Курс лекций статистические методы в психологииКурс лекций статистические методы в психологии

Сглаженная кривая (огива)!

Иногда, вместо гистограммы или полигона частот, строят сглаженную кривую (огиву). Основное её отличие, состоит в том, что точки соединяются не прямыми линиями, а таким образом, чтобы огива не имела острых углов или зубцов. Для её построения, сначала необходимо по найденным при табулировании данных частотам, вычислить накопленные частоты, которые затем, перевести в проценты.

Для вычисления накопленной частоты в процентах, необходимо накопленную частоту, умножить на 100 и разделить на количество наблюдений в выборке, то есть n.

В целях упрощения расчётов, накопленную частоту в процентах, можно округлить до целого числа. После этого, на горизонтальной оси указываются значения от 0 до 100 (соответствуют процентам). А на вертикальной оси, указываются границы интервалов группирования данных. Затем, на координатной плоскости наносятся точки, первая координата которых, соответствует накопленной частоте в процентах, а вторая координата – границе интервала. Для окончательного построения агивы, указанные точки соединяются гладкой кривой.

Пример: построить огиву, для данных примера из §6.

Границы интервалов

Частоты

Накопленные частоты

Накопленные частоты в процентах

40-50

2

2

5

50-60

4

2+4=6

16

60-70



Страницы: Первая | 1 | 2 | 3 | ... | Вперед → | Последняя | Весь текст




sitemap sitemap