Уровень значимости. Критическая область. P-значение По уровню важности значение используя

5.6. Вероятность ошибки р

Если следовать подразделению статистики на описательную и аналитическую, то задача аналитической статистики - предоставить методы, с помощью которых можно было бы объективно выяснить, например, является ли наблюдаемая разница в средних значениях или взаимосвязь (корреляция) выборок случайной или нет.

Например, если сравниваются два средних значения выборок, то можно сформулировать две предварительных гипотезы:

Гипотеза 0 (нулевая): Наблюдаемые различия между средними значениями выборок находятся в пределах случайных отклонений.

Гипотеза 1 (альтернативная): Наблюдаемые различия между средними значениями нельзя объяснить случайными отклонениями.

В аналитической статистике разработаны методы вычисления так называемых тестовых (контрольных) величин, которые рассчитываются по определенным формулам на основе данных, содержащихся в выборках или полученных из них характеристик. Эти тестовые величины соответствуют определенным теоретическим распределениям (t-pacnpeлелению, F-распределению, распределению X2 и т.д.), которые позволяют вычислить так называемую вероятность ошибки. Это вероятность равна проценту ошибки, которую можно допустить отвергнув нулевую гипотезу и приняв альтернативную.

Вероятность определяется в математике, как величина, находящаяся в диапазоне от 0 до 1. В практической статистике она также часто выражаются в процентах. Обычно вероятность обозначаются буквой р :

0 < р < 1

Вероятности ошибки, при которой допустимо отвергнуть нулевую гипотезу и принять альтернативную гипотезу, зависит от каждого конкретного случая. В значительной степени эта вероятность определяется характером исследуемой ситуации. Чем больше требуемая вероятность, с которой надо избежать ошибочного решения, тем более узкими выбираются границы вероятности ошибки, при которой отвергается нулевая гипотеза, так называемый доверительный интервал вероятности. Обычно в исследованиях используют 5% вероятность ошибки.

Существует общепринятая терминология, которая относится к доверительным интервалам вероятности:

Высказывания, имеющие вероятность ошибки р <= 0,05 - называются значимыми.
Высказывания с вероятностью ошибки р <= 0,01 - очень значимыми,
А высказывания с вероятностью ошибки р <= 0,001 - максимально значимыми.

В литературе такие ситуации иногда обозначают одной, двумя или тремя звездочками.

В SPSS вероятность ошибки р имеет различные обозначения; звездочки для указания степени значимости применяются лишь в немногих случаях. Обычно в SPSS значение р обозначается Sig. (Significant).

Времена, когда не было компьютеров, пригодных для статистического анализа, давали практикам по крайней мере одно преимущество. Так как все вычисления надо было выполнять вручную, статистик должен был сначала тщательно обдумать, какие вопросы можно решить с помощью того или иного теста. Кроме того, особое значение придавалось точной формулировке нулевой гипотезы.

Но с помощью компьютера и такой мощной программы, как SPSS, очень легко можно провести множество тестов за очень короткое время. К примеру, если в таблицу сопряженности свести 50 переменных с другими 20 переменными и выполнить тест X 2 , то получится 1000 результатов проверки значимости или 1000 значений р. Некритический подбор значимых величин может дать бессмысленный результат, так как уже при граничном уровне значимости р = 0,05 в пяти процентах наблюдений, то есть в 50 возможных наблюдениях, можно ожидать значимые результаты.

Основы теории проверки статистических гипотез.

Понятие статистической гипотезы

Статистическая гипотеза - это предположение о виде распределения или о величинах неизвестных параметров генеральной совокупности, которая может быть проверена на основании выборочных показателей.

Примеры статистическихгипотез:

Генеральная совокупность распределена по закону Гаусса (нормальному закону).

Дисперсии двух нормальных совокупностей равны между собой.

Для оценки величины генеральных параметров по выборочным показателям в биологии используется так называемая нулевая гипотеза , т.е. предположение о том, что генеральные параметры, о которых судят по выборочным данным, не отличаются друг от друга, и что разница, наблюдаемая между выборочными показателями, носит не систематический, а исключительно случайный характер.

Вместе с выдвинутоЙ гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место альтернативная ей гипотеза. Целесообразно их различать.

Нулевой (Но) называют выдвинутую гипотезу.

Альтернативной (Н 1) - гипотезу, противоречащую нулевой.

Различают гипотезы, которые содержат только одно и более одного предположений.

а гипотезу, которая состоит из конечного или бесконечного числа простых гипотез - сложной .

Следует подчеркнуть статистический характер описанного метода проверки нулевой гипотезы, выражаемый, в частности, в том, что утверждение о справедливости нулевой гипотезы принимается не абсолютно, а лишь при некотором уровне значимости.

УРОВНЕМ ЗНАЧИМОСТИ называют процент маловероятных случаев, которые противоречат принятой гипотезе, ставят её под сомнение.

В биологических исследованиях обычно принимают уровень значимости 5%, которому соответствует вероятность Р=0,05.

В более ответственных случаях, когда выводы должны быть особенно строгими, принимается уровень значимости

1% или Р=0,01 и

0,1% или Р = 0,001.

Таким образом, вероятность, которой решено пренебречь при оценке генеральных параметров по данным выборочных наблюдений, выражается принятым уровнем значимости.

Вероятность же обратных случаев, когда гипотеза заслуживает доверие, называется ДОВЕРИТЕЛЬНОЙ ВЕРОЯТНОСТЬЮ.

Обычно в исследовательской практике при меняют три порога доверительной вероятности:

Р 1 =0,95; Р 2 =0,99; Р 3 =0,999

Вероятности Р 1 =0,95; соответствует t = 1,96

Р 2 =0,99; cоответствует t = 2,58

Р 2 =0,999; cоответствует t = 3,29

Величина доверительной вероятности или уровень значимости при проверке гипотез устанавливается самим исследователем в зависимости от степени точности, с какой проводится исследование и ответственности выводов, вытекающих из него.

Если Р≥0,05 или же Р<0,95, то отвергать нулевую гипотезу нет оснований.

Если Р<0,05 или Р≥0,95, нулевая гипотеза отвергается.

Ошибки 1 и 11 рода. Критерий значимости.

Уровень значимости. Критическая область

Решение об отклонении или принятии статистической гипотезы принимается по выборочным данным. Поэтому приходитcя считаться и с возможностью ошибочного решения. Различают ошибки I и II рода.

Ошибка 1 рода состоит в том, что будет отвергнута правильная гипотеза (т.е. будет отвергнута нулевая гипотеза, в то время, когда она верна)

Ошибка 1I рода состоит в том, что будет принята неправильная гипотеза (т.е. будет принята нулевая гипотеза, в то время, когда она не верна)

При отбрасывании нулевой гипотезы есть вероятность того, что она все-таки верна (т.е. мы совершаем ошибку I-ro рода), эту вероятность обозначают α. Вероятность α называется уровнем значимости.

Уровень значимости α - это вероятность совершить ошибку

Вероятность ошибки II рода обозначают ß, а величину

1-ß-называют мощностью критерия .

Чем больше мощность, тем вероятность ошибки II рода меньше.

Допустимый процент возможных ошибок первого рода- вопрос взаимной договоренности, кроме всего прочего здесь должны приниматься во внимание возможные последствия принятия ошибочного решения. Ложные решения, например при экспертизе, могут иметь более серьезные последствия, чем ошибочно декларированная чистота химического реактива. Поэтому в первом случае должны быть предусмотрены более высокая достоверность и, следовательно, более низкое число возможных ошибок 1 рода, чем во втором случае.

Обычно придерживаются следующих правил.

Проверяемая гипотеза отбрасывается, если ошибка 1 рода может появиться в менее чем 100α = 1 % всех случаев (т.е. α 0,01). Тогда рассматриваемое различие считается значимым.

Проверяемая гипотеза принимается, когда ошибка 1 рода возможна в более чем 100α = 5% всех случаев (α 0,05). Тогда рассматриваемое различие считается незначимым.

Рассматриваемую гипотезу надо обсуждать дальше, если число возможных ошибок I рода лежит в интервале между 5% и 1 % (0,01 0,05). Обнаруженная разность интерпретируется как спорная. Часто дополнительные измерения могут прояснить ситуацию. Если по каким-либо причинам дополнительных измерений окажется недостаточно, то полученные данные следует интерпретировать в расчете на самый неблагоприятный случай.

Выбор α - дело договорное, иногда достаточно выбрать 100α = 10%, в отдельных случаях, практически, должна быть исключена возможность ошибочного решения (например, при оценке токсического действия фармацевтического препарата). Тогда проверяемая гипотеза отбрасывается, как только число возможных ошибок 1 рода достигает такого пренебрежительно малого уровня, как, например, 100α = 0,1 %.

Ошибки 1 и II рода зависят друг от друга. Чем меньше будет α, тем больше будет β (и наоборот). Поэтому, нет никакого смысла для проверки значимости выбирать слишком малое значение α, так как из-за этого очень вырастает неизвестное ß. Выбор α относится к фазе планирования эксперимента!

После того, как задались уровнем значимости, находят правило, в соответствии с которым принимается или отклоняется данная гипотеза. Такое правило называется статистическим критерием.

Статистический критерий - правило, в соответствии с которым принимается или отклоняется нулевая гипотеза.

Построение критерия заключается в выборе подходящей функции Т= Т(Х 1 , ... ,Хп) от результатов наблюдений Х 1 , ... Х n , которая служит мерой расхождения между опытными и гипотетическими значениями.

Эта Функция, являющаяся случайной величиной, называется статистикой критерия.

Статистика критерия - специально выработанная случайная величина, функция распределения которой известна.

При этом предполагается, что распределение вероятности Т=Т(1 , ... ,Х п) может быть вычислено при допущении, что проверяемая гипотеза верна и что это распределение не зависит от характеристик гипотетического распределения.

После выбора определенного критерия множество всех возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другая - при которых она принимается, Т.е. на критическую область и область принятия гипотезы.

Критическая область - совокупность значений критерия, при которых нулевую гипотезу отвергают.

Область принятия гипотезы - совокупность значений критерия, при которых нулевую гипотезу принимают.

Основной принцип проверки гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области - гипотезу отвергают, если наблюдаемое значение критерия принадлежит области принятия гипотезы - гипотезу принимают.

Поскольку критерий Т = Т(Х 1 , ... ,Х п) - одномерная случайная величина, все ее возможные значения принадлежат некоторому интервалу. Поэтому критическая область и область принятия гипотезы также являются интервалами, и, следовательно, существуют точки, которые их разделяют. Такие точки называются критическими.

Критические значения критерия - это точки, отделяющие критическую область от области принятия гипотезы.

Критическое значение Т кр находится по распределению статистики Т такое, что если гипотеза верна, то вероятность события (Т критической области) равна α, а - заранее заданный уровень значимости, Т.е. это значение Т кр статистики Т для которого Р(Т критической области) = α.

Различают односторонюю (правостороннюю или левостороннюю) и двустороннюю критическую области. Они определяются из следующих выражений:

правосторонняя - Р(Т>Т кр) = α;

левосторонняя - Р(Т<Т кр) = α

двусторонняя - P(TTкр2) =а Tкр1

Если распределение критерия симметрично относительно нуля, то Р(Т<-Т кр) = Р(Т>Т КР), отсюда получаем Р(Т>Т кр)= а/2.

Рис. 37. Критические области: левосторонняя, правосторонняя, двусторонняя

Критические точки находят по таблицам, соответствующим распределению критерия.

Критерии значимости делят на параметрические и непараметрические.

Первые строятся на основе параметров выборочной совокупности и представляют функции этих параметров,

вторые - функции от вариант данной совокупности с их частотами.

Параметрические критерии применимы лишь в тех случаях, когда генеральная совокупность, из которой взята выборка, распределяется нормально.

Непараметрические критерии применимы к распределениям самых различных форм. Последние имеют определенные преимущества по сравнению с параметрическими, благодаря меньшим требованиям к их применению, большему диапазону возможностей и, часто, большей простоте реализации. Конечно, нужно считаться и с часто более низкой точностью этих критериев по сравнению с парамстрическими.

Результаты статистических методов проверки часто бывают неудобны для аналитиков. Во многих случаях они делают незначимые (а>О,О5) или спорные различия, хотя на основе субъсктивного опыта уже установлено «истинное» различие. В подобных случаях часто помогают дополнительные измерения. Чем больше получено результатов, тем меньшие различия будут достоверно фиксироваться. Ни в коем случае нельзя соблазнятся заменой точных данных сомнительными на основании субъективной оценки.

Профессиональные аналитики уделяют много внимания статистической значимости, и это хорошо. Однако статистическая значимость - лишь один из аспектов хорошего анализа.

Проверка статистической значимости подразумевает выдвижение ряда предположений и определение вероятности того, что полученные результаты имели бы место в случае правильности выдвинутых предположений. Проверка статистической значимости поможет убедиться в том, что данные не вводят вас в заблуждение. Она с математической точки зрения покажет, достаточно ли значимо различие. Бывает, что различия, которые кажутся существенными, не являются таковыми, а бывает и так, что значимыми оказываются небольшие различия. Статистическая проверка позволит убедиться в правильности сделанных выводов.

На основе тестирования создана целая дисциплина. В деловом мире она известна как подход «тестируй и изучай» (test and learn ), включающий основные экспериментальные концепции, которые преподаются на курсах статистики. В среде «тестируй и изучай» эксперимент устроен так, что можно измерить эффекты использования одного или нескольких вариантов и определить, какой из них будет работать лучше всего.

При обосновании статистического вывода следует решить вопрос, где же проходит линия между принятием и отвержением нулевой гипотезы? В силу наличия в эксперименте случайных влияний эта граница не может быть проведена абсолютно точно. Она базируется на понятии уровня значимости. Уровнем значимости называется вероятность ошибочного отклонения нулевой гипотезы. Или, иными словами, уровень значимости - это вероятность ошибки первого рода при принятии решения. Для обозначения этой вероятности, как правило, употребляют либо греческую букву α, либо латинскую букву р. В дальнейшем мы будем употреблять букву р.

Исторически сложилось так, что в прикладных науках, использующих статистику, и в частности в психологии, считается, что низшим уровнем статистической значимости является уровень р = 0,05; достаточным - уровень р = 0,01 и высшим уровень р = 0,001. Поэтому в статистических таблицах, которые приводятся в приложении к учебникам по статистике, обычно даются табличные значения для уровней р = 0,05, р = 0,01 и р = 0,001. Иногда даются табличные значения для уровней р - 0,025 и р = 0,005.

Величины 0,05, 0,01 и 0,001 - это так называемые стандартные уровни статистической значимости. При статистическом анализе экспериментальных данных психолог в зависимости от задач и гипотез исследования должен выбрать необходимый уровень значимости. Как видим, здесь наибольшая величина, или нижняя граница уровня статистической значимости, равняется 0,05 - это означает, что допускается пять ошибок в выборке из ста элементов (случаев, испытуемых) или одна ошибка из двадцати элементов (случаев, испытуемых). Считается, что ни шесть, ни семь, ни большее количество раз из ста мы ошибиться не можем. Цена таких ошибок будет слишком велика.

Заметим, что в современных статистических пакетах на ЭВМ используются не стандартные уровни значимости, а уровни, подсчитываемые непосредственно в процессе работы с соответствующим статистическим методом. Эти уровни, обозначаемые буквой р, могут иметь различное числовое выражение в интервале от 0 до 1, например, р = 0,7, р = 0,23 или р = 0,012. Понятно, что в первых двух случаях полученные уровни значимости слишком велики и говорить о том, что результат значим нельзя. В то же время в последнем случае результаты значимы на уровне 12 тысячных. Это достоверный уровень.

Правило принятия статистического вывода таково: на основании полученных экспериментальных данных психолог подсчитывает по выбранному им статистическому методу так называемую эмпирическую статистику, или эмпирическое значение. Эту величину удобно обозначить как Ч эмп . Затем эмпирическая статистика Ч эмп сравнивается с двумя критическими величинами, которые соответствуют уровням значимости в 5% и в 1% для выбранного статистического метода и которые обозначаются как Ч кр . Величины Ч кр находятся для данного статистического метода по соответствующим таблицам, приведенным в приложении к любому учебнику по статистике. Эти величины, как правило, всегда различны и их в дальнейшем для удобства можно назвать как Ч кр1 и Ч кр2 . Найденные по таблицам величины критических значений Ч кр1 и Ч кр2 удобно представлять в следующей стандартной форме записи:

Подчеркнем, однако, что мы использовали обозначения Ч эмп и Ч кр как сокращение слова «число». Во всех статистических методах приняты свои символические обозначения всех этих величин: как подсчитанной по соответствующему статистическому методу эмпирической величины, так и найденных по соответствующим таблицам критических величин. Например, при подсчете рангового коэффициента корреляции Спирмена по таблице критических значений этого коэффициента были найдены следующие величины критических значений, которые для этого метода обозначаются греческой буквой ρ («ро»). Так для р = 0,05 по таблице найдена величина ρ кр 1 = 0,61 и для р = 0,01 величина ρ кр 2 = 0,76.

В принятой в дальнейшем изложении стандартной форме записи это выглядит следующим образом:

Теперь нам необходимо сравнить наше эмпирическое значение с двумя найденными по таблицам критическими значениями. Лучше всего это сделать, расположив все три числа на так называемой «оси значимости». «Ось значимости» представляет собой прямую, на левом конце которой располагается 0, хотя он, как правило, не отмечается на самой этой прямой, и слева направо идет увеличение числового ряда. По сути дела это привычная школьная ось абсцисс ОХ декартовой системы координат. Однако особенность этой оси в том, что на ней выделено три участка, «зоны». Одна крайняя зона называется зоной незначимости, вторая крайняя зона - зоной значимости, а промежуточная - зоной неопределенности. Границами всех трех зон являются Ч кр1 для р = 0,05 и Ч кр2 для р = 0,01, как это показано на рисунке.

В зависимости от правила принятия решения (правила вывода), предписанного в данном статистическом методе возможно два варианта.

Первый вариант: альтернативная гипотеза принимается, если Ч эмп ≥Ч кр .

Или второй вариант: альтернативная гипотеза принимается, если Ч эмп ≤Ч кр .

Подсчитанное Ч эмп по какому либо статистическому методу должно обязательно попасть в одну из трех зон.

Если эмпирическое значение попадает в зону незначимости, то принимается гипотеза Н 0 об отсутствии различий.

Если Ч эмп попало в зону значимости, принимается альтернативная гипотеза Н 1 о наличии различий, а гипотеза Н 0 отклоняется.

Если Ч эмп попадает в зону неопределенности, перед исследователем стоит дилемма. Так, в зависимости от важности решаемой задачи он может считать полученную статистическую оценку достоверной на уровне 5%, и принять, тем самым гипотезу Н 1 , отклонив гипотезу Н 0 , либо - недостоверной на уровне 1%, приняв тем самым, гипотезу Н 0 . Подчеркнем, однако, что это именно тот случай, когда психолог может допустить ошибки первого или второго рода. Как уже говорилось выше, в этих обстоятельствах лучше всего увеличить объем выборки.

Подчеркнем также, что величина Ч эмп может точно совпасть либо с Ч кр1 либо Ч кр2 . В первом случае можно считать, что оценка достоверна точно на уровне в 5% и принять гипотезу Н 1 , или, напротив, принять гипотезу Н 0 . Во втором случае, как правило, принимается альтернативная гипотеза Н 1 о наличии различий, а гипотеза Н 0 отклоняется.

Уровень значимости - это вероятность того, что мы сочли различия существенными, а они на самом деле случайны.
Когда мы указываем, что различия достоверны на 5% уровне значимости, или при р Если же мы указываем, что различия достоверны на 1% уровне значимости, или при р Иначе, уровень значимости - это вероятность отклонения нулевой гипотезы, в то время как она верна.
Ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода.
Вероятность такой ошибки обычно обозначается как а. Поэтому правильнее указывать уровень значимости: а Если вероятность ошибки - это а, то вероятность правильного решения равна: 1-а. Чем меньше а, тем больше вероятность правильного решения.
В психологии принять считать низшим уровнем статистической значимости 5%-ный уровень, а достаточным 1%-ный. В таблицах критических значений обычно приводятся значения критериев, соответствующих уровням значимости р До тех пор пока уровень значимости не достигнет р=0.05, мы еще не имеем право отклонить нулевую гипотезу. Будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Н0) и принятии гипотезы о статистической достоверности различий (Ні).
Правило отклонения Hp И принятия Hi
Если эмпирическое значение критерия равняется критическому значению, соответствующему р Исключения: критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.
Для облегчения принятия решения можно вычерчивать "ось значимости".
Зона неопределенности Зона незначимости \ Qo/ 9 / QaMnA 1 XQo^i ї 1 Зона значимости 6 1 u 9 Критические значения критерия обозначены как Q0,05 и Q0,01, эмпирическое значение критерия как Рэмп- Оно заключено в эллипс.
Вправо от критического значения Q0,01 простирается "зона значимости" - сюда попадают эмпирические значения Q, которые ниже Q001 и, следовательно, значимые.
Влево от критического значения Q0 05 простирается "зона незначимости", - сюда попадают эмпирические значения Q, которые ниже Q0,05 и, следовательно, незначимы.
В нашем примере, Q0,05 =6; Q0,01=9; Qэмп=8.
Эмпирическое значение критерия попадает в область между Q0,05 и Q0,01. Это "зона неопределенности": мы уже можем отклонить гипотезу о недостоверности различий (Н0), но еще не можем приять гипотезы об их достоверности (Н1).
Практически, можно считать достоверными уже те различия, которые не попадают в зону незначимости, сказав, что они достоверны при р