Распределе́ние (хи-квадра́т) с степеня́ми свобо́ды — распределение суммы квадратов независимыхстандартных нормальныхслучайных величин.
Определение
Пусть — совместно независимые стандартные нормальные случайные величины, то есть: . Тогда случайная величина
имеет распределение хи-квадрат с степенями свободы, то есть , или, если записать по-другому:
- .
Распределение хи-квадрат является частным случаем гамма-распределения, и его плотность имеет вид:
- ,
где означает гамма-распределение, а — гамма-функцию.
Функция распределения имеет следующий вид:
- ,
где и обозначают соответственно полную и нижнюю неполную гамма-функции.
Свойства распределения хи-квадрат
- Распределение хи-квадрат устойчиво относительно суммирования. Если независимы, и , а , то .
- Из определения легко получить моменты распределения хи-квадрат. Если , то
- ,
- .
- В силу центральной предельной теоремы, при большом числе степеней свободы распределение случайной величины может быть приближено нормальным . Более точно
- по распределению при .
Связь с другими распределениями
- Если независимые нормальные случайные величины, то есть: известно, то случайная величина
имеет распределение .
- Если , то распределение хи-квадрат совпадает с экспоненциальным распределением:
- .
- Если , тогда — распределение Эрланга.
- Если и , то случайная величина
имеет распределение Фишера со степенями свободы .
- (нецентральное хи-квадрат распределение с параметром нецентральности )
- Если и , тогда . (гамма-распределение)
- Если , тогда (хи распределение)
- Если (распределение Рэлея), тогда
- Если (распределение Максвелла), тогда
- Если и независимы, тогда — (бета-распределение)
- Если — (равномерное распределение), тогда
- — преобразование распределения Лапласа
- Если , тогда
- хи-квадрат распределение — преобразование распределения Парето
- t-распределение — преобразование распределения хи-квадрат
- t-распределение может быть получено из распределения хи-квадрат и нормального распределения
- Если и — независимы, тогда . Если и не являются независимыми, тогда не обязано быть распределено по закону хи-квадрат.
Вариации и обобщение
Дальнейшим обобщением распределения хи-квадрат является так называемое нецентральное распределение хи-квадрат[англ.], возникающее в некоторых задачах статистики.
Квантили
Квантиль — это число (аргумент), на котором функция распределения равна заданной, требуемой вероятности. Грубо говоря, квантиль — это результат обращения функции распределения, но есть тонкости с разрывными функциями распределения.
История
Критерий был предложен Карлом Пирсоном в 1900 году[1]. Его работа рассматривается как фундамент современной математической статистики. Предшественники Пирсона просто строили графики экспериментальных результатов и утверждали, что они правильны. В своей статье Пирсон привёл несколько интересных примеров злоупотреблений статистикой. Он также доказал, что некоторые результаты наблюдений за рулеткой (на которой он проводил эксперименты в течение двух недель в Монте-Карло в 1892 году) были так далеки от ожидаемых частот, что шансы получить их снова при предположении, что рулетка устроена добросовестно, равны одному из 1029.
Общее обсуждение критерия и обширную библиографию можно найти в обзорной работе Вильяма Дж. Кокрена[2].
Приложения
Распределение хи-квадрат имеет многочисленные приложения при статистических выводах, например при использовании критерия хи-квадрат и при оценке дисперсий. Оно используется в проблеме оценивания среднего нормально распределённой популяции и проблеме оценивания наклона линии регрессии благодаря его роли в распределении Стьюдента. Оно используется в дисперсионном анализе.
Далее приведены примеры ситуаций, в которых распределение хи-квадрат возникает из нормальной выборки:
- если — независимые и одинаково распределенные по закону случайные величины, тогда , где
- В таблице показаны некоторые статистики, основанные на независимых случайных величин, распределения которых связаны с распределением хи-квадрат:
Таблица значений χ2 и p-значений
Для любого числа p между 0 и 1 определено p-значение — вероятность получить для данной вероятностной модели распределения значений случайной величины такое же или более экстремальное значение статистики (среднего арифметического, медианы и др.), по сравнению с наблюдаемым, при условии верности нулевой гипотезы. В данном случае это распределение . Так как значение функции распределения в точке для соответствующих степеней свободы дает вероятность получить значение статистики менее экстремальное, чем эта точка, p-значение можно получить, если отнять от единицы значение функции распределения. Малое p-значение — ниже выбранного уровня значимости — означает статистическую значимость. Этого будет достаточно, чтобы отвергнуть нулевую гипотезу. Чтобы различать значимые и незначимые результаты, обычно используют уровень 0,05.
В таблице даны p-значения для соответствующих значений у первых десяти степеней свободы.
Эти значения могут быть вычислены через квантиль (обратную функцию распределения) распределения хи-квадрат[4]. Например, квантиль для p = 0,05 и df = 7 дает =14,06714 ≈ 14,07, как в таблице сверху. Это означает, что для экспериментального наблюдения семи независимых случайных величин при справедливости нулевой гипотезы «каждая величина описывается нормальным стандартным распределением с медианой 0 и стандартным отклонением 1» значение можно получить лишь в 5 % реализаций. Получение большего значения обычно можно считать достаточным основанием для отбрасывания этой нулевой гипотезы.
В таблице дано округление до сотых; более точные таблицы для большего количества степеней свободы см., например, здесь[5].
См. также
Примечания
- ↑Pearson K. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling (англ.) // Philosophical Magazine, Series 5. — Vol. 50, no. 302. — P. 157—175. — doi:10.1080/14786440009463897.
- ↑Cochran W. G. The Test of Goodness of Fit (англ.) // Annals Math. Stat. — 1952. — Vol. 23, no. 3. — P. 315—345. — . Архивировано 10 апреля 2020 года.
- ↑Chi-Squared TestАрхивная копия от 18 ноября 2013 на Wayback Machine Table B.2. Dr. Jacqueline S. McLaughlin at The Pennsylvania State University. Этот источник, в свою очередь, ссылается на: R. A. Fisher and F. Yates, Statistical Tables for Biological Agricultural and Medical Research, 6th ed., Table IV. Два значения были исправлены, 7,82 на 7,81 и 4,60 на 4,61.
- ↑R Tutorial: Chi-squared Distribution. Дата обращения: 19 ноября 2019. Архивировано 16 февраля 2021 года.
- ↑StatSoft: Таблицы распределений — Хи-квадрат распределение. Дата обращения: 29 января 2020. Архивировано 26 января 2020 года.