2.8 Выбор числа интервалов Число интервалов группирования, используемое при вычислении оценок параметров, построении гистограмм, вычислении статистик типа отношения правдоподобия или Пирсона колеблется в весьма размашистых пределах. Большинство рекомендуемых формул для оценки числа интервалов треплет эмпирический характер и обыкновенно предоставляет завышенные значения. дефиниция числа интервалов связано с объемом выборки. полный линия рекомендаций из неодинаковых родников по выбору числа интервалов дан в . При выборе интервалов равновеликой длины определяющим является требование, чтоб число наблюдений, угадавших в интервалы, было не слишком малым и сравнимым. этакое заявка выставляют в связи с опасением, что в противном случае распределение статистики типа –распределением. При этом наиболее дробно рекомендуют, чтоб число наблюдений, угадавших в интервал, было не менее 10. В отмечено, что на практике позволительно, чтоб число наблюдений в крайних интервалах было менее пяти. В работах , , отданных изучению мощности критерия Пирсона, в случае унимодального распределения допускается уменьшение ожидаемых частот попадания наблюдений для одного или двух интервалов до 1 и даже ниже. Статистическое моделирование подтверждает, что и в этакий ситуации распределения статистик типа –распределениями. Во многих ключах, образцово в , можно найти упоминание эвристической формулы Старджесса для определения “оптимального” числа интервалов 2 +1=3,3 +1. В В . В , – квантиль типового нормального распределения для заданного уровня значимости. В ряде работ приводят модификации данной формулы. В , а в . В изыскании , ). , задаваемых различными формулами, хватит велик. Поэтому на практике при выборе числа интервалов предельнее следуют тем, чтобы в интервалы попадало число наблюдений не менее 5-10. эдак, образцово, в рекомендациях ВНИИМетрологии Все вышеперечисленные рекомендации опирались на домысел, что вытекает выбирать этаким образом, чтоб картина гистограммы был ровно можно теснее к плавной искривленный плотности распределения генеральной совокупности. В показано, что уклонение гистограммы от плотности распределения в лучшем случае владеет порядок , достигаемый при числе интервалов . Очевидно, что “оптимальное” значение зависит не всего-навсего от объема выборки, однако и от вида закона распределения и от способа группирования. При асимптотически оптимальном группировании относительно скалярного параметра при 10-11 интервалах в группированной выборке сохраняется возле 98% информации, при оптимальном группировании относительно вектора параметров (два параметра) для 15 интервалов – возле 95%. Дальнейшее увеличение числа интервалов существенного значения не владеет. Конкретное число интервалов при асимптотически оптимальном группировании выбирают, исходя из вытекающих соображений. При оптимальном группировании вероятности попадания в интервалы в повальном случае не равновелики. Обычно минимальны вероятности попадания в крайние интервалы. Поэтому 5-10 для любого интервала при оптимальном группировании. По крайней мере, минимальная ожидаемая частота должна быть больше 1. В случае использования равновероятного группирования порядок должен быть образцово этаким же, ровно и при асимптотически оптимальном группировании. Все наиболее рассудительные рекомендации по выбору числа интервалов, в том числе по выбору числа интервалов в случае асимптотически оптимального группирования, исходят из того, чтоб при данном приблизить плотность распределения ее непараметрической оценкой (гистограммой) ровно можно лучше . однако ни одни из рекомендаций, за исключением , , не подходят к выбору с позиций мощности критерия согласия! Не опираются на заявка построения наиболее мощного критерия при тесных конкурирующих гипотезах. алкая знатно, что при заданном объеме выборки, заданных конкурирующих гипотезах , выбранном способе группирования и фиксированном уровне значимости Пирсона и связи правдоподобия растягивается , . Пирсона с ростом числа интервалов при проверке простой гипотезы можно судить по . Через обозначена статистика, вычисляемая в соответствии с формулой . На =7,10,15,20 =500, когда гипотеза отвечает нормальному закону, а – логистическому (два весьма тесных закона). Для группировании. Ордината тельного гроба соответствующей отвесной черты определяет значение a=0,1 для отвечающего числа интервалов. Мощность равна 1- b. ровно заметно, в полном соответствии с результатами работ , при увеличении числа интервалов мощность критерия падает. – нормальный закон, – логистический закон, =7,10,15,20 – нормальный закон, – логистический закон, =7,10,15,20 – нормальный закон, – логистический закон, =7,10,15,20 в зависимости от числа интервалов при проверке сложной гипотезы иллюстрирует . тут также с ростом мощность критерия растягивается. уменьшается существенно медлительнее ( ) и она патетичнее, чем мощность критерия Пирсона. В – нормальный закон, в случае простых и сложных гипотез. В колонке 2 приведены значения мощности критерия Пирсона при проверке немудреный гипотезы, полученные по результатам моделирования (экспериментально). В колонке 3 повергнуты теоретические значения мощности, вычисленные при обстоятельстве, что –распределение, а – соответствующее нецентральное распределение. Колонка 4 кормит значения мощности критерия Пирсона при проверке сложной гипотезы, полученные по плодам моделирования при использовании ОМП по негруппированным наблюдениям. В колонке 5 повергнуты теоретические значения мощности критерия Пирсона при проверке сложной гипотезы, вычисленные при обстоятельстве, что ), а – соответствующее нецентральное распределение. В колонке 6 повергнуты значения мощности критерия Никулина, полученные в плоде моделирования распределений статистики , а в колонке 7 – расчетные значения мощности этой статистики при рассматриваемой чете гипотез . В от 6 до 30. Проследив изменение мощности критериев при <6, можно убедиться, что, если мощность критерия Пирсона с уменьшением числа интервалов продолжает возрастать, то мощность критерия Никулина со статистикой начинает растягиваться. Это свидетельствует о том, что для критерия Никулина имеется оптимальное число интервалов, при каком его мощность максимальна. В при неодинаковых объемах выборок. размеры мощности для критериев типа может быть вычислена в соответствии с формулой , – параметр нецентральности, определяемый формулами , или , , – заданная вероятность оплошки первого рода, – вероятность оплошки второго рода). Максимальную мощность критерии Пирсона и связи правдоподобия зачастую обладают или при минимально мыслимом числе интервалов, определяемом условием = 1 , или при оптимальном числе интервалов, интимном к минимально вероятному. Оптимальное число интервалов для критерия Никулина обыкновенно предельнее, чем для критериев Пирсона и связи правдоподобия, и не превышает значения . a=0,1 – нормальный закон, этаким образом, выбирая число интервалов в критериях типа , следует осознавать, что увеличение их числа не приводит к росту мощности критерия. Рекомендуется выбирать число интервалов эдак, чтоб для любого интервала при оптимальном группировании выполнялось условие 10. По крайней мере, минимальная ожидаемая частота должна быть предельнее 1. При этом следует опираться на отвечающую таблицу асимптотически оптимального группирования из . предписания на соответствующую таблицу асимптотически оптимального группирования даны в . Снизу значение . , можно избрать оптимальное число интервалов эдак, чтоб максимизировать соотношение . ] ] ]