Статистические оценки и их свойства. Точечная оценка и ее свойства. Виды статистических оценок

Пусть требуется изучить, к примеру, количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Естественно, возникает задача оценки параметров, которыми определяется это распределение. Например, если наперед известно, что изучаемый признак распределен в генеральной совокупности нормально, то необходимо оценить (приближенно найти) математическое ожидание а и среднее квадратическое отклонение s, так как эти два параметра полностью определяют нормальное распределение.

Обычно в распоряжении исследователя имеются лишь данные выборки, например, значения количественного признака х 1 , х 2 , …, х n , полученные в результате n наблюдений. Через эти данные и выражают оцениваемый параметр .

Пусть q * - статистическая оценка неизвестного параметра q теоретического распределения. Различают несмещённую и смещённую оценки.

Несмещённой называют статистическую оценку q * , математическое ожидание которой равно оцениваемому параметру q при любом объеме выборки, то есть

В противном случае, то есть если М(q *) ¹ q, оценка называется смещённой .

Требование несмещённости означает, что не должно быть систематического отклонения в одну и ту же сторону наблюдаемых значений от q.

К статистической оценке предъявляется также требование эффективности , что подразумевает (при заданном объеме выборки) наименьшую возможную дисперсию, а в случае большого объема выборки и требование состоятельности , то есть практическое совпадение наблюдаемых значений случайной величины с оцениваемым параметром.

Если статистический материал представлен в виде вариационного ряда, то последующий его анализ осуществляется, как правило, с помощью некоторых постоянных величин, достаточно полно отражающих присущие изучаемой генеральной совокупности закономерности.

К таким постоянным относятся средние величины, среди которых наиболее значимой является средняя арифметическая - она проще других и по смыслу, и по свойствам, и по способу получения.

Так как при исследовании генеральной совокупности осуществляется выборка, то постоянная величина, характеризующая выборку, называется выборочной средней и обозначается .

Можно показать, что есть несмещённая оценка среднего арифметического значения признака генеральной совокупности , то есть

Пусть некоторая совокупность разбита на части - группы , не обязательно одинаковые по объему. Тогда средние арифметические распределения членов групп называют групповыми средними , а среднюю арифметическую распределения по тому же признаку всей совокупности - общей средней . Группы называются непересекающимися , если каждый член совокупности принадлежит только одной группе.

Общая средняя равна средней арифметической групповых средних всех непересекающихся групп.

Пример. Вычислить среднюю заработную плату рабочих предприятия по данным таблицы

Решение. По определению общая средняя равна

. (*)

n 1 = 40, n 2 = 50, n 3 = 60

Средняя заработная плата рабочих цеха № 1. Для её нахождения мы составили среднюю арифметическую зарплату по всему цеху: 75, 85, 95 и 105 (у.е.) Для удобства эти значения можно уменьшить в пять раз (это их наибольший общий делитель): 15, 17, 19, 21. Остальное понятно из формулы.

Проделав аналогичные операции, найдем , .

Подставив полученные значения в (*), получим

Средние - это постоянные величины, которые определенным образом характеризуют распределения. О некоторых распределениях судят только по средним. Например, для сравнения уровней заработной платы в различных отраслях промышленности достаточно сравнить средние заработные платы в них. Однако по средним нельзя судить ни о различиях между уровнями заработной платы наиболее высоко- и низкооплачиваемых работников, ни о том, какие отклонения от средней заработной платы имеют место.

В статистике наибольший интерес представляет разброс значений признака около их средней арифметической. На практике и в теоретических исследованиях рассеяние признака чаще характеризуется дисперсией и средним квадратическим отклонением.

Выборочной дисперсией D В называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения х 1 , х 2 , … х n признака выборки объема n различны, то

. (3)

Если же значения признака х 1 , х 2 , … х k имеют соответственно частоты n 1 , n 2 , … n k , причём n 1 + n 2 + … + n k = n, то

. (4)

Если есть необходимость, чтобы показатель рассеяния выражался в тех же единицах, что и значения признака, то можно пользоваться сводной характеристикой - средним квадратическим отклонением

Для вычисления дисперсии обычно используется формула

Если совокупность разбита на непересекающиеся группы, то для их характеристики можно ввести понятия групповой, внутригрупповой, межгрупповой и общей дисперсии.

Групповой дисперсией называется дисперсия распределения членов j-ой группы относительно их средней - групповой средней , то есть

где n i - частота значения x i , - объем группы j.

Внутригрупповой дисперсией называется средняя арифметическая групповых дисперсий

где N j (j = 1, 2, …, m) - объемы непересекающихся групп.

Межгрупповой дисперсией называется средняя арифметическая квадратов отклонений групповых средних всех непересекающихся групп от общей средней , то есть

.

Общей дисперсией называют дисперсию значений признака всей совокупности относительно общей средней

,

где n i - частота значения x i ; - общая средняя; n - объем всей совокупности.

Можно показать, что общая дисперсия D равна сумме , то есть

Пример. Найти общую дисперсию совокупности, состоящей из следующих двух групп

Первая группа Вторая группа
x i n i x i n i

Решение. Найдем групповые средние

Найдем групповые дисперсии

Найдем общую среднюю

Искомая общая дисперсия

Рассмотренные выше оценки принято называть точечными , так как эти оценки определяются одним числом . В случае небольшого объема выборки используется интервальная оценка, определяемая двумя числами , называемыми концами интервала.

Интервальные оценки позволяют установить точность и надежность оценок. Поясним смысл этих понятий. Пусть найденная по данным выборки статистическая характеристика q * служит оценкой неизвестного параметра q. Ясно, что q * тем точнее будет определять параметр q, чем меньше абсолютная величина . Иными словами, если d > 0 и , то чем меньше d, тем оценка точнее.

Таким образом, число d > 0 характеризует точность оценки. Но с другой стороны статистические методы не позволяют категорически утверждать, что оценка q * удовлетворяет неравенству . Здесь можно говорить только о вероятности g , с которой это неравенство осуществляется. Эту вероятность g и называют надежностью (доверительной вероятностью) оценки q по q * .

Таким образом, из сказанного следует, что

Соотношение (*) следует понимать так: вероятность того, что интервал (q * - d, q * + d) заключает в себе (покрывает) неизвестный параметр q, равна g. Интервал (q * - d, q * + d), покрывающий неизвестный параметр с заданной надежностью g, называют доверительным.

Пример. Случайная величина Х имеет нормальное распределение с известным средним квадратическим отклонением s = 3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним , если объем выборки n = 36 и задана надежность оценки g = 0,95.

Решение. Заметим, что если случайная величина Х распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально, а параметры распределения таковы: , (см. стр. 54).

Потребуем выполнения соотношения

.

Пользуясь формулой (**) (см. стр. 43), заменив в ней Х на и s на , получим

по самоподготовке к практическому занятию по математике

Тема : Статистическое распределение выборки, дискретные и интервальные вариационные ряды. Точечные и интервальные оценки параметров распределения. Погрешности измерений и их оценки.

Актуальность темы : ознакомление с основными понятиями и методами математической статистики как средством решения задач физического, химического, биологического и иного характера, встречающихся как в процессе изучения профильных дисциплин, так и в дальнейшей профессиональной деятельности

Цель занятия : научиться строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

План изучения темы

1. Основные задачи математической статистики.

2. Генеральная и выборочная совокупности.

3. Дискретный вариационный ряд и его графическое изображение.

4. Интервальный вариационный ряд и его графическое изображение. Виды статистических оценок.

5. Требования к статистическим оценкам.

6. Понятия генеральной и выборочной средних.

7. Понятия генеральной, выборочной и исправленной дисперсий.

8. Понятия генерального, выборочного и исправленного среднего квадратического отклонения.

Основная литература:

1. Морозов, Ю.В. Основы высшей математики и статистики: учеб. для студентов мед. и фаpмацевт. вузов и фак./Ю.В. Морозов.-

М.:Медицина, 2004.-232 с.

2. Основы высшей математики и математической статистики: учеб. для студентов мед. и фармацевт. вузов/И.В. Павлушков, Л.В.Розовский, А.Е.Капульцевич и др.-2-е изд., испр.-М.:ГОЭТАР-

Медиа, 2006.-423 с.

Дополнительная литература:

Методические рекомендации к практическим занятиям по высшей математике [Электронный ресурс]: учеб.-метод. пособие для вузов/ авт.-сост. : Т.А.Новичкова; ГОУ ВПО "Курск. гос. мед. ун-т", каф. физики, информатики и математики.-Курск:КГМУ, 2009.

Гмурман В.Е. Теория и математическая статистика. М. «Высшая школа», изд. 5, 2004.

Вопросы для самоконтроля:

1) Определение статистического ряда.

2) Определение генеральной совокупности.

3) Определение выборочной совокупности.

4) Репрезентативность выборки.

5) Виды выборок.

6) Что называется вариантой?

7) Определение ранжирования.

8) Определение частоты, относительной частоты, накопленной частоты.

9) Алгоритм построения интервального вариационного ряда.

10) Определение полигона, кумуляты (дискретного вариационного ряда).

11) Определение гистограммы, кумуляты (интервального вариационного ряда) определение статистической оценки.

12) какие требования предъявляются к статистическим оценкам.

13) Какая статистическая оценка называется смещенной, несмещенной?

14) формулы для расчета генеральной и выборочной средней для сгруппированных и несгруппированных данных.

15) формулы для расчета генеральной и выборочной дисперсии для сгруппированных и несгруппированных данных.

16) Какой оценкой считается выборочная средняя для генеральной средней?

17) Какой оценкой считается выборочная дисперсия для генеральной?

18) Формула для расчета исправленного среднего квадратического отклонения.

19) Какие измерения называются прямыми?

20) Что понимают под истинной абсолютной погрешностью величины X?

21) Что принимают за истинное значение величины X?

22) Что служит точечной оценкой истинного значения величины X?

23) Что служит оценкой дисперсии X?

25) Как найти границы доверительного интервала для истинного значения величины X ?

26) Какие измерения называются косвенными?

27) Если y = f(x1, x2, ..., xn), то по какой формуле вычисляется средняя квадратическая погрешность среднего значения y?

28) По какой формуле находится абсолютная погрешность y: у ?

29) Как найти относительную погрешность y: ε у ?

Задания на самоподготовку:

1. В результате отдельных испытаний активности тетрациклина были получены следующие значения (в единицах действия на 1 мг): 925, 940, 760, 905, 995, 965, 940, 925, 940, 905. составить ряда распределения. Построить полигон, кумуляту.

2. Построить гистограмму относительных частот по распределению выборки: 11, 15, 16, 18, 15.5, 19, 20.1, 20.9, 23, 24.5, 23, 21, 23.9, 24.6, 25.5, 26, 29, 28.6, 30.1, 32.

3. Найти исправленное среднее квадратическое отклонение по данному распределению выборки

Ориентировочные основы действий:

1. Изучить основные понятия по теме

2. Ответить на вопросы для самоконтроля

3. Проработать примеры решения задач по теме

4. Выполнить задания для самостоятельного контроля

5. Решить контрольные задания по теме

После изучения данной темы студент должен знать: понятие вариационного ряда, его виды и их графическое изображение,

понятия статистической оценки, их виды, требования к оценкам, понятия генеральной и выборочной средней, генеральной и выборочной дисперсий. уметь: строить статистические ряды для дискретных и непрерывных случайных величин и вычислять точечные оценки генеральных параметров, вычислять погрешности при прямых и косвенных измерениях.

Краткая теория

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Отсюда следуют задачи математической статистики:

способы отбора статистических данных.

способы группировки статистических данных.

методы анализа данных:

оценка параметров известного распределения;

оценка неизвестной функции распределения;

оценка зависимости одной случайной величины от других;

проверка статистических гипотез.

способы определения числа наблюдений (планирование эксперимента).

принятие решений.

В математической статистике изучение случайной величины связано

с выполнением ряда независимых опытов, в которых она принимает определенные значения.

Статистическая совокупность – множество объектов, однородных относительно некоторого качественного или количественного признака.

Н-р, если имеется серия таблеток лекарственного вещества, то качественным признаком может служить стандартность таблетки, а количественным – контролируемая масса таблетки.

Генеральная совокупность – совокупность, состоящая из всех объектов, которые могут быть к ней отнесены.

Теоретически это м.б. бесконечно большая или приближающаяся к бесконечности совокупность.

Н-р, все больные ревматизмом на земном шаре – генеральная совокупность. Реально это в конкретных пределах (город, область).

Число объектов генеральной совокупности называют её объемом и обозначают N.

Выборочная совокупность – множество объектов, случайно отобранных из генеральной совокупности.

Число объектов в выборке называют её объемом и обозначают n.

Для того, чтобы свойства выборки достаточно хорошо отражали свойства генеральной совокупности выборка должна быть репрезентативной (представительной) .

Это требование обеспечивает случайность отбора элементов в выборку, т.е. равновероятность попасть в выборку любому объекту.

В зависимости от техники отбора объектов из генеральной совокупности выборки делятся на:

Повторная

Бесповторная

(отобранный объект возвращается

(отобранный объект не возвращается

в генеральную совокупность)

в генеральную совокупность)

На практике пользуются бесповторной выборкой.

При больших объемах N генеральной совокупности и малом относительном объеме n/N выборки различия в формулах, описывающих обе выборки по технике их отбора невелики.

Дискретный ряд распределения

Наблюдаемые значения признака называются вариантами. Ранжирование – расположение вариант по возрастанию, либо

убыванию.

Вариационным рядом называется ранжированный ряд вариантов и соответствующих им частот.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.

Пусть из генеральной совокупности извлечена выборка объемом n. Количественное значение изучаемого признака x1 появилось m1 раз, x2 – m 2

раз, …, x k – m k раз.

Причем ∑ m i = n

i =1

Числа mi называют частотами, а их отношения к объему выборки n – относительными частотами pi =mi /n. Причем Σpi =1.

Для случая когда количественный признак является дискретным, его значения и соответствующие им частоты или относительные частоты представляют виде таблицы.

pi =mi /n

pi * =

m1 /n

(m1 +m2 )/n

mi * /n

При изучении вариационных рядов наряду с понятием частоты используется накопленная частота (mi * ). Накопленная частота показывает, сколько наблюдалось вариантов со значением признака меньше х.

Отношение наколенной частоты mi * к общему числу наблюдений n называется относительной частотой pi * = mi * /n.

Графическое изображение дискретного статистического ряда – полигон частот (относительных).

Полигон служит для изображения дискретного вариационного ряда и представляет собой ломаную, в которой концы отрезков прямой имеют координаты (xi , mi ) или (xi , pi ) в случае полигона относительных частот.

Интервальный статистический ряд.

В случае большого количества вариант (n>50) и непрерывного распределения признака статистическое распределение признака можно задать виде последовательности интервалов и соответствующих им частот.

Чаще используют равноинтервальный ряд.

Нужно правильно выбрать ширину классового интервала. Число интервалов должно зависеть от размаха выборки и её объёма.

Алгоритм построения гистограммы.

1. Дана выборка Х = {x 1 , x 2 , …, x n } ; n – её объём

Размах выборки D = x max – x min

2. Число классов

К = 1 + 3,32 × lg n (формула Стерджесса для n < 100 )

К = 5 × lg n (формула Брукса для n > 100 )

3. Величина классового интервала D x = D / К

4. Границы и середины частичных интервалов

x1л = xmin – D x / 2

x1пр = x2л = xmin + D x / 2

х 1 = x min

х 2 = х 1 + D x

5. Частоты попадания в интервал:

вариационных рядов и представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака xi =xi+1 -xi , i=1,2,…,k и высотами, равными частотам (относительным частотам) mi (pi ) интервалов.

Если соединить середины верхних оснований прямоугольников отрезками прямой, то можно получить полигон того же распределения.

Эмпирическая функции распределения Чтобы получить представление о распределении случайной

величины Х, для которой неизвестен закон распределения, строят эмпирическую функцию распределения.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию F* (x), определяющую для каждого значения х относительную частоту события X

, где m* - число наблюдений, при которых наблюдалось значение признака Х меньше х.

Функцию распределения генеральной совокупности называют теоретической функцией.

Различие между эмпирической и теоретической функциями в том, что теоретическая функция определяет вероятность события Х<х, а эмпирическая – относительную частоту данного события.

Понятие статистической оценки.

Требуется изучить количественный признак генеральной совокупности. Допустим, нам известен закон распределения генеральной совокупности. Этот закон определяется несколькими параметрами. Для оценки неизвестных параметров генеральной совокупности используются данные выборки.

Статистической оценкой неизвестного параметра распределения генеральной совокупности называют функцию от наблюдаемых случайных величин.

Обозначим:

θ – неизвестный параметр; θ * – статистическая оценка неизвестного параметра; θ * = f (x 1, x 2, …, x n)

Статистическая оценка θ* является случайной величиной , поэтому имеет дисперсию и среднеквадратическое отклонение, а также ошибку репрезентативности (отклонение выборочного показателя от генерального).

Статистические оценки бывают двух видов: точечные и интервальные .

Оценка одним числом, зависящим от выборочных данных, называется точечной .

Оценка двумя числами, являющимися концами интервала, называется интервальной .

Требования, предъявляемые к точечным статистическим оценкам.

Качество оценки определяется не по одной конкретной выборке, а по

всему мыслимому набору конкретных выборок, т.е. по всему множеству

точечных оценок θ i * неизвестного параметра θ .

Для того, чтобы статистические оценки давали хорошее

приближение оцениваемых параметров, они должны удовлетворять

следующим требованиям:

несмещённость (отсутствие систематических ошибок при

любом объёме выборки М(θ *) = θ );

эффективность (среди всех возможных оценок эффективная

оценка обладает наименьшей дисперсией min D(θ *) ).

состоятельность

(стремление

вероятности

оцениваемому параметру при n → ∞ , т.е. θ * ¾¾ ¾ ® θ );

n →∞

Генеральный

Точечная оценка

Свойства

параметр

точечной оценки

М(Х) = хг =

Не смещаемая

х в = ∑ x i

= ∑ m i x i выборочная

Эффективная

∑x i

i = 1

i = 1

Состоятельная

N i = 1

Асимптотически

− x

− x

несмещённая, т.е.

М(Dв ) ¹ σ г 2 , но

n i = 1

n i = 1

D(X) = σ г =

выборочная дисперсия

) = σ

− x i )

n →∞

N i = 1

S 2 =

D исправленная

n - 1

Не смещаемая

дисперсия

δ в =

Смещаемая

(стандарт)

σ г =

σ г 2

исправленное

среднеквадратическое

Несмещённая

отклонение

является случайной величиной, то у неё есть дисперсия –

хв

дисперсия выборочной средней:

× n × S 2 =

) = D(

∑ xi ) =

D(∑ xi ) =

∑ D(xi ) =

∑ (xi −

n(n − 1) i =1

Точность, надежность оценки

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Пусть q * – точечная оценка неизвестного параметра q , являющаяся случайной величиной.

Чем меньше ½q - q * ½ , тем точнее q * определяет параметр q .

Если δ > 0 и ½q - q * ½ < δ , то чем меньше δ , тем точнее оценка. Число

δ называется точностью оценки .

В силу случайности q * можно лишь говорить о вероятности осуществления неравенства ½q - q * ½ < e .

Надёжностью (доверительной вероятностью) оценки q * называют вероятность g , с которой осуществляется неравенство ½q - q * ½ < δ .

Обычно g = 0,95; 0,99; 0,999… P(|Θ-Θ*|< δ)=γ

Иногда говорят, что доверительная вероятность g характеризует степень нашей уверенности в том, что доверительный интервал покроет параметр q .

Р {q * - e < q < q * + e} = g означает, что вероятность того, что интервал (q * - e ; q * + e ) заключает в себе неизвестный параметр q , равна g :

Вероятность того, что неизвестный параметр не попадёт в интервал ½q - q * ½ < e , равна 1 - g = a (уровень значимости).

Уровнем значимости (риском) называют вероятность того, что модуль отклонения эмпирической характеристики от теоретической превысит предельную ошибку P(|Θ-Θ*|< ∆)=γ , предельная ошибка – максимально допустимая |Θ-Θ*|< ∆

Распределение Стьюдента

Пусть X ~ N(µ,σ), причем параметры распределения неизвестны.

Рассмотрим распределение величины T = x в − μ .

Распределение величины Т с f=n-1 степенями свободы называется t- распределением или распределением Стьюдента.

Функция плотности вероятности φ(t) зависит от числа степеней свободы и не зависит от дисперсии случайных величин.

С ростом числа степеней свободы распределение данной величины приближается к нормальному

Интервальной оценкой математического ожидания при неизвестной дисперсии является интервал

(x - tγ (f ) × Sx ; x + tγ (f ) × Sx )

Интервальной оценкой математического ожидания при известной

дисперсии является интервал

(x - uα × Sx ; x + uα × Sx )

Ф (u α ) = 1− α - функция Лапласа.

Примеры решения задач

1) Представить в виде статистического дискретного ряда, построить полигон частот, относительных частот, кумулятивную кривую (кривую накопленных частот): 6,7; 6,8; 7; 6,5; 7,3; 7; 7,2; 6,9; 7,1; 6,8; 7,1; 6,8; 7,1; 7,2; 6,8; 6,9;

7; 6,7; 6,6; 6,3; 7,5; 6,9.

Решение. mi – частота, p – относительная частота, pi * - накопленная относительная частота

pi *

Полигон частот

Статистические оценки параметров генеральной совокупности. Статистические гипотезы

ЛЕКЦИЯ 16

Пусть требуется изучить количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак. Отсюда возникает задача оценки параметров, которыми определяется это распределение. Например, если известно, что изучаемый признак распределён в генеральной совокупности по нормальному закону, то необходимо оценить (приближённо найти) математическое ожидание и среднеквадратическое отклонение, так как эти два параметра полностью определяют нормальное распределение. Если же имеются основания считать, что признак имеет распределение Пуассона, то необходимо оценить параметр , которым это распределение определяется.

Обычно в распределении исследователь имеет лишь данные выборки, например, значения количественного признака , полученные в результате наблюдений (здесь и далее наблюдения предполагаются независимыми). Через эти данные и выражают оцениваемый параметр.

Рассматривая как значения независимых случайных величин , можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения означает найти функцию от наблюдаемых случайных величин, которая и даёт приближённое значение оцениваемого параметра. Например, как будет показано далее, для оценки математического ожидания нормального распределения служит функция (среднее арифметическое наблюдаемых значений признака):

.

Итак, статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин. Статистическая оценка неизвестного параметра генеральной совокупности, записанная одним числом, называется точечной . Рассмотрим следующие точечные оценки: смещенные и несмещённые, эффективные и состоятельные.

Для того, чтобы статистические оценки давали «хорошие» приближения оцениваемых параметров, они должны удовлетворять определённым требованиям. Укажем эти требования.

Пусть есть статистическая оценка неизвестного параметра теоретического распределения. Допустим, что при выборке объёма найдена оценка . Повторим опыт, то есть извлечём из генеральной совокупности другую выборку того же объёма и по её данным найдём оценку и т.д. Повторяя опыт многократно, получим числа , которые, вообще говоря, будут различаться между собой. Таким образом, оценку можно рассматривать как случайную величину, а числа – как возможные её значения.

Ясно, что если оценка даёт приближённое значение с избытком, то каждое найденное по данным выборок число будет больше истинного значения . Следовательно, что в этом случае и математическое (среднее значение) случайной величины будет больше, чем , то есть . Очевидно, что если даёт приближённое значение с недостатком, то .


Поэтому, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, приводит к систематическим (одного знака) ошибкам. По этой причине естественно потребовать, чтобы математическое ожидание оценки было равно оцениваемому параметру. Хотя соблюдение этого требования, в общем, не устранит ошибок (одни значения больше, а другие меньше чем ), ошибки разных знаков будут встречаться одинакова часто. Однако соблюдение требования гарантирует невозможность получения систематических ошибок, то есть устраняет систематические ошибки.

Несмещённой называют статистическую оценку (ошибку) , математическое ожидание которой равно оцениваемому параметру при любом объёме выборки, то есть .

Смещённой называют статистическую оценку , математическое ожидание которой не равно оцениваемому параметру при любом объёме выборки, то есть .

Однако было бы ошибочным считать, что несмещённая оценка всегда даёт хорошее приближение оцениваемого параметра. Действительно, возможные значения могут быть сильно рассеяны вокруг своего среднего значения, то есть дисперсия может быть значительной. В этом случае, найденная по данным одной выборки оценка, например , может оказаться весьма удалённой от среднего значения , а значит, и от самого оцениваемого параметра . Таким образом, приняв в качестве приближённого значения , мы допустим большую ошибку. Если же потребовать, чтобы дисперсия была малой, то возможность допустить большую ошибку будет исключена. По этой причине к статистической оценке предъявляется требование эффективности.

Эффективной называют статистическую оценку, которая (при заданном объёме выборки ) имеет наименьшую возможную дисперсию.

Состоятельной называют статистическую оценку, которая при стремится по вероятности к оцениваемому параметру, то есть, справедливо равенство:

.

Например, если дисперсия несмещённой оценки при стремится к нулю, то такая оценка оказывается также состоятельной.

Рассмотрим вопрос о том, какие выборочные характеристики лучше всего в смысле несмещённости, эффективности и состоятельности оценивают генеральную среднюю и дисперсию.

Пусть изучается дискретная генеральная совокупность относительно некоторого количественного признака .

Генеральной средней называется среднее арифметическое значений признака генеральной совокупности. Она вычисляется по формуле:

§ – если все значения признака генеральной совокупности объёма различны;

§ – если значения признака генеральной совокупности имеют соответственно частоты , причём . То есть генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание : пусть генеральная совокупность объёма содержит объекты с различными значениями признака . Представим себе, что из этой совокупности наудачу извлекается один объект. Вероятность того, что будет извлечён объект со значением признака, например , очевидно, равна . С этой же вероятностью может быть извлечён и любой другой объект. Таким образом, величину признака можно рассматривать как случайную величину, возможные значения которой имеют одинаковые вероятности, равные . Нетрудно, в этом случае, найти математическое ожидание :

Итак, если рассматривать обследуемый признак генеральной совокупности как случайную величину, то математическое ожидание признака равно генеральной средней этого признака: . Этот вывод мы получили, считая, что все объекты генеральной совокупности имеют различные значения признака. Такой же итог будет получен, если допустить, что генеральная совокупность содержит по несколько объектов с одинаковым значением признака.

Обобщая полученный результат на генеральную совокупность с непрерывным распределением признака , определим генеральную среднюю как математическое ожидание признака: .

Пусть для изучения генеральной совокупности относительно количественного признака извлечена выборка объёма .

Выборочной средней называют среднее арифметическое значений признака выборочной совокупности. Она вычисляется по формуле:

§ – если все значения признака выборочной совокупности объёма различны;

§ – если значения признака выборочной совокупности имеют соответственно частоты , причём . То есть выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Замечание : выборочная средняя, найденная по данным одной выборки есть, очевидно, определённое число. Если же извлекать другие выборки того же объёма из той же генеральной совокупности, то выборочная средняя будет изменяться от выборки к выборке. Таким образом, выборочную среднюю можно рассматривать как случайную величину, а следовательно, можно говорить о распределениях (теоретическом и эмпирическом) выборочной средней и о числовых характеристиках этого распределения, в частности, о математическом ожидании и дисперсии выборочного распределения.

Далее, если генеральная средняя неизвестна и требуется оценить её по данным выборки, то в качестве оценки генеральной средней принимают выборочную среднюю, которая является несмещённой и состоятельной оценкой (предлагаем это утверждение доказать самостоятельно). Из сказанного следует, что если по нескольким выборкам достаточно большого объёма из одной и той же генеральной совокупности будут найдены выборочные средние, то они будут приближённо равны между собой. В этом состоит свойство устойчивости выборочных средних .

Отметим, что если дисперсии двух совокупностей одинаковы, то близость выборочных средних к генеральным не зависит от отношения объёма выборки к объёму генеральной совокупности. Она зависит от объёма выборки: чем объём выборки больше, тем меньше выборочная средняя отличается от генеральной. Например, если из одной совокупности отобран 1% объектов, а из другой совокупности отобрано 4% объектов, причём объём первой выборки оказался большим, чем второй, то первая выборочная средняя будет меньше отличаться от соответствующей генеральной средней, чем вторая.

Распределения в математической статистике характеризуется многими статистическими параметрами. Оценка неизвестных параметров распределения на основе различных данных выборки позволяет построить распределения случайной величины.

Найти статистическую оценку неизвестного параметра распределения -- найти функцию от наблюдаемых случайных величин, которая даст приближенное значение оцениваемого параметра.

Статистические оценки можно разделить на несмещенные, смещенные, эффективные и состоятельные.

Определение 1

Несмещенная оценка -- статистическая оценка $Q^*$, которая при любом значении объема выборки, имеет математическое ожидание, равное оцениваемому параметру, то есть

Определение 2

Смещенная оценка -- статистическая оценка $Q^*$, которая при любом значении объема выборки, имеет математическое ожидание, не равное оцениваемому параметру, то есть

Определение 4

Состоятельная оценка -- статистическая оценка, при которой при объеме выборки, стремящейся к бесконечности, стремится по вероятности к оцениваемому параметру $Q.$

Определение 5

Состоятельная оценка -- статистическая оценка, при которой при объеме выборки, стремящейся к бесконечности, дисперсия несмещенной оценки стремится к нулю.

Генеральная и выборочная средние

Определение 6

Генеральная средняя -- среднее арифметическое значений вариант генеральной совокупности.

Определение 7

Выборочная средняя -- среднее арифметическое значений вариант выборочной совокупности.

Величины генерального и выборочного среднего можно найти по следующим формулам:

  1. Если значения вариант $x_1,\ x_2,\dots ,x_k$ имеют, соответственно, частоты $n_1,\ n_2,\dots ,n_k$, то
  1. Если значения вариант $x_1,\ x_2,\dots ,x_k$ различны, то

С этим понятием связано такое понятие как отклонение от средней. Данная величина находится по следующей формуле:

Среднее отклонение обладает следующими свойствами:

    $\sum{n_i\left(x_i-\overline{x}\right)=0}$

    Среднее значение отклонения равно нулю.

Генеральная, выборочная и исправленная дисперсии

Еще одними из основных параметров является понятие генеральной и выборочной дисперсии:

Генеральная дисперсия:

Выборочная дисперсия:

С этими понятия связаны также генеральная и выборочная средние квадратические отклонения:

В качестве оценки генеральной дисперсии вводится понятие исправленной дисперсии:

Также вводится понятие исправленного стандартного отклонения:

Пример решения задачи

Пример 1

Генеральная совокупность задана следующей таблицей распределения:

Рисунок 1.

Найдем для нее генеральное среднее, генеральную дисперсию, генеральное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение.

Для решения этой задачи для начала сделаем расчетную таблицу:

Рисунок 2.

Величина $\overline{x_в}$ (среднее выборочное) находится по формуле:

\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}\]

\[\overline{x_в}=\frac{\sum\limits^k_{i=1}{x_in_i}}{n}=\frac{87}{30}=2,9\]

Найдем генеральную дисперсию по формуле:

Генеральное среднее квадратическое отклонение:

\[{\sigma }_в=\sqrt{D_в}\approx 1,42\]

Исправленная дисперсия:

\[{S^2=\frac{n}{n-1}D}_в=\frac{30}{29}\cdot 2,023\approx 2,09\]

Исправленное среднее квадратическое отклонение.

статистическая оценка распределение выборка

Оценка - это приближение значений искомой величины, полученное на основании результатов выборочного наблюдения. Оценки являются случайными величинами. Они обеспечивают возможность формирования обоснованного суждения о неизвестных параметрах генеральной совокупности. Примером оценки генеральной средней является выборочная средняя генеральной дисперсии - выборочная дисперсия и т.д.

Для того чтобы оценить насколько «хорошо» оценка отвечает соответствующей генеральной характеристике разработаны 4 критерия: состоятельность, несмещенность, эффективность и достаточность. Этот подход основывается на том, что качество оценки определяется не по ее отдельным значениям, а по характеристикам ее распределения как случайной величины.

Основываясь на положениях теории вероятностей, можно доказать, что из таких выборочных характеристик, как средняя арифметическая, мода и медиана, только средняя арифметическая представляет собой состоятельную, несмещенную, эффективную и достаточную оценку генеральной средней. Этим и обуславливается предпочтение, отдаваемое средней арифметической в ряду остальных выборочных характеристик.

Несмещенность оценки проявляется в том, что ее математическое ожидание при любом объеме выборки равно значению оцениваемого параметра в генеральной совокупности. Если это требование не выполняется, то оценка является смещенной .

Условие несмещенности оценки направлено на устранение систематических ошибок оценивания.

При решении задач оценивания применяют также асимптотически несмещенные оценки , для которых при увеличении объема выборки математическое ожидание стремится к оцениваемому параметру генеральной совокупности.

Состоятельность статистических оценок проявляется в том, что с увеличением объема выборки оценка все больше и больше приближается к истинному значению оцениваемого параметра или, как говорят, оценка сходится по вероятности к искомому параметру, или стремится к своему математическому ожиданию. Лишь состоятельные оценки имеют практическую значимость.

Это такая оценка несмещенного параметра, которая обладает наименьшей дисперсией при данном объеме выборки. На практике дисперсия оценки обычно отождествляется с ошибкой оценки.

В качестве меры эффективности оценки принимают отношение минимально возможной дисперсии к дисперсии другой оценки.

Оценка, обеспечивающая полноту использования всей содержащейся в выборке информации о неизвестной характеристике генеральной совокупности, называется достаточной (исчерпывающей).

Соблюдение рассмотренных выше свойств статистических оценок дает возможность считать выборочные характеристики для оценки параметров генеральной совокупности лучшими из возможных.

Важнейшая задача математической статистики состоит в том, чтобы по выборочным данным получить наиболее рациональные, «правдивые» статистические оценки искомых параметров генеральной совокупности. Различают два вида статистических выводов: статистическая оценка; проверка статистических гипотез.

Основная задача получения статистических оценок заключается в выборе и обосновании наилучших оценок, обеспечивающих возможность содержательной оценки неизвестных параметров генеральной совокупности.

Задача оценки неизвестных параметров может быть решена двумя способами:

  • 1. неизвестный параметр характеризуется одним числом (точкой) - используется метод точечной оценки;
  • 2. интервальная оценка, то есть определяется интервал, в котором с некоторой вероятностью может находиться искомый параметр.

Точечная оценка неизвестного параметра заключается в том, что конкретное числовое значение выборочной оценки принимается за наилучшее приближение к истинному параметру генеральной совокупности, то есть неизвестный параметр генеральной совокупности оценивается одним числом (точкой), определенным по выборке. При таком подходе всегда существует риск совершить ошибку, поэтому точечная оценка должна дополняться показателем возможной ошибки при определенном уровне вероятности.

В качестве средней ошибки оценки принимается ее среднее квадратическое отклонение.

Тогда точечная оценка генеральной средней может быть представлена в виде интервала

где - выборочная средняя арифметическая.

При точечной оценке применяют несколько методов получения оценок по выборочным данным:

  • 1. метод моментов, при котором моменты генеральной совокупности заменяются моментами выборочной совокупности;
  • 2. метод наименьших квадратов;
  • 3. метод максимального правдоподобия.

Во многих задачах требуется найти не только числовую оценку параметра генеральной совокупности, но и оценить ее точность и надежность. Особенно это важно для выборок относительно малого объема. Обобщением точечной оценки статистического параметра является его интервальная оценка - нахождение числового интервала, содержащего с определенной вероятностью оцениваемый параметр.

В связи с тем, что при определении генеральных характеристик по выборочным данным всегда присутствует некоторая ошибка, практичнее определить интервал с центром в найденной точечной оценке, внутри которого с некоторой заданной вероятностью находится истинное искомое значение оцениваемого параметра генеральной характеристики. Такой интервал называют доверительным.

Доверительный интервал - это числовой интервал, который с заданной вероятностью г накрывает оцениваемый параметр генеральной совокупности. Такую вероятность называют доверительной. Доверительная вероятность г - это вероятность, которую можно признать достаточной в рамках решаемой задачи для суждения о достоверности характеристик, полученных на основе выборочных наблюдений. Величину

вероятности допустить ошибку называют уровнем значимости .

Для выборочной (точечной) оценки И * (тета) параметра И генеральной совокупности с точностью (предельной ошибкой ) Д и доверительной вероятностью г доверительный интервал определяется равенством:

Доверительная вероятность г дает возможность установить доверительные границы случайного колебания изучаемого параметра И для данной выборки.

В качестве доверительной вероятности принимают зачастую следующие значения и соответствующие им уровни значимости

Таблица 1. - Наиболее употребительные доверительные вероятности и уровни значимости

Например, 5-процентный уровень значимости означает следующее: в 5-ти случаях из 100 существует риск совершить ошибку при выявлении характеристик генеральной совокупности по выборочным данным. Или, другими словами, в 95 случаях из 100 генеральная характеристика, выявленная на основе выборки будет лежать в пределах доверительного интервала.