Меню

Объем выборки и доверительный интервал



Доверительные интервалы

Пусть у нас имеется большое количество предметов, с нормальным распределением некоторых характеристик (например, полный склад однотипных овощей, размер и вес которых варьируется). Вы хотите знать средние характеристики всей партии товара, но у Вас нет ни времени, ни желания измерять и взвешивать каждый овощ.

Вы понимаете, что в этом нет необходимости. Но сколько штук надо было бы взять на выборочную проверку? Прежде, чем дать несколько полезных для этой ситуации формул напомним некоторые обозначения. Во-первых, если бы мы все-таки промерили весь склад овощей (это множество элементов называется генеральной совокупностью), то мы узнали бы со всей доступной нам точностью среднее значение веса всей партии. Назовем это среднее значение Хср .ген. — генеральным средним.

Мы уже знаем, что нормальное распределение определяется полностью, если известно его среднее значение и отклонение s. Правда, пока мы ни Хср.ген., ни s генеральной совокупности не знаем. Мы можем только взять некоторую выборку, замерить нужные нам значения и посчитать для этой выборки как среднее значение Хср.выб., так и среднее квадратическое отклонение Sвыб. Известно, что если наша выборочная проверка содержит большое количество элементов (обычно n больше 30), и они взяты действительно случайным образом, то s генеральной совокупности почти не будет отличаться от Sвыб Кроме того, для случая нормального распределения мы можем пользоваться следующими формулами:

С вероятностью 95%

С вероятностью 99%

В общем виде c вероятностью Р(t)

доверительные интервалыСвязь значения t со значением вероятности Р(t), с которой мы хотим знать доверительный интервал, можно взять из следующей таблицы:

P(t) 0,683 0,950 0,954 0,990 0,997
t 1,00 1,96 2,00 2,58 3,00

Таким образом, мы определили, в каком диапазоне находится среднее значение для генеральной совокупности (с данной вероятностью).

Если у нас нет достаточно большой выборки, мы не можем утверждать, что генеральная совокупность имеет s = Sвыб. Кроме того, в этом случае проблематична близость выборки к нормальному распределению. В этом случае также пользуются Sвыб вместо s в формуле:

но значение t для фиксированной вероятности Р(t) будет зависеть от количества элементов в выборке n. Чем больше n, тем ближе будет полученный доверительный интервал к значению, даваемому формулой (1). Значения t в этом случае берутся из другой таблицы (t-критерий Стьюдента), которую мы приводим ниже:

Значения t-критерия Стьюдента для вероятности 0,95 и 0,99&nbsp

n P n P
0.95 0.99 0.95 0.99
2 12.71 63.66 18 2.11 2.90
3 4.30 9.93 19 2.10 2.88
4 3.18 5.84 20 2.093 2.861
5 2.78 4.60 25 2.064 2.797
6 2.57 4.03 30 2.045 2.756
7 2.45 3.71 35 2.032 2.720
8 2.37 3.50 40 2.022 2.708
9 2.31 3.36 45 2.016 2.692
10 2.26 3.25 50 2.009 2.679
11 2.23 3.17 60 2.001 2.662
12 2.20 3.11 70 1.996 2.649
13 2.18 3.06 80 1.991 2.640
14 2.16 3.01 90 1.987 2.633
15 2.15 2.98 100 1.984 2.627
16 2.13 2.95 120 1.980 2.617
17 2.12 2.92 >120 1.960 2.576

Пример 3. Из работников фирмы случайным образом отобрано 30 человек. По выборке оказалось, что средняя зарплата (в месяц) составляет 10 тыс. рублей при среднем квадратическом отклонении 3 тыс. рублей. С вероятностью 0,99 определить среднюю зарплату в фирме. Решение:По условию имеем n = 30, Хср.=10000, S=3000, Р = 0,99. Для нахождения доверительного интервала воспользуемся формулой, соответствующей критерию Стьюдента. По таблице для n = 30 и Р = 0,99 находим t=2,756, следовательно,

Источник

Объем выборки и доверительный интервал

В этом калькуляторе:

Теория

Программа социологического исследования состоит из разделов: методологического и процедурного. Методологический раздел предполагает постановку цели, задач, определение проблемы и объекта исследования, интерпретацию понятий, выдвижение гипотез. На процедурном этапе составляется план исследования, формируется набросок процедур сбора и анализа данных, обосновывается система выборки.

Построить систему выборки означает определить тип выборки, отобрать и рассчитать единицы исследования. При построении выборки необходимо понимать основные термины калькулятора: объект исследования, генеральная и выборочная совокупность, а также единица исследования.

«Москвичи» -это объект исследования. Понятие «москвичи» позволяет отбирать из всех россиян только тех, кто проживает в Москве. Генеральная совокупность- это число жителей г. Москва. Выборочная совокупность – это часть генеральной совокупности, количество которой зависит от типа выборки, целей исследования. Каждый москвич- это единица исследования.
Как отобрать из всех «москвичей» тех, кто будет входить в выборочную совокупность? В социологии выделяют два вида способов отбора единиц исследования: случайные и неслучайные.
Случайные способы — это способы, которые предоставляют равные ненулевые возможности каждой единице исследования попасть в выборку.

  1. Стратификационный отбор, т.е. разделение выборки на однородные группы и последовательный отбор единиц исследования уже из этих групп. Это жители одного микрорайона, представители молодежи;
  2. Случайный отбор — это отбор, при котором единицы исследования выстраиваются в порядок, список и отбираются, чаще всего, с помощью таблицы случайных чисел;
  3. Гнездовой отбор — это отбор, который в качестве единицы исследования рассматривает не одного человека, а зачастую группу. При этом учитывается мнение не всех членов «гнезда», а только одного. Семья, домохозяйство, субкультура- примеры гнездовой выборки;
  4. Систематический отбор схож со случайным, но основывается не на вероятностных процедурах, а на алфавитных списках, данных из баз, книге с номерами и адресами и т.д. В этом виде отбора имеет место шаг отбора, т.е. установленный интервал, через который отбираются респонденты. К примеру, опрашивается каждый третий пациент поликлиники (шаг=3).
  1. Квотный отбор- отбор, при котором каждое структурное подразделение генеральной совокупности имеет отражение в выборке с соответствующим процентом единиц исследования;
  2. Целевой отбор — отбор, при котором в выборку попадают представители только целевой группы.
  3. Метод «снежного кома»- способ отбора единиц исследования, подразумевающий, что человек, который участвовал в исследовании, привлечет новых респондентов.
Читайте также:  Вариационные ряды Таблицы частот

По принципу построения выборки социологические исследования делят на сплошные и выборочные. Сплошные исследования характеризуются тем, что респондентами становится вся генеральная совокупность. Сплошная выборка применяется в том случае, если необходимо изучить мнение всех, без исключений. Перепись населения — яркий пример сплошного исследования.
Выборочные исследования отличаются тем, что они ограничивают круг респондентов, т.е. не вся совокупность единиц исследования входит в выборку. В таком случае необходимо рассчитать размер выборки.

Размер выборки зависит от двух факторов:

  1. Степени однородности генеральной совокупности. Наблюдается обратная зависимость: чем выше степень однородности, тем меньше может быть объем выборки и наоборот.
  2. Количества ключевых параметров, на основании которых строится выборка. Параметры являются фильтрами отбора единиц исследования в выборку.

Размер выборки рассчитывается по формуле, в которой необходимо знать генеральную совокупность, определить желаемую и/или необходимую доверительную вероятность и доверительный интервал (погрешность). Формула, по которой производится расчет, также имеет показатель Z, значение которого зависит от доверительного уровня.

Доверительный интервал (погрешность)- это предельные значения, в рамках которых с установленной доверительной вероятностью попадет статистическая величина.

Доверительная вероятность есть показатель статистической вероятности того, что случайно выбранный ответ попадет в доверительный интервал. Высокой доверительной вероятностью считается 95% и 99%, средней- 85% и 80%. Чем выше доверительная вероятность, тем большее число человек необходимо включить в выборку.

Доверительная вероятность в 95% и соответственно +/- 5% погрешности в опросе москвичей будут означать, что случайно отобранный ответ в 95% случаев по статистике попадет в доверительный интервал.

Калькулятор также предлагает варианты расчета необходимого объема выборки и под другие доверительные интервалы.

Требованием к построению выборки является репрезентативность. Репрезентативность для исследования означает, что состав выборки по ряду параметров соответствует пропорциям генеральной совокупности.

Исследователь выделяет параметры, которые имеют ключевое значение. Им должна соответствовать выборочная совокупность. Чаще всего к ним относят: пол, возраст, профессию/должность, семейное положение, уровень дохода, образование и т.д.

Для того чтобы определить, насколько репрезентативна выборка, рассчитывается показатель «ошибка выборки». Социологи считают, что высокая надежность выборочного отбора допускает ошибку выборки в 3%, стандартная — в среднем 3-10%, приближенная варьируется от 10-20%, ориентировочная- в среднем 20-40%, а прикидочная оценивается в 40% и более.
Калькулятор производит расчет погрешности, принимая условие, что генеральная совокупность больше, чем объем выборки. Однако, формулы расчета при этом условии и обратном ему различны.

Ошибки выборки могут быть случайными и систематическими.

Систематические отклонения возникают, если при разработке программы исследования была допущена концептуальная ошибка. Неправильно выбранный параметр либо игнорирование значимых параметров, неточность расчета выборочной совокупности и как следствие смещение выборки — примеры часто встречающихся систематических ошибок.
Распространенными систематическими ошибками считаются:

  1. Давление доступных объектов. Данная ошибка проявляется в том случае, если выводы, полученные в результате исследования только доступной части выборки, обобщаются и проектируются на всю выборочную совокупность.
  2. Иллюзия постоянства. Ошибка иллюзии постоянства заключается в том, что при проведении исследования пренебрегается та категория, которая не имеет четкого мнения. Но мнение может сформироваться, поменяться. В этом случае исследователь упускает ценную информацию.
  3. Недостаточный учет аномальных и труднодоступных единиц исследования. Речь идет о том, что в случае возникновения трудностей с налаживанием контакта, получением доступа к некоторым категориям населения, исследователь может ими пренебречь. Если учет аномальных и труднодоступных единиц исследования не отражен в концепции исследования, в задачах, гипотезах, то его можно опустить без риска снижения качества данных.
  4. Отказ от ответа. Отказ от ответа плох тем, что человек уже стал респондентом, его ответ фиксируется, но он не является информативным. А также значительно изменяют усредненные показатели, выводы.

Случайные ошибки бывают двух видов.

Первый вид включает случайные ошибки, которые появляются на этапах наблюдения и сбора информации. Это ошибки процедурные. Причинами допущения такого рода ошибок может быть неквалифицированный интервьюер/ анкетер, а также неполный охват выборки.

Второй вид случайных ошибок выражается в отклонении характеристик выборки от характеристик генеральной совокупности. Случайные ошибки можно исправить, организовав дополнительный сбор информации.

Построение и обоснование выборки- важный процедурный этап. От того, насколько грамотно исследователь отберет респондентов, зависит успешность исследования, точность и надежность, релевантность данных. Важно помнить, что выборка строится, исходя из концепта исследования, поставленных целей и задач, выдвинутых гипотез. Также не менее важны сущностные характеристики объекта исследования, учет которых требует корректировки выборки. Единой формулы для грамотного построения выборки нет. Необходимо разрабатывать исследование, в частности, выборку поэтапно. В этом случае есть вероятность минимизировать ошибки. А выполнить рутинную работу вам всегда поможет калькулятор.

Читайте также:  Battle Brothers’ Backgrounds Guide Updated

Как рассчитать выборку

формула расчета выборки

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели соков и нектаров, постоянно проживающие в Москве и Московской области). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален. В данном калькуляторе значения p и q по умолчанию равны 0,5.

Δ– предельная ошибка выборки (для доли признака, доверительный интервал («погрешность» ± %)), приемлемая для исследователя. Считается, что для принятия бизнес-решений ошибка выборки не должна превышать 4%.

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании.

Как рассчитать доверительный интервал (погрешность)

Генеральная совокупность значительно больше выборки
Объем выборки и доверительный интервал
Генеральная совокупность сопоставима с объемом выборки
Объем выборки и доверительный интервал

n – объем выборки,
N – объем генеральной совокупности,
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня (так же называют Z фактор),
p – доля респондентов с наличием исследуемого признака,
q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует, (значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования)
∆ – предельная ошибка выборки, ± %.

Источник

Проект Extra.im

Вероятность попадания средней или относительной величины в доверительный интервал называется доверительной вероятностью.

Доверительные границы средней арифметической генеральной совокупности определяют по формуле:

Доверительные границы относительной величины в генеральной совокупности определяют по следующей формуле:

Рген = Рвыб ± t · mр

Где: Мген и Рген — значения средней и относительной величин, полученных для генеральной совокупности;

Мвыб и Рвыб — значения средней и относительной величин, полученных для выборочной совокупности;

mM и mр— ошибки репрезентативности выборочных величин;

t — доверительный критерий, который зависит от величины безошибочного прогноза, устанавливаемого при планировании исследования.

Произведение t · m (Δ) — предельная ошибка показателя, полученного при данном выборочном исследовании.

Размеры предельной ошибки зависят от коэффициента t, который избирает сам исследователь, исходя из заданной вероятности безошибочного прогноза.

Величина критерия t связана с вероятностью безошибочного прогноза (Р) и числом наблюдений в выборочной совокупности (табл. 4.1).

Таблица 4.1. Зависимость доверительного критерия t от степени вероятности безошибочного прогноза Р (при n > 30)

Степень вероятности безошибочного прогноза (Р %) Доверительный критерий t
95,0
99,0 2,6
99,9 3,3

Для большинства медико-биологических и социальных исследований достоверными считаются доверительные границы, установленные с вероятностью безошибочного прогноза = 95% и более.

Чтобы найти критерий t при числе наблюдений (n) 30 — t имеет неизменную величину и при этом доверительный интервал зависит от величины ошибки репрезентативности.

С уменьшением величины ошибки суживаются доверительные границы средних и относительных величин, полученных на выборочной совокупности, т.е. уточняются результаты исследования, которые приближаются к соответствующим величинам генеральной совокупности. Если ошибка большая, то получают для выборочной величины большие доверительные границы, которые могут противоречить логической оценке искомой величины в генеральной совокупности. В подобном случае надо искать резервы сокращения размаха доверительных границ в размере величины ошибки репрезентативности.

Доверительные границы Мвыб и Рвыб зависят не только от средних ошибок этих величин, но и от избранной исследователем степени вероятности безошибочного прогноза. При большой степени вероятности размах доверительных границ увеличивается.

3. Определение достоверности разности средних (или относительных) величин (по критерию t — Стъюдента).

В медицине и здравоохранении по разности параметров оценивают средние и относительные величины, полученные для разных групп населения по полу, возрасту, а также групп больных и здоровых и т.д. Во всех случаях при сопоставлении двух сравниваемых величин возникает необходимость не только определить их разность, но и оценить ее достоверность.

Достоверность разности величин, полученных при выборочных исследованиях, означает, что вывод об их различии может быть перенесен на соответствующие генеральные совокупности.

Читайте также:  Таблица Опыление растений для учащихся 6 классов

Достоверность разности выборочной совокупности измеряется доверительным критерием, который рассчитывается по специальным формулам для средних и относительных величин.

Формула оценки достоверности разности сравниваемых средних величин:

Для относительных величин:

Где: M1; M2 ; Р1; Р2 — параметры, полученные при выборочных исследованиях;

t — критерий достоверности (Стъюдента).

Разность статистически достоверна при t ≥ 2, что соответствует вероятности безошибочного прогноза, равной 95% и более.

Для большинства исследований, проводимых в медицине и здравоохранении, такая степень вероятности является вполне достаточной.

При величине критерия достоверности t 2 + m2 2

Источник

Способы расчета доверительного интервала

Способы расчета доверительного интервала

Часто оценщику приходится анализировать рынок недвижимости того сегмента, в котором располагается объект оценки. Если рынок развит, проанализировать всю совокупность представленных объектов бывает сложно, поэтому для анализа используется выборка объектов. Не всегда эта выборка получается однородной, иногда требуется очистить ее от экстремумов – слишком высоких или слишком низких предложений рынка. Для этой цели применяется доверительный интервал. Цель данного исследования – провести сравнительный анализ двух способов расчета доверительного интервала и выбрать оптимальный вариант расчета при работе с разными выборками в системе estimatica.pro.

Способы расчета доверительного интервала

Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности.

Смысл вычисления доверительного интервала заключается в построении по данным выборки такого интервала, чтобы можно было утверждать с заданной вероятностью, что значение оцениваемого параметра находится в этом интервале. Другими словами, доверительный интервал с определенной вероятностью содержит неизвестное значение оцениваемой величины. Чем шире интервал, тем выше неточность.

Существуют разные методы определения доверительного интервала. В этой статье рассмотрим 2 способа:

  • через медиану и среднеквадратическое отклонение;
  • через критическое значение t-статистики (коэффициент Стьюдента).

Этапы сравнительного анализа разных способов расчета ДИ:

1. формируем выборку данных;

2. обрабатываем ее статистическими методами: рассчитываем среднее значение, медиану, дисперсию и т.д.;

3. рассчитываем доверительный интервал двумя способами;

4. анализируем очищенные выборки и полученные доверительные интервалы.

Этап 1. Выборка данных

Выборка сформирована с помощью системы estimatica.pro. В выборку вошло 91 предложение о продаже 1 комнатных квартир в 3-ем ценовом поясе с типом планировки «Хрущевка».

Таблица 1. Исходная выборка

Цена 1 кв.м., д.е.

Рис.1. Исходная выборка

Выборка данных

Этап 2. Обработка исходной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

Обработка исходной выборки

2. Медиана – число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

Обработка исходной выборки1(для выборки, имеющей нечетное число значений)

3. Размах – разница между максимальным и минимальным значениями в выборке

Обработка исходной выборки2

4. Дисперсия – используется для более точного оценивания вариации данных

Обработка исходной выборки3

5. Среднеквадратическое отклонение по выборке (далее – СКО) – наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

Обработка исходной выборки4

6. Коэффициент вариации – отражает степень разбросанности значений корректировок

Обработка исходной выборки5

7. коэффициент осцилляции – отражает относительное колебание крайних значений цен в выборке вокруг средней

Обработка исходной выборки6

Таблица 2. Статистические показатели исходной выборки

Показатель

Значение

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Этап 3. Расчёт доверительного интервала

Способ 1. Расчёт через медиану и среднеквадратическое отклонение.

Доверительный интервал определяется следующим образом: минимальное значение — из медианы вычитается СКО; максимальное значение – к медиане прибавляется СКО.

Формула доверительного интервала:

Форма доверительного интервала

Таким образом, доверительный интервал (47179 д.е.; 60689 д.е.)

Значения, содержащиеся в исходной выборке и не попадающие в доверительный интервал, удаляем. Удалено 20 объектов, что составило 22% выборки.

Рис. 2. Значения, попавшие в доверительный интервал 1.

Значения попавшие в доверительный интервал

Способ 2. Построение доверительного интервала через критическое значение t-статистики (коэффициент Стьюдента)

С.В. Грибовский в книге «Математические методы оценки стоимости имущества» описывает способ вычисления доверительного интервала через коэффициент Стьюдента. При расчете этим методом оценщик должен сам задать уровень значимости ∝, определяющий вероятность, с которой будет построен доверительный интервал. Обычно используются уровни значимости 0,1; 0,05 и 0,01. Им соответствуют доверительные вероятности 0,9; 0,95 и 0,99. При таком методе полагают истинные значения математического ожидания и дисперсии практически неизвестными (что почти всегда верно при решении практических задач оценки).

Формула доверительного интервала:

Форма доверительного интервала1

n — объем выборки;

Форма доверительного интервала2— критическое значение t- статистики (распределения Стьюдента) с уровнем значимости ∝,числом степеней свободы n-1,которое определяется по специальным статистическим таблицам либо с помощью MS Excel ( Форма доверительного интервала4→»Статистические»→ СТЬЮДРАСПОБР);

∝ — уровень значимости, принимаем ∝=0,01.

Форма доверительного интервала5

Значения, содержащиеся в исходной выборке и не попадающие в доверительный интервал, удаляем. Удалено 62 объекта, что составило 68% выборки.

Рис. 2. Значения, попавшие в доверительный интервал 2.

Форма доверительного интервала6

Этап 4. Анализ разных способов расчета доверительного интервала

Два способа расчета доверительного интервала – через медиану и коэффициент Стьюдента – привели к разным значениям интервалов. Соответственно, получилось две различные очищенные выборки.

Таблица 3. Статистические показатели по трем выборкам.

Источник