Меню

Первичная обработка статистических данных Практическое пособие страница 25

Нормальное распределение (Гаусса) в Excel

В статье подробно показано, что такое нормальный закон распределения случайной величины и как им пользоваться при решении практически задач.

Нормальное распределение в статистике

История закона насчитывает 300 лет. Первым открывателем стал Абрахам де Муавр, который придумал аппроксимацию биномиального распределения еще 1733 году. Через много лет Карл Фридрих Гаусс (1809 г.) и Пьер-Симон Лаплас (1812 г.) вывели математические функции.

Лаплас также обнаружил замечательную закономерность и сформулировал центральную предельную теорему (ЦПТ), согласно которой сумма большого количества малых и независимых величин имеет нормальное распределение.

Нормальный закон не является фиксированным уравнением зависимости одной переменной от другой. Фиксируется только характер этой зависимости. Конкретная форма распределения задается специальными параметрами. Например, у = аx + b – это уравнение прямой. Однако где конкретно она проходит и под каким наклоном, определяется параметрами а и b. Также и с нормальным распределением. Ясно, что это функция, которая описывает тенденцию высокой концентрации значений около центра, но ее точная форма задается специальными параметрами.

Кривая нормального распределения Гаусса имеет следующий вид.

График плотности нормального распределения

График нормального распределения напоминает колокол, поэтому можно встретить название колоколообразная кривая. У графика имеется «горб» в середине и резкое снижение плотности по краям. В этом заключается суть нормального распределения. Вероятность того, что случайная величина окажется около центра гораздо выше, чем то, что она сильно отклонится от середины.

Различные вероятности у нормально распределенных данных

На рисунке выше изображены два участка под кривой Гаусса: синий и зеленый. Основания, т.е. интервалы, у обоих участков равны. Но заметно отличаются высоты. Синий участок удален от центра, и имеет существенно меньшую высоту, чем зеленый, который находится в самом центре распределения. Следовательно, отличаются и площади, то бишь вероятности попадания в обозначенные интервалы.

Формула нормального распределения (плотности) следующая.

Функция Гаусса

Формула состоит из двух математических констант:

π – число пи 3,142;

е – основание натурального логарифма 2,718;

двух изменяемых параметров, которые задают форму конкретной кривой:

m – математическое ожидание (в различных источниках могут использоваться другие обозначения, например, µ или a);

ну и сама переменная x, для которой высчитывается плотность вероятности.

Конкретная форма нормального распределения зависит от 2-х параметров: математического ожидания (m) и дисперсии ( σ 2 ). Кратко обозначается N(m, σ 2 ) или N(m, σ). Параметр m (матожидание) определяет центр распределения, которому соответствует максимальная высота графика. Дисперсия σ 2 характеризует размах вариации, то есть «размазанность» данных.

Параметр математического ожидания смещает центр распределения вправо или влево, не влияя на саму форму кривой плотности.

А вот дисперсия определяет остроконечность кривой. Когда данные имеют малый разброс, то вся их масса концентрируется у центра. Если же у данных большой разброс, то они «размазываются» по широкому диапазону.

Плотность распределения не имеет прямого практического применения. Для расчета вероятностей нужно проинтегрировать функцию плотности.

Вероятность того, что случайная величина окажется меньше некоторого значения x, определяется функцией нормального распределения:

Функция нормального распределения

Используя математические свойства любого непрерывного распределения, несложно рассчитать и любые другие вероятности, так как

P(a ≤ X 0 =1 и остается рассчитать только соотношение 1 на корень из 2 пи.

Таким образом, по графику хорошо видно, что значения, имеющие маленькие отклонения от средней, выпадают чаще других, а те, которые сильно отдалены от центра, встречаются значительно реже. Шкала оси абсцисс измеряется в стандартных отклонениях, что позволяет отвязаться от единиц измерения и получить универсальную структуру нормального распределения. Кривая Гаусса для нормированных данных отлично демонстрирует и другие свойства нормального распределения. Например, что оно является симметричным относительно оси ординат. В пределах ±1σ от средней арифметической сконцентрирована большая часть всех значений (прикидываем пока на глазок). В пределах ±2σ находятся большинство данных. В пределах ±3σ находятся почти все данные. Последнее свойство широко известно под названием правило трех сигм для нормального распределения.

Читайте также:  МЫШЦЫ ГРУДИ ЧЕЛОВЕКА их расположение функции иннервация и кровоснабжение Таблица

Функция стандартного нормального распределения позволяет рассчитывать вероятности.

Функция стандартного нормального распределения

Понятное дело, вручную никто не считает. Все подсчитано и размещено в специальных таблицах, которые есть в конце любого учебника по статистике.

Таблица нормального распределения

Таблицы нормального распределения встречаются двух типов:

— таблица плотности;

— таблица функции (интеграла от плотности).

Таблица плотности используется редко. Тем не менее, посмотрим, как она выглядит. Допустим, нужно получить плотность для z = 1, т.е. плотность значения, отстоящего от матожидания на 1 сигму. Ниже показан кусок таблицы.

Таблица плотности стандартного нормального распределения

В зависимости от организации данных ищем нужное значение по названию столбца и строки. В нашем примере берем строку 1,0 и столбец , т.к. сотых долей нет. Искомое значение равно 0,2420 (0 перед 2420 опущен).

Функция Гаусса симметрична относительно оси ординат. Поэтому φ(z)= φ(-z), т.е. плотность для 1 тождественна плотности для -1, что отчетливо видно на рисунке.

График функции Гаусса

Чтобы не тратить зря бумагу, таблицы печатают только для положительных значений.

На практике чаще используют значения функции стандартного нормального распределения, то есть вероятности для различных z.

В таких таблицах также содержатся только положительные значения. Поэтому для понимания и нахождения любых нужных вероятностей следует знать свойства стандартного нормального распределения.

Функция Ф(z) симметрична относительно своего значения 0,5 (а не оси ординат, как плотность). Отсюда справедливо равенство:

Свойство 1

Это факт показан на картинке:

Свойство нормального распределения 1

Значения функции Ф(-z) и Ф(z) делят график на 3 части. Причем верхняя и нижняя части равны (обозначены галочками). Для того, чтобы дополнить вероятность Ф(z) до 1, достаточно добавить недостающую величину Ф(-z). Получится равенство, указанное чуть выше.

Если нужно отыскать вероятность попадания в интервал (0; z), то есть вероятность отклонения от нуля в положительную сторону до некоторого количества стандартных отклонений, достаточно от значения функции стандартного нормального распределения отнять 0,5:

Свойство 2

Для наглядности можно взглянуть на рисунок.

Свойство нормального распределения 2

На кривой Гаусса, эта же ситуация выглядит как площадь от центра вправо до z.

Свойство нормального распределения 2 на кривой Гаусса

Довольно часто аналитика интересует вероятность отклонения в обе стороны от нуля. А так как функция симметрична относительно центра, предыдущую формулу нужно умножить на 2:

Свойство 3

Свойство нормального распределения 3

Под кривой Гаусса это центральная часть, ограниченная выбранным значением –z слева и z справа.

Свойство нормального распределения 3 на кривой Гаусса

Указанные свойства следует принять во внимание, т.к. табличные значения редко соответствуют интересующему интервалу.

Для облегчения задачи в учебниках обычно публикуют таблицы для функции вида:

Функция стандартного нормального распределения

Если нужна вероятность отклонения в обе стороны от нуля, то, как мы только что убедились, табличное значение для данной функции просто умножается на 2.

Теперь посмотрим на конкретные примеры. Ниже показана таблица стандартного нормального распределения. Найдем табличные значения для трех z: 1,64, 1,96 и 3.

Таблица функции Лапласа

Как понять смысл этих чисел? Начнем с z=1,64, для которого табличное значение составляет 0,4495. Проще всего пояснить смысл на рисунке.

Значение функции Лапласа для z=1,64 в правую сторону

То есть вероятность того, что стандартизованная нормально распределенная случайная величина попадет в интервал от до 1,64, равна 0,4495. При решении задач обычно нужно рассчитать вероятность отклонения в обе стороны, поэтому умножим величину 0,4495 на 2 и получим примерно 0,9. Занимаемая площадь под кривой Гаусса показана ниже.

Значение функции Лапласа для z=1,64 под кривой Гаусса

Таким образом, 90% всех нормально распределенных значений попадает в интервал ±1,64σ от средней арифметической. Я не случайно выбрал значение z=1,64, т.к. окрестность вокруг средней арифметической, занимающая 90% всей площади, иногда используется для проверки статистических гипотез и расчета доверительных интервалов. Если проверяемое значение не попадает в обозначенную область, то его наступление маловероятно (всего 10%).

Для проверки гипотез, однако, чаще используется интервал, накрывающий 95% всех значений. Половина вероятности от 0,95 – это 0,4750 (см. второе выделенное в таблице значение).

Значение функции Лапласа для z=1,96 в правую сторону

Для этой вероятности z=1,96. Т.е. в пределах почти ±2σ от средней находится 95% значений. Только 5% выпадают за эти пределы.

Читайте также:  Продукты для школьника калорийность таблица

Значение функции Лапласа для z=1,96 под кривой Гаусса

Еще одно интересное и часто используемое табличное значение соответствует z=3, оно равно по нашей таблице 0,4986. Умножим на 2 и получим 0,997. Значит, в рамках ±3σ от средней арифметической заключены почти все значения.

Значение функции Лапласа для z=3 под кривой Гаусса

Так выглядит правило 3 сигм для нормального распределения на диаграмме.

С помощью статистических таблиц можно получить любую вероятность. Однако этот метод очень медленный, неудобный и сильно устарел. Сегодня все делается на компьютере. Далее переходим к практике расчетов в Excel.

Нормальное распределение в Excel

В Excel есть несколько функций для подсчета вероятностей или обратных значений нормального распределения.

Функции нормального распределения в Excel

Функция НОРМ.СТ.РАСП

Функция НОРМ.СТ.РАСП предназначена для расчета плотности ϕ( z ) или вероятности Φ(z) по нормированным данным (z).

z – значение стандартизованной переменной

интегральная – если 0, то рассчитывается плотность ϕ( z ) , если 1 – значение функции Ф(z), т.е. вероятность P(Z

Источник

Talkin go money

Т-критерий Стьюдента за 12 минут. Биостатистика. (Июль 2021).

Таблица нормального распределения, Объяснение - 2021 - Talkin go money

Table of Contents:

Формула нормального распределения основана на двух простых параметрах — среднем и стандартном отклонениях, которые определяют количественно характеристики данного набора данных. В то время как среднее означает «центральное» или среднее значение всего набора данных, стандартное отклонение указывает «разброс» или изменение точек данных вокруг этого среднего значения.

Рассмотрим следующие 2 набора данных:

Для набора данных 1, среднее значение = 10 и стандартное отклонение (stddev) = 0

Для Dataset2 среднее значение = 10 и стандартное отклонение (stddev) = 2. 83

Давайте нарисуем эти значения для DataSet1:

Аналогично для DataSet2:

Красная горизонтальная линия на обоих приведенных выше графиках указывает «среднее» или среднее значение каждого набора данных (в обоих случаях — 10). Розовые стрелки на втором графике показывают разброс или изменение значений данных из среднего значения. Это представлено стандартным значением отклонения 2. 83 в случае DataSet2. Поскольку DataSet1 имеет все значения одинаковые (по 10 каждый) и никаких изменений, значение stddev равно нулю, и, следовательно, не применяются розовые стрелки.

Значение stddev имеет несколько существенных и полезных характеристик, которые чрезвычайно полезны при анализе данных. Для нормального распределения значения данных симметрично распределены по обе стороны от среднего значения. Для любого нормально распределенного набора данных, график графика с stddev по горизонтальной оси и нет. значений данных по вертикальной оси, получается следующий график.

Свойства нормального распределения

  1. Нормальная кривая симметрична относительно среднего;
  2. Среднее значение находится в середине и делит область на две половины;
  3. Общая площадь под кривой равна 1 для среднего = 0 и stdev = 1;
  4. Распределение полностью описывается его средним значением и stddev

Как видно из приведенного выше графика, stddev представляет следующее:

  • 68. 3% значений данных находятся в пределах 1 стандартного отклонения от среднего (от -1 до +1)
  • 95. 4% значений данных находятся в пределах 2 стандартных отклонения от среднего (от -2 до +2)
  • 99. 7% значений данных находятся в пределах 3 стандартных отклонения от среднего (от -3 до +3)

Площадь под кривой колоколообразной кривой при измерении указывает на желаемую вероятность данного диапазон:

  • меньше, чем X: — e. г. вероятность значений данных меньше 70
  • больше X — e. г. вероятность значений данных больше 95
  • между X 1 и X 2 e. г. вероятность значений данных между 65 и 85

, где X представляет интересную ценность (примеры ниже).

Построение и вычисление области не всегда удобно, так как разные наборы данных будут иметь разные значения среднего и stddev.Чтобы облегчить единый стандартный метод для простых вычислений и применимости к реальным проблемам, было введено стандартное преобразование в значения Z, которые составляют часть таблицы Normal Distribution Table .

Z = (X — среднее) / stddev, где X — случайная величина.

В основном это преобразование заставляет среднее и stddev стандартизоваться на 0 и 1 соответственно, что позволяет использовать стандартный набор Z-значений (из Normal Distribution Table ), который будет использоваться для легких вычислений , Захват стандартной таблицы значений z, содержащей значения вероятности, выглядит следующим образом:

Источник



Таблица стандартного нормального отклонения

Minitab

Z-таблицы используются для расчета площади (вероятности) под кривой нормального распределения отсекаемой линией. Сама по себе, площадь представляет не большой интерес, но ее величина широко применима в проектах шести сигм.

При отсутствии таблицы, вы всегда можете воспользоваться функцией расчёта в программе Minitab:

  1. В меню Graph выберите Probability Distribution Plot.
  2. В открывшемся окне выберите View Probability.
  3. В диалоговом окне укажите:
    • Distribution (распределение) – Normal (установлено по умолчанию).
    • Mean и Standard Deviation – соответственно вашим данным.
      • Мы советуем оставить величины параметров по умолчанию, чтобы на следующей вкладке можно будет задать интересуемое значение Z.
  4. Переключитесь на вкладку Shaded Area.
  5. В области Define Shaded Area By, установите флажок напротив X Value.
  6. Затем выберите, с какой стороны от указываемой величины следует рассчитать вероятность.
    • Right Tail – правее от интересуемой величины Z (аналогично первой таблице).
    • Left Tail – левее от интересуемой величины Z (аналогично второй таблице).
  7. В строке X value введите интересуемое значение Z.

Источник

Первичная обработка статистических данных. Практическое пособие, страница 25

Определение 2.13 Стандартным отклонением выборки x 1 , x 2 , …, x n называется число S , которое вычисляется по формуле:

.

Таким образом, выборочное стандартное отклонение равно квадратному корню из выборочной дисперсии, следовательно, справедливы формулы:

Пример 2.21 В течение пяти дней студент Ковалев записывал стоимость обедов в студенческой столовой: 3,2; 4,8; 5,6; 4,5; 5,4. Найдем выборочную дисперсию и стандартное отклонение.

Сначала определим среднее:

Найдем стандартное отклонение:

Округлим полученное значение: S = 0,95 условных рублей.

Определение 2.14 Выборочной дисперсией вариационного ряда x 1 , x 2 , …, x n с соответствующими частотами

соответственно, при малом и большом значении n , где

Пример 2.22 Для социологического исследования были собраны данные о количественном составе 20 семей, приведенные в следующей таблице.

Таблица 2.16 – Количественный состав семей

Найдем среднее, дисперсию и стандартное отклонение:

n = 2 + 3 + 8 + 5 + 1 + 1 = 20;

Округлим S 2 = 1,50 и S = 1,23. Итак, – это среднее число членов семьи, S = 1,23 – это стандартное отклонение от среднего.

Определение 2.15 Выборочной дисперсией статистического ряда, состоящего из k интервалов с соответствующими интервальными средними и интервальными частотами

, называется число , равное:

соответственно, при малом и большом значении n , где

Пример 2.23 Результаты экзамена по высшей математике пятидесяти студентов представлены следующим статистическим рядом. Используется десятибалльная система оценок. Найдем среднее и стандартное отклонение.

Таблица 2.17 – Итоги экзамена по высшей математике

Найдем интервальные средние:

Найдем дисперсию данной выборки:

Итак, средняя оценка студентов I курса составляет 5,6 баллов. Стандартное отклонение баллов показывает, что оценки большинства студентов отличаются от среднего не более, чем на 2,26 баллов.

Таким образом, для вычисления выборочной дисперсии необходимо найти значение среднего , вычислить сумму квадратов отклонений выборочный значений от среднего и разделить ее на n – 1, где n – число всех наблюдений. Извлечение квадратного корня при нахождении стандартного отклонения возвращает к первоначальному масштабу единицы измерения.

Обработка и анализ статических данных требует кропотливой и нелегкой вычислительной работы. Для организации вычислений в математической статистике часто используются специальные таблицы.

Пример 2.24 Найдем среднее и стандартное отклонение для статистического ряда из примера 1.4 о высоте городских зданий. Все необходимые вычисления будем записывать в таблицу 2.18.

Из таблицы 2.18 берем необходимые промежуточные результаты:

Итак, среднее высоты зданий равно 27,12 метров, а стандартное отклонение равно 9,96 метров.

Таблица 2.18 – Вычисление среднего и стандартного отклонения высоты зданий

среднее

Источник

Adblock
detector