Меню

Данная таблица является примером интервального ряда



3. Интервальный вариационный ряд.
Гистограмма относительных частот

На предыдущем уроке по математической статистике (Занятие 1) мы разобрали дискретный вариационный ряд (Занятие 2), и сейчас на очереди интервальный. Его понятие, графическое представление (гистограмма и эмпирическая функция распределения), а также рациональные методы вычислений, как ручные, так и программные. В том числе будут рассмотрены задачи с достаточно большим количеством (100-200) вариант – что делать в таких случаях, как обработать большой массив данных.

Предпосылкой построения интервального вариационного ряда (ИВР) является тот факт, что исследуемая величина принимает слишком много различных значений. Зачастую ИВР появляется в результате измерения непрерывной характеристики изучаемых объектов. Типично – это время, масса, размеры и другие физические характеристики. Подходящие примеры встретились в первой же статье по матстату, вспоминаем Константина, который замерял время на лабораторной работе и Фёдора, который взвешивал помидоры.

Для изучения интервального вариационного ряда затруднительно либо невозможно применить тот же подход, что и для дискретного ряда. Это связано с тем, что ВСЕ варианты многих ИВР различны. И даже если встречаются совпадающие значения, например, 50 грамм и 50 грамм, то связано это с округлением, ибо полученные значения всё равно отличаются хоть какими-то микрограммами.

Поэтому для исследования ИВР используется другой подход, а именно, определяется интервал, в пределах которого варьируются значения, затем данный интервал делится на частичные интервалы, и по каждому интервалу подсчитываются частоты – количество вариант, которые в него попали.

Разберём всю кухню на конкретной задаче, и чтобы как-то разнообразить физику, я приведу пример с экономическим содержанием, кои десятками предлагают студентам экономических отделений. Деньги, строго говоря, дискретны, но если надо, непрерывны :), и по причине слишком большого разброса цен, для них целесообразно строить интервальный ряд:

По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):

Требуется составить вариационный ряд распределения, построить гистограмму и полигон относительных частот + бонус – эмпирическую функцию распределения.

Такое обывательское исследование проводит каждый из нас, начиная с анализа цены на пакет молока вот это дожил в нескольких магазинах, и заканчивая ценами на недвижимость по гораздо бОльшей выборке. Что называется, не какие-то там унылые сантиметры.

Поэтому представьте свой любимый товар / услугу и наслаждайтесь решением🙂

Очевидно, что перед нами выборочная совокупность объемом наблюдений (таблица 10*3), и вопрос номер один: какой ряд составлять – дискретный или интервальный? Смотрим на таблицу: среди предложенных цен есть одинаковые, но их разброс довольно велик, и поэтому здесь целесообразно провести интервальное разбиение. К тому же цены могут быть округлёнными.

Начнём с экстремальной ситуации, когда у вас под рукой нет Экселя или другого подходящего программного обеспечения. Только ручка, карандаш, тетрадь и калькулятор.

Тактика действий похожа на исследование дискретного вариационного ряда. Сначала окидываем взглядом предложенные числа и определяем примерный интервал, в который вписываются эти значения. «Навскидку» все значения заключены в пределах от 5 до 11. Далее делим этот интервал на удобные подынтервалы, в данном случае напрашиваются промежутки единичной длины. Записываем их на черновик:

Теперь начинаем вычёркивать числа из исходного списка и записывать их в соответствующие колонки нашей импровизированной таблицы:

После этого находим самое маленькое число в левой колонке и самое большое значение – в правой. Тут даже ничего искать не пришлось, честное слово, не нарочно получилось:)
ден. ед. – хорошим тоном считается указывать размерность.

Вычислим размах вариации:
ден. ед. – длина общего интервала, в пределах которого варьируется цена.

Теперь его нужно разбить на частичные интервалы. Сколько интервалов рассмотреть? По умолчанию на этот счёт существует формула Стерджеса:

, где – десятичный логарифм* от объёма выборки и – оптимальное количество интервалов, при этом результат округляют до ближайшего левого целого значения.

* есть на любом более или менее приличном калькуляторе

В нашем случае получаем:
интервалов.

Следует отметить, что правило Стерджеса носит рекомендательный, но не обязательный характер. Нередко в условии задачи прямо сказано, на какое количество интервалов нужно проводить разбиение (на 4, 5, 6, 10 и т.д.), и тогда следует придерживаться именно этого указания.

Длины частичных интервалов могут быть различны, но в большинстве случаев использует равноинтервальную группировку:
– длина частичного интервала. В принципе, здесь можно было не округлять и использовать длину 0,96, но удобнее, ясен день, 1.

И коль скоро мы прибавили 0,04, то по 5 частичным интервалам у нас получается «перебор»: . Посему от самой малой варианты отмеряем влево 0,1 влево (половину «перебора») и к значению 5,7 начинаем прибавлять по , получая тем самым частичные интервалы. При этом сразу рассчитываем их середины (например, ) – они требуются почти во всех тематических задачах:

– убеждаемся в том, что самая большая варианта вписалась в последний частичный интервал и отстоит от его правого конца на 0,1.

Далее подсчитываем частоты по каждому интервалу. Для этого в черновой «таблице» обводим значения, попавшие в тот или иной интервал, подсчитываем их количество и вычёркиваем:

Так, значения из 1-го интервала я обвёл овалами (7 штук) и вычеркнул, значения из 2-го интервала – прямоугольниками (11 штук) и вычеркнул и так далее.

Правило: если варианта попадает на «стык» интервалов, то её следует относить в правый интервал. У нас такая варианта встретилась одна: – и её нужно причислить к интервалу .

В результате получаем интервальный вариационный ряд, при этом обязательно убеждаемся в том, что ничего не потеряно: , и, кроме того, рассчитываем относительные частоты по каждому интервалу, которые уместно округлить до двух знаков после запятой:

Дело за чертежами. Для ИВР чаще всего требуется построить гистограмму.

Гистограмма относительных частот – это фигура, состоящая из прямоугольников, ширина которых равна длинам частичных интервалов, а высота – соответствующим относительным частотам:

При этом вполне допустимо использовать нестандартную шкалу по оси абсцисс, в данном случае я начал нумерацию с четырёх.

Площадь гистограммы равна единице, и это статистический аналог функции плотности распределения непрерывной случайной величины. Построенный чертёж даёт наглядное и весьма точное представление о распределении цен на ботинки по всей генеральной совокупности. Но это при условии, что выборка представительна.

Вместе с гистограммой нередко требуют построить полигон. Без проблем, полигон относительных частот – это ломаная, соединяющая соседние точки , где – середины интервалов:

Большим достоинством приведённого решения является тот факт, что многие вычисления здесь устные, а если вы помните, как делить «столбиком», то можно обойтись даже без калькулятора. Вот она где притаилась, смерть Терминатора 🙂 😉

Автоматизируем решение в Экселе:

Как составить ИВР и представить его графически? (Ютуб)

И бонус – эмпирическая функция распределения. Она определяется точно так же, как в дискретном случае:

Читайте также:  Чему равны углы таблица

, где – количество вариант СТРОГО МЕНЬШИХ, чем «икс», который «пробегает» все значения от «минус» до «плюс» бесконечности.

Но вот построить её для интервального ряда намного проще. Находим накопленные относительные частоты:

И строим кусочно-ломаную линию, с промежуточными точками , где – правые концы интервалов, а – относительная частота, которая успела накопиться на всех «пройденных» интервалах:

При этом если и если .

Напоминаю, что данная функция не убывает, принимает значения из промежутка и, кроме того, для ИВР она ещё и непрерывна.

Эмпирическая функция распределения является аналогом функции распределения НСВ и приближает теоретическую функцию , которую теоретически, а иногда и практически можно построить по всей генеральной совокупности.

Помимо перечисленных графиков, вариационные ряды также можно представить с помощью кумуляты и огивы частот либо относительных частот, но в классическом учебном курсе эта дичь редкая, и поэтому о ней буквально пару абзацев:

Кумулята – это ломаная, соединяющая точки:

* либо – для дискретного вариационного ряда;
либо – для интервального вариационного ряда.

* – накопленные «обычные» частоты

В последнем случае кумулята относительных частот представляет собой «главный кусок» недавно построенной эмпирической функции распределения.

Огива – это обратная функция по отношению к кумуляте – здесь варианты откладываются по оси ординат, а накопленные частоты либо относительные частоты – по оси абсцисс.

С построением данных линий, думаю, проблем быть не должно, чего не скажешь о другой проблеме. Хорошо, если в вашей задаче всего лишь 20-30-50 вариант, но что делать, если их 100-200 и больше? В моей практике встречались десятки таких задач, и ручной подсчёт здесь уже не торт. Считаю нужным снять небольшое видео:

Как быстро составить ИВР при большом объёме выборки? (Ютуб)

Ну, теперь вы монстры 8-го уровня 🙂

Но не всё так сурово. В большинстве задач вам предложат готовый вариационный ряд, и на счёт молока, то, конечно, была шутка:

Выборочная проверка партии чая, поступившего в торговую сеть, дала следующие результаты:

Требуется построить гистограмму и полигон относительных частот, эмпирическую функцию распределения

Проверяем свои навыки работы в Экселе! (исходные числа и краткая инструкция прилагается) И на всякий случай краткое решение для сверки в конце урока.

Что ещё важного по теме? Время от времени встречаются ИВР с открытыми крайними интервалами, например:

В таких случаях, что убийственно логично, интервалы «закрывают». Обычно поступают так: сначала смотрим на средние интервалы и выясняем длину частичного интервала: км. И для дальнейшего решения можно считать, что крайние интервалы имеют такую же длину: от 140 до 160 и от 200 до 220 км. Тоже логично. Но уже не убийственно:)

Ну вот, пожалуй, и вся практически важная информация по ИВР.

На очереди числовые характеристики вариационных рядов и начнём мы с их центральных характеристик, а именно – Моды, медианы и средней.

До скорых встреч!

Решения и ответы:

Пример 7. Решение: заполним расчётную таблицу

Построим гистограмму и полигон относительных частот:

Построим эмпирическую функцию распределения:

Автор: Емелин Александр

(Переход на главную страницу)

«Всё сдал!» — онлайн-сервис помощи студентам

Источник

Правила построения дискретных и интервальных рядов распределения

Правила построения дискретных и интервальных рядов распределения

Что такое группировка статистических данных, и как она связана с рядами распределения, было рассмотрено в первой части этой лекции, там же можно узнать, о том что такое дискретный и вариационный ряд распределения.

Ряды распределения одна из разновидностей статистических рядов (кроме них в статистике используются ряды динамики), используются для анализа данных о явлениях общественной жизни. Построение вариационных рядов вполне посильная задача для каждого. Однако есть правила, которые необходимо помнить.

Как построить дискретный вариационный ряд распределения

Пример 1. Имеются данные о количестве детей в 20 обследованных семьях. Построить дискретный вариационный ряд распределения семей по числу детей .

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Решение:

  1. Начнем с макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по числу детей – значит наша варианта это число детей.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения семей – значит наша частота это число семей с соответствующим количеством детей.

В итоге макет нашей таблицы будет выглядеть так:

Варианта
Число детей в семье — (х)
Частота
Количество семей (f)
  1. Теперь из исходных данных выберем те значения, которые встречаются хотя бы один раз. В нашем случае это

И расставим эти данные в первой колонке нашей таблицы в логическом порядке, в данном случае возрастающем от 0 до 4. Получаем

Число детей в семье — (х) Количество семей (f)
0
1
2
3
4

И в заключение подсчитаем, сколько же раз встречается каждое значение варианты.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

В результате получаем законченную табличку или требуемый ряд распределения семей по количеству детей.

Число детей в семье — (х) Количество семей (f)
0
1
2
3
4
4
8
5
2
1
Итого 20

Задание. Имеются данные о тарифных разрядах 30 рабочих предприятия. Построить дискретный вариационный ряд распределения рабочих по тарифному разряду. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

Как построить интервальный вариационный ряд распределения

Построим интервальный ряд распределения, и посмотрим чем же его построение отличается от дискретного ряда.

Пример 2. Имеются данные о величине полученной прибыли 16 предприятий, млн. руб. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Построить интервальный вариационный ряд распределения предприятий по объему прибыли, выделив 3 группы с равными интервалами.

Общий принцип построения ряда, конечно же, сохраниться, те же две колонки, те же варианта и частота, но в здесь варианта будет располагаться в интервале и подсчет частот будет вестись иначе.

  1. Начнем аналогично предыдущей задачи с построения макета таблицы, в которую затем мы внесем данные. Так как ряды распределения имеют два элемента, то таблица состоять будет из двух колонок. Первая колонка это всегда варианта – то, что мы изучаем – ее название берем из задания (конец предложения с заданием в условиях) — по объему прибыли – значит, наша варианта это объем полученной прибыли.

Вторая колонка это частота – как часто встречается наша варианта в исследуемом явление – название колонки так же берем из задания — распределения предприятий – значит наша частота это число предприятий с соответствующей прибылью, в данном случае попадающие в интервал.

В итоге макет нашей таблицы будет выглядеть так:

  1. Построим интервалы. Следует сказать, что есть несколько способов построения интервала: визуальный способ без дополнительных расчетов на основе логического анализа данных, расчет по формуле, если по условию требуется построить равные интервалы. Для упрощения расчетов величины интервала чаще всего эта формула имеет следующий вид:ряды распределения формула

где i – величина или длинна интервала,

Хmax и Xmin – максимальное и минимальное значение признака,

n – требуемое число групп по условию задачи.

Рассчитаем величину интервала для нашего примера. Для этого среди исходных данных найдем самое большое и самое маленькое

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – максимальное значение 118 млн. руб., и минимальное 9 млн. руб. Проведем расчет по формуле.ряды распределения формула 2

В расчете получили число 36,(3) три в периоде, в таких ситуациях величину интервала нужно округлить до большего, чтобы после подсчетов не потерялось максимальное данное, именно поэтому в расчете величина интервала 36,4 млн. руб.

  1. Теперь построим интервалы – наши варианты в данной задаче. Первый интервал начинают строить от минимального значения к нему добавляется величина интервала и получается верхняя граница первого интервала. Затем верхняя граница первого интервала становится нижней границей второго интервала, к ней добавляется величина интервала и получается второй интервал. И так далее столько раз сколько требуется построить интервалов по условию.
Объем полученной прибыли, млн. руб. — (х) Число предприятий (f)
9,0 + 36,4 = 45,4
45,4 + 36,4 = 81,8
81,8 + 36,4 = 118,2

Обратим внимание если бы мы не округлили величину интервала до 36,4, а оставили бы ее 36,3, то последнее значение у нас бы получилось 117,9. Именно для того чтобы не было потери данных необходимо округлять величину интервала до большего значения.

  1. Проведем подсчет количества предприятий попавших в каждый конкретный интервал. При обработке данных необходимо помнить, что верхнее значение интервала в данном интервале не учитывается (не включается в этот интервал), а учитывается в следующем интервале (нижняя граница интервала включается в данный интервал, а верхняя не включается), за исключением последнего интервала.

При проведении обработки данных лучше всего отобранные данные обозначить условными значками или цветом, для упрощения обработки.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Первый интервал обозначим желтым цветом – и определим сколько данных попадает в интервал от 9 до 45,4, при этом данное 45,4 будет учитываться во втором интервале (при условии что оно есть в данных) – в итоге получаем 7 предприятий в первом интервале. И так дальше по всем интервалам.

Объем полученной прибыли, млн. руб. — (х) Число предприятий (f)
9,0 — 45,4
45,4 — 81,8
81,8 — 118,2
7
5
4
Итого 16
  1. (дополнительное действие) Проведем подсчет общего объема прибыли полученного предприятиями по каждому интервалу и в целом. Для этого сложим данные отмеченные разными цветами и получим суммарное значение прибыли.

По первому интервалу — 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 млн. руб.

По второму интервалу — 48 + 57 + 48 + 56 + 63 = 272 млн. руб.

По третьему интервалу — 118 + 87 + 98 + 88 = 391 млн. руб.

Объем полученной прибыли, млн. руб. — (х) Число предприятий (f) Общий объем прибыли, млн. руб.
9,0 — 45,4
45,4 — 81,8
81,8 — 118,2
7
5
4
154
272
391
Итого 16 817

Задание. Имеются данные о величине вклада в банке 30 вкладчиков, тыс. руб. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Построить интервальный вариационный ряд распределения вкладчиков, по размеру вклада выделив 4 группы с равными интервалами. По каждой группе подсчитать общий размер вкладов.

Источник

Данная таблица является примером интервального ряда

Как построить интервальный ряд

Когда ряд распределения уже дан, можно сразу приступать к его исследованию. Но в некоторых задачах в качестве исходных данных представлены просто числа (вес, сумма, количество – любые значения параметра или признака). В таком случае для того, чтобы начать анализ, сначала нужно построить интервальный ряд. Статьи по теме:

  • — значения параметра.

Инструкция
1 Если значения параметра изменяются с течением времени, используйте в качестве интервалов временные промежутки, например, час, день, месяц, год. При выборе минимального промежутка учитывайте количество и разброс данных, старайтесь, чтобы ряд распределения оказался максимально информативным и в то же время компактным. Например, если вам даны данные по месяцам в течение двух лет, разбивка на годы ни о чем не сможет сказать, а использование в качестве интервала месяц в некоторых случаях приведет к размыванию данных. Оптимальным решением при этом станет разбивка по кварталам.
2 Если время для составления выборки не имеет значения, сформируйте интервальные промежутки в зависимости от значений. Для этого оцените разброс данных, их максимальное и минимальное значение и выберите величину интервала. Можно использовать такой метод: вычтите из максимального значения минимальное и полученную разность разделите на желаемое количество интервалов. Затем установите границы, конечно, лучше, если это будут целые числа. Например, вам даны числа 32, 33, 35, 38, 45, 47, 48, 50, 58, 59, 63. После расчетов вы получите (63-32)/5=6,2. Округлите размер интервала до 7. Таким образом, вы получите интервалы: (32-39), (40-47), (48-55), (56-63).
3 Обратите внимание, лучше всего делать границы интервалов не пересекающимися, то есть следующий интервал начинайте не с того же числа, а с большего на единицу. Благодаря этому вы сможете избежать разногласий и недоразумений.
4 После того как вы распределите все интервалы, посчитайте количество значений в каждом из них. Запишите полученные результаты в таблицу, где в одной строке будут указаны границы, в другой – количество значений, лежащих в границах этого интервала. В рассмотренном выше примере расчет количества результатов будет выглядеть так: в интервал (32-39) входят значения 32, 33, 35, 38 – всего 4 значения. Значит, в первой ячейке таблицы под этим интервалом укажите число 4. Точно так же рассчитайте значения для следующих интервалов: (40-47) – 2, (48-55) – 2, (56-63) – 3. Статьи по теме:

Источник

Интервальный вариационный ряд и его характеристики

п.1. Построение интервального вариационного ряда по данным эксперимента

Интервалы, \(\left.\left[a_,a_i\right.\right)\) \(\left.\left[a_<0>,a_1\right.\right)\) \(\left.\left[a_<1>,a_2\right.\right)\) . \(\left.\left[a_,a_k\right.\right)\)
Частоты, \(f_i\) \(f_1\) \(f_2\) . \(f_k\)

Здесь k — число интервалов, на которые разбивается ряд.

Скобка \(\lfloor\ \rfloor\) означает целую часть (округление вниз до целого числа).

Скобка \(\lceil\ \rceil\) означает округление вверх, в данном случае не обязательно до целого числа.

Алгоритм построения интервального ряда
На входе: все значения признака \(\left\,\ j=\overline<1,N>\)
Шаг 1. Найти размах вариации \(R=x_-x_\)
Шаг 2. Найти оптимальное количество интервалов \(k=1+\lfloor\log_2 N\rfloor\)
Шаг 3. Найти шаг интервального ряда \(h=\left\lceil\frac\right\rceil\)
Шаг 4. Найти узлы ряда: $$ a_0=x_,\ \ a_i=1_0+ih,\ \ i=\overline <1,k>$$ Шаг 5. Найти частоты \(f_i\) – число попаданий значений признака в каждый из интервалов \(\left.\left[a_,a_i\right.\right)\).
На выходе: интервальный ряд с интервалами \(\left.\left[a_,a_i\right.\right)\) и частотами \(f_i,\ i=\overline<1,k>\)

Заметим, что поскольку шаг h находится с округлением вверх, последний узел \(a_k\geq x_\).

Например:
Проведено 100 измерений роста учеников старших классов.
Минимальный рост составляет 142 см, максимальный – 197 см.
Найдем узлы для построения соответствующего интервального ряда.
По условию: \(N=100,\ x_=142\ см,\ x_=197\ см\).
Размах вариации: \(R=197-142=55\) (см)
Оптимальное число интервалов: \(k=1+\lfloor 3,322\cdot\lg ⁡100\rfloor=1+\lfloor 6,644\rfloor=1+6=7\)
Шаг интервального ряда: \(h=\lceil\frac<55><5>\rceil=\lceil 7,85\rceil=8\) (см)
Получаем узлы ряда: $$ a_0=x_=142,\ a_i=142+i\cdot 8,\ i=\overline <1,7>$$

\(\left.\left[a_,a_i\right.\right)\) cм \(\left.\left[142;150\right.\right)\) \(\left.\left[150;158\right.\right)\) \(\left.\left[158;166\right.\right)\) \(\left.\left[166;174\right.\right)\) \(\left.\left[174;182\right.\right)\) \(\left.\left[182;190\right.\right)\) \(\left[190;198\right]\)

п.2. Гистограмма и полигон относительных частот, кумулята и эмпирическая функция распределения

Например:
Продолжим анализ распределения учеников по росту.
Выше мы уже нашли узлы интервалов. Пусть, после распределения всех 100 измерений по этим интервалам, мы получили следующий интервальный ряд:

i 1 2 3 4 5 6 7
\(\left.\left[a_,a_i\right.\right)\) cм \(\left.\left[142;150\right.\right)\) \(\left.\left[150;158\right.\right)\) \(\left.\left[158;166\right.\right)\) \(\left.\left[166;174\right.\right)\) \(\left.\left[174;182\right.\right)\) \(\left.\left[182;190\right.\right)\) \(\left[190;198\right]\)
\(f_i\) 4 7 11 34 33 8 3

Найдем середины интервалов, относительные частоты и накопленные относительные частоты:

\(x_i\) 146 154 162 170 178 186 194
\(w_i\) 0,04 0,07 0,11 0,34 0,33 0,08 0,03
\(S_i\) 0,04 0,11 0,22 0,56 0,89 0,97 1

Построим гистограмму и полигон:
Гистограмма
Полигон
Построим кумуляту и эмпирическую функцию распределения:
Кумулята
Эмпирическая функция распределения
Эмпирическая функция распределения (относительно середин интервалов): $$ F(x)= \begin 0,\ x\leq 146\\ 0,04,\ 146\lt x\leq 154\\ 0,11,\ 154\lt x\leq 162\\ 0,22,\ 162\lt x\leq 170\\ 0,56,\ 170\lt x\leq 178\\ 0,89,\ 178\lt x\leq 186\\ 0,97,\ 186\lt x\leq 194\\ 1,\ x\gt 194 \end $$

п.3. Выборочная средняя, мода и медиана. Симметрия ряда

Расположение выборочной средней, моды и медианы в зависимости от симметрии ряда аналогично их расположению в дискретном ряду (см. §65 данного справочника).

Например:
Для распределения учеников по росту получаем:

\(x_i\) 146 154 162 170 178 186 194
\(w_i\) 0,04 0,07 0,11 0,34 0,33 0,08 0,03 1
\(x_iw_i\) 5,84 10,78 17,82 57,80 58,74 14,88 5,82 171,68

$$ X_=\sum_^k x_iw_i=171,68\approx 171,7\ \text <(см)>$$ На гистограмме (или полигоне) относительных частот максимальная частота приходится на 4й интервал [166;174). Это модальный интервал.
Данные для расчета моды: \begin x_o=166,\ f_m=34,\ f_=11,\ f_=33,\ h=8\\ M_o=x_o+\frac><(f_m-f_)+(f_m+f_)>h=\\ =166+\frac<34-11><(34-11)+(34-33)>\cdot 8\approx 173,7\ \text <(см)>\end На кумуляте значение 0,5 пересекается на 4м интервале. Это – медианный интервал.
Данные для расчета медианы: \begin x_o=166,\ w_m=0,34,\ S_=0,22,\ h=8\\ \\ M_e=x_o+\frac<0,5-S_>h=166+\frac<0,5-0,22><0,34>\cdot 8\approx 172,6\ \text <(см)>\end \begin \\ X_=171,7;\ M_o=173,7;\ M_e=172,6\\ X_\lt M_e\lt M_o \end Ряд асимметричный с левосторонней асимметрией.
При этом \(\frac<|M_o-X_|><|M_e-X_|>=\frac<2,0><0,9>\approx 2,2\lt 3\), т.е. распределение умеренно асимметрично.

п.4. Выборочная дисперсия и СКО

Например:
Для распределения учеников по росту получаем:

$x_i$ 146 154 162 170 178 186 194
\(w_i\) 0,04 0,07 0,11 0,34 0,33 0,08 0,03 1
\(x_iw_i\) 5,84 10,78 17,82 57,80 58,74 14,88 5,82 171,68
\(x_i^2w_i\) — результат 852,64 1660,12 2886,84 9826 10455,72 2767,68 1129,08 29578,08

$$ D=\sum_^k x_i^2 w_i-X_^2=29578,08-171,7^2\approx 104,1 $$ $$ \sigma=\sqrt\approx 10,2 $$

п.5. Исправленная выборочная дисперсия, стандартное отклонение выборки и коэффициент вариации

Подробней о том, почему и когда нужно «исправлять» дисперсию, и для чего использовать коэффициент вариации – см. §65 данного справочника.

Например:
Для распределения учеников по росту получаем: \begin S^2=\frac<100><99>\cdot 104,1\approx 105,1\\ s\approx 10,3 \end Коэффициент вариации: $$ V=\frac<10,3><171,7>\cdot 100\text<%>\approx 6,0\text<%>\lt 33\text <%>$$ Выборка однородна. Найденное значение среднего роста \(X_\)=171,7 см можно распространить на всю генеральную совокупность (старшеклассников из других школ).

п.6. Алгоритм исследования интервального вариационного ряда

На входе: все значения признака \(\left\,\ j=\overline<1,N>\)
Шаг 1. Построить интервальный ряд с интервалами \(\left.\right[a_,\ a_i\left.\right)\) и частотами \(f_i,\ i=\overline<1,k>\) (см. алгоритм выше).
Шаг 2. Составить расчетную таблицу. Найти \(x_i,w_i,S_i,x_iw_i,x_i^2w_i\)
Шаг 3. Построить гистограмму (и/или полигон) относительных частот, эмпирическую функцию распределения (и/или кумуляту). Записать эмпирическую функцию распределения.
Шаг 4. Найти выборочную среднюю, моду и медиану. Проанализировать симметрию распределения.
Шаг 5. Найти выборочную дисперсию и СКО.
Шаг 6. Найти исправленную выборочную дисперсию, стандартное отклонение и коэффициент вариации. Сделать вывод об однородности выборки.

п.7. Примеры

Пример 1. При изучении возраста пользователей коворкинга выбрали 30 человек.
Получили следующий набор данных:
18,38,28,29,26,38,34,22,28,30,22,23,35,33,27,24,30,32,28,25,29,26,31,24,29,27,32,24,29,29
Постройте интервальный ряд и исследуйте его.

1) Построим интервальный ряд. В наборе данных: $$ x_=18,\ \ x_=38,\ \ N=30 $$ Размах вариации: \(R=38-18=20\)
Оптимальное число интервалов: \(k=1+\lfloor\log_2⁡ 30\rfloor=1+4=5\)
Шаг интервального ряда: \(h=\lceil\frac<20><5>\rceil=4\)
Получаем узлы ряда: $$ a_0=x_=18,\ \ a_i=18+i\cdot 4,\ \ i=\overline <1,5>$$

\(\left.\left[a_,a_i\right.\right)\) лет \(\left.\left[18;22\right.\right)\) \(\left.\left[22;26\right.\right)\) \(\left.\left[26;30\right.\right)\) \(\left.\left[30;34\right.\right)\) \(\left.\left[34;38\right.\right)\)

Считаем частоты для каждого интервала. Получаем интервальный ряд:

\(\left.\left[a_,a_i\right.\right)\) лет \(\left.\left[18;22\right.\right)\) \(\left.\left[22;26\right.\right)\) \(\left.\left[26;30\right.\right)\) \(\left.\left[30;34\right.\right)\) \(\left.\left[34;38\right.\right)\)
\(f_i\) 1 7 12 6 4

2) Составляем расчетную таблицу:

\(x_i\) 20 24 28 32 36
\(f_i\) 1 7 12 6 4 30
\(w_i\) 0,033 0,233 0,4 0,2 0,133 1
\(S_i\) 0,033 0,267 0,667 0,867 1
\(x_iw_i\) 0,667 5,6 11,2 6,4 4,8 28,67
\(x_i^2w_i\) 13,333 134,4 313,6 204,8 172,8 838,93

3) Строим полигон и кумуляту
Пример 1
Пример 1
Эмпирическая функция распределения: $$ F(x)= \begin 0,\ x\leq 20\\ 0,033,\ 20\lt x\leq 24\\ 0,267,\ 24\lt x\leq 28\\ 0,667,\ 28\lt x\leq 32\\ 0,867,\ 32\lt x\leq 36\\ 1,\ x\gt 36 \end $$ 4) Находим выборочную среднюю, моду и медиану $$ X_=\sum_^k x_iw_i\approx 28,7\ \text <(лет)>$$ На полигоне модальным является 3й интервал (самая высокая точка).
Данные для расчета моды: \begin x_0=26,\ f_m=12,\ f_=7,\ f_=6,\ h=4\\ M_o=x_o+\frac><(f_m-f_)+(f_m+f_)>h=\\ =26+\frac<12-7><(12-7)+(12-6)>\cdot 4\approx 27,8\ \text <(лет)>\end
На кумуляте медианным является 3й интервал (преодолевает уровень 0,5).
Данные для расчета медианы: \begin x_0=26,\ w_m=0,4,\ S_=0,267,\ h=4\\ M_e=x_o+\frac<0,5-S_>>h=26+\frac<0,5-0,4><0,267>\cdot 4\approx 28,3\ \text <(лет)>\end Получаем: \begin X_=28,7;\ M_o=27,8;\ M_e=28,6\\ X_\gt M_e\gt M_0 \end Ряд асимметричный с правосторонней асимметрией.
При этом \(\frac<|M_o-X_|><|M_e-X_|> =\frac<0,9><0,1>=9\gt 3\), т.е. распределение сильно асимметрично.

5) Находим выборочную дисперсию и СКО: \begin D=\sum_^k x_i^2w_i-X_^2=838,93-28,7^2\approx 17,2\\ \sigma=\sqrt\approx 4,1 \end
6) Исправленная выборочная дисперсия: $$ S^2=\fracD=\frac<30><29>\cdot 17,2\approx 17,7 $$ Стандартное отклонение \(s=\sqrt\approx 4,2\)
Коэффициент вариации: \(V=\frac<4,2><28,7>\cdot 100\text<%>\approx 14,7\text<%>\lt 33\text<%>\)
Выборка однородна. Найденное значение среднего возраста \(X_=28,7\) лет можно распространить на всю генеральную совокупность (пользователей коворкинга).

Источник