Диетические... Волосы Аксессуары

Структурные характеристики вариационного ряда распределения. Вычисление медианы группы чисел Что такое медиана ряда

называется вариант, расположенный в центре ранжированного ряда.

Медиана делит ряд на две равные части таким образом, что по обе стороны от нее находится одинаковое количество единиц совокупности. При этом у одной половины единиц совокупности значение варьирующего признака не больше медианы, у другой - не меньше. .

Для дискретного ряда,

медиану находим по следующему алгоритму:

Ранжируем ряд,

Если выборка содержит нечетное количество элементов, медиана равна (n+1)/2 -му элементу,

Если выборка содержит четное количество элементов, медиана лежит между двумя средними элементами выборки и равна среднему арифметическому, вычисленному по этим двум элементам.

Пример 1 . Найти медиану дискретного ряда

16,13,15,10,19,22,25,12,18,14,19,14,16,10.

Решение. Ранжируем ряд: 10,10,12,13,14,14,15,16,16,18,19,19,22,25, выборка содержит четное число элементов n=14, следовательно медиана лежит между двумя средними элементами выборки - между 7-элементом и 8-элементом:

10,10,12,13,14,14,15,16, 16,18,19,19,22,25

и равна среднему арифметическому этих элементов:

Me=(15+16)/2=15,5

Найти медиану дискретного ряда, можно онлайн, с помощью данного калькулятора. Калькулятор автоматически ранжирует ряд и вычисляет медиану.

При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:

Пример 2. Найти медиану интервального ряда:


Решение :

Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части

(Σf i /2 = 3462/2 = 1731).


Это значит что одна половина студентов имеет возраст до 27,4 года, а другая свыше 27,4 года.

ОСОБЕННОСТИ

  • Медиана обладает высокой робастностью , то есть нечувствительностью к неоднородностям и ошибкам выборки.
  • Сумма разностей между членами ряда выборки и медианой меньше, чем сумма этих разностей с любой другой величиной. В том числе с арифметическим средним.

Допустим, вам нужно узнать, какая средняя середина находится в распространении оценок учащихся или образец данных контроля качества. Чтобы вычислить медиану группы чисел, используйте функцию МЕДИАна.

Функция МЕДИАНА измеряет центральную тенденцию, которая является центром множества чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции:

    Среднее значение - это среднее арифметическое, которое вычисляется путем сложения набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5, которое является результатом деления их суммы, равной 30, на их количество, равное 6.

    Медиана - это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

    Мода - это число, наиболее часто встречающееся в данном наборе чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Снимки экрана в этой статье получены в Excel 2016. Если вы используете другую версию, интерфейс может немного отличаться, но функции будут такими же.

Пример

Чтобы этот пример проще было понять, скопируйте его на пустой лист.

Совет: Чтобы переключиться между просмотром результатов и просмотром формул, возвращающих эти результаты, нажмите клавиши CTRL+` (знак ударения) или на вкладке Формулы в группе Зависимости формул нажмите кнопку Показывать формулы .

Зарплат в различных отраслях экономики, температуру и уровень осадков на одной и той же территории за сопоставимые периоды времени, урожайность выращиваемых культур в разных географических регионах и т. д. Впрочем, средняя является отнюдь не единственным обобщающим показателем - в ряде случае для более точной оценки подходит такая величина как медиана. В статистике она широко применяется в качестве вспомогательной описательной характеристики распределения какого-либо признака в отдельно взятой совокупности. Давайте разберемся, чем она отличается от средней, а также чем вызвана необходимость ее использования.

Медиана в статистике: определение и свойства

Представьте себе следующую ситуацию: на фирме вместе с директором работают 10 человек. Простые работники получают по 1000 грн., а их руководитель, который, к тому же, является собственником, - 10000 грн. Если вычислить среднее арифметическое, то получится, что в среднем зарплата на данном предприятии равна 1900 грн. Будет ли справедливым данное утверждение? Или возьмем такой пример, в одной и той же больничной палате находится девять человек с температурой 36,6 °С, и один человек, у которого она равна 41 °С. Арифметическое среднее в этом случае равно: (36,6*9+41)/10 = 37,04 °С. Но это вовсе не означает, что каждый из присутствующих болен. Все это наталкивает на мысль, что одной средней часто бывает недостаточно, и именно поэтому в дополнение к ней используется медиана. В статистике этим показателем называют вариант, который расположен ровно посередине упорядоченного вариационного ряда. Если посчитать ее для наших примеров, то получится соответственно 1000 грн. и 36,6 °С. Другими словами, медианой в статистике называется значение, которое делит ряд пополам таким образом, что по обе стороны от нее (вниз или вверх) расположено одинаковое число единиц данной совокупности. Из-за этого свойства данный показатель имеет еще несколько названий: 50-й перцентиль или квантиль 0,5.

Как найти медиану в статистике

Способ расчета данной величины во многом зависит от того, какой тип вариационного ряда мы имеем: дискретный или интервальный. В первом случае, медиана в статистике находится довольно просто. Все, что нужно сделать, это найти сумму частот, разделить ее на 2 и затем прибавить к результату ½. Лучше всего будет пояснить принцип расчета на следующем примере. Предположим, у нас есть сгруппированные данные по рождаемости, и требуется выяснить, чему равна медиана.

Номер группы семей по кол-ву детей

Кол-во семей

Проведя нехитрые подсчеты, получим, что искомый показатель равен: 195/2 + ½ = варианта. Для того чтобы выяснить, что это означает, следует последовательно накапливать частоты, начиная с наименьшей варианты. Итак, сумма первых двух строк дает нам 30. Ясно, что здесь 98 варианты нет. Но если прибавить к результату частоту третьей варианты (70), то получится сумма, равная 100. В ней как раз и находится 98-я варианта, а значит медианой будет семья, у которой есть двое детей.

Что же касается интервального ряда, то здесь обычно используют следующую формулу:

М е = Х Ме + i Ме * (∑f/2 - S Me-1)/f Ме, в которой:

  • Х Ме - первое значение медианного интервала;
  • ∑f - численность ряда (сумма его частот);
  • i Ме - величина медианного диапазона;
  • f Ме - частота медианного диапазона;
  • S Ме-1 - сумма кумулятивных частот в диапазонах, предшествующих медианному.

Опять же, без примера здесь разобраться довольно сложно. Предположим, есть данные по величине

Зарплата, тыс. руб.

Накопленные частоты

Чтобы воспользоваться вышеприведенной формулой, вначале нам нужно определить медианный интервал. В качестве такого диапазона выбирают тот, накопленная частота которого превышает половину всей суммы частот или равна ей. Итак, разделив 510 на 2, получаем, что этому критерию соответствует интервал со значением зарплаты от 250000 руб. до 300000 руб. Теперь можно подставлять все данные в формулу:

М е = Х Ме + i Ме * (∑f/2 - S Ме-1)/f Ме = 250 + 50 * (510/2 - 170) / 115 = 286,96 тыс. руб.

Надеемся, наша статья оказалась полезной, и теперь вы имеете ясное представление о том, что такое медиана в статистике и как ее следует рассчитывать.

Медиана - это такое значение признака, которое разделяет ранжированный ряд распределения на две равные части - со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы, нужно отыскать значение признака, которое находится на середине упорядоченного ряда.

Посмотреть решение задачи на нахождение моды и медианы Вы можете

В ранжированных рядах несгруппированные данные для нахождения медианы сводятся к поиску порядкового номера медианы. Медиана может быть вычислена по следующей формуле:

где Хm - нижняя граница медианного интервала;
im - медианный интервал;
Sme- сумма наблюдений, которая была накоплена до начала медианного интервала;
fme - число наблюдений в медианном интервале.

Свойства медианы

  1. Медиана не зависит от тех значений признака, которые расположены по обе стороны от нее.
  2. Аналитические операции с медианой весьма ограничены, поэтому при объединении двух распределений с известными медианами невозможно заранее предсказать величину медианы нового распределения.
  3. Медиана обладает свойством минимальности. Его суть заключается в том, что сумма абсолютных отклонений значений х, от медианы представляет собой минимальную величину по сравнению с отклонением X от любой другой величины

Графическое определение медианы

Для определения медианы графическим методом используют накопленные частоты, по которым строится кумулятивная кривая. Вершины ординат, соответствующих накопленным частотам, соединяют отрезками прямой. Разделив поп олам последнюю ординату, которая соответствует общей сумме частот и проведя к ней перпендикуляр пересечения с кумулятивной кривой, находят ординату искомого значения медианы.

Определение моды в статистике

Мода - значение признака , имеющее наибольшую частоту в статистическом ряду распределения.

Определение моды производится разными способами, и это зависит от того, представлен ли варьирующий признак в виде дискретного или интервального ряда.

Нахождение моды и медианы происходит путем обычного просматривания столбца частот. В этом столбце находят наибольшее число, характеризующее наибольшую частоту. Ей соответствует определенное значение признака, которое и является модой. В интервальном вариационном ряду модой приблизительно считают центральный вариант интервала с наибольшей частотой. В таком ряду распределения мода вычисляется по формуле :

где ХМо - нижняя граница модального интервала;
imo - модальный интервал;
fм0, fм0-1, fм0+1 — частоты в модальном, предыдущем и следующем за модальным интервалах.

Модальный интервал определяется по наибольшей частоте.

Мода широко используется в статистической практике при анализе покупательного спроса, регистрации цен и т. д.

Соотношения между средней арифметической, медианой и модой

Для одномодального симметричного ряда распределения , медиана и мода совпадают. Для асимметричных распределений они не совпадают.

К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:

4. Мода. Медиана. Генеральная и выборочная средняя

Мода на экране, медиана в треугольнике, а средние – это температура по больнице и в палате. Продолжаем наш практический курс занимательной статистики (Занятие 1) изучением центральных характеристик статистической совокупности , названия которых вы видите в заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла практически с первых же абзацев темы. Для подготовленных читателей оглавление :

  • Генеральная и выборочная средняя – вычисление по первичным данным и для сформированного дискретного вариационного ряда;
  • Мода – определение и нахождение для дискретного случая;
  • Медиана – общее определение, как найти медиану;
  • Средняя, мода и медиана интервального вариационного ряда – вычисление по первичным данным и по готовому ряду. Формулы моды и медианы,
  • Квартили, децили, перцентили – коротко о главном.

ну а «чайникам» лучше ознакомиться с материалом по порядку:

Итак, пусть исследуется некоторая генеральная совокупность объёма , а именно её числовая характеристика , не важно, дискретная или непрерывная (Занятия 2, 3 ).

Генеральной средней называется среднее арифметическое всех значений этой совокупности:

Если среди чисел есть одинаковые (что характерно для дискретного ряда ) , то формулу можно записать в более компактном виде:
, где
варианта повторяется раз;
варианта – раз;
варианта – раз;

варианта – раз.

Живой пример вычисления генеральной средней встретился в Примере 2 , но чтобы не занудничать, я даже не буду напоминать его содержание.

Далее. Как мы помним, обработка всей генеральной совокупности часто затруднена либо невозможна, и поэтому из неё организуют представительную выборку объема , и на основании исследования этой выборки делают вывод обо всей совокупности.

Выборочной средней называется среднее арифметическое всех значений выборки:

и при наличии одинаковых вариант формула запишется компактнее:
– как сумма произведений вариант на соответствующие частоты .

Выборочная средняя позволяет достаточно точно оценить истинное значение , чего вполне достаточно для многих исследований. При этом, чем больше выборка, тем точнее будет эта оценка.

Практику начнём, а точнее продолжим, с дискретного вариационного ряда и знакомого условия:

Пример 8

По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

Как решать задачу? Если нам даны первичные данные (исходные необработанные значения), то их можно тупо просуммировать и разделить результат на объём выборки:
– среднестатистический квалификационный разряд рабочих цеха.

Но во многих задачах требуется составить вариационный ряд (см. Пример 4 ) :

– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы, конечно, используем «цивилизованную» формулу:

Мода . Мода дискретного вариационного ряда – это варианта с максимальной частотой. В данном случае . Моду легко отыскать по таблице, и ещё легче на полигоне частот – это абсцисса самой высокой точки:


Иногда таковых значений несколько (с одинаковой максимальной частотой), и тогда модой считают каждое из них.

Если все или почти все варианты различны (что характерно для интервального ряда ), то модальное значение определяется несколько другим способом, о котором во 2-й части урока.

Медиана . Медиана вариационного ряда* – это значение, которая делит его на две равные части (по количеству вариант).

Но теперь нам нужно найти среднюю, моду и медиану.

Решение : чтобы найти среднюю по первичным данным, лучше всего просуммировать все варианты и разделить полученный результат на объём совокупности:
ден. ед.

Эти подсчёты, кстати, займут не так много времени и при использовании оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ) , ставим знак деления / , вводим число 30 и жмём Enter . Готово.

Что касается моды, то её оценка по исходным данным, становится непригодна. Хоть мы и видим среди чисел одинаковые, но среди них запросто может найтись пять так шесть-семь вариант с одинаковой максимальной частотой, например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому модальное значение рассчитывается по сформированному интервальному ряду (о чём чуть позже) .

Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter : . Причём, здесь даже ничего не нужно сортировать.

Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и сортируем – ссылка выше) , и это хорошая возможность повторить формальный алгоритм отыскания медианы. Делим объём выборки пополам:

И поскольку она состоит из чётного количества вариант, то медиана равна среднему арифметическому 15-й и 16-й варианты упорядоченного (!) вариационного ряда:

ден. ед.

Ситуация вторая . Когда дан готовый интервальный ряд (типичная учебная задача).

Продолжаем анализировать тот же пример с ботинками, где по исходным данным был составлен ИВР . Для вычисления средней потребуются середины интервалов:

– чтобы воспользоваться знакомой формулой дискретного случая:

– отличный результат! Расхождение с более точным значением (), вычисленным по первичным данным, составляет всего 0,04.

По сути дела, здесь мы приблизили интервальный ряд дискретным, и это приближение оказалось весьма эффективным. Впрочем, особой выгоды тут нет, т.к. при современном программном обеспечении не составляет труда вычислить точное значение даже по очень большому массиву первичных данных. Но это при условии, что они нам известны:)

С другими центральными показателями всё занятнее.

Чтобы найти моду, нужно найти модальный интервал (с максимальной частотой) – в данной задаче это интервал с частотой 11, и воспользоваться следующей страшненькой формулой:
, где:

– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.

Таким образом:
ден. ед. – как видите, «модная» цена на ботинки заметно отличается от средней арифметической .

Не вдаваясь в геометрию формулы, просто приведу гистограмму относительных частот и отмечу :


откуда хорошо видно, что мода смещена относительно центра модального интервала в сторону левого интервала с бОльшей частотой. Логично.

Справочно разберу редкие случаи:

– если модальный интервал крайний, то либо ;

– если обнаружатся 2 модальных интервала, которые находятся рядом, например, и , то рассматриваем модальный интервал , при этом близлежащие интервалы (слева и справа) по возможности тоже укрупняем в 2 раза.

– если между модальными интервалами есть расстояние, то применяем формулу к каждому интервалу, получая тем самым 2 или бОльшее количество мод.

Вот такой вот депеш мод:)

И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:)) найти медианный интервал – это интервал, содержащий варианту (либо 2 варианты), которая делит вариационный ряд на две равные части.

Выше я рассказал, как определить медиану, ориентируясь на относительные накопленные частоты , здесь же сподручнее рассчитать «обычные» накопленные частоты . Вычислительный алгоритм точно такой же – первое значение сносим слева (красная стрелка) , и каждое следующее получается как сумма предыдущего с текущей частотой из левого столбца (зелёные обозначения в качестве примера) :

Всем понятен смысл чисел в правом столбце? – это количество вариант, которые успели «накопиться» на всех «пройденных» интервалах, включая текущий.

Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по накопленным частотам, легко прийти к выводу, что эти варианты содержатся в интервале .

Формула медианы:
, где:
– объём статистической совокупности;
– нижняя граница медианного интервала;
– длина медианного интервала;
частота медианного интервала;
накопленная частота предыдущего интервала.

Таким образом:
ден. ед. – заметим, что медианное значение, наоборот, оказалось смещено правее, т.к. по правую руку находится значительное количество вариант:


И справочно особые случаи.