Вычисление медианы. Особенности использования функции медиана в excel

Предположим, что нужно определить средний уровень в распределении оценок учащихся или в выборке данных проверки качества. Для этого потребуется вычислить медиану набора чисел с помощью функции МЕДИАНА.

Эта функция - один из способов измерения центральной тенденции, то есть расположения центра набора чисел в статистическом распределении. Существует три наиболее распространенных способа определения центральной тенденции.

    Среднее значение - это значение, которое является средним арифметическим, т. е. вычисляется сложением набора чисел с последующим делением полученной суммы на их количество. Например, средним значением для чисел 2, 3, 3, 5, 7 и 10 будет 5 (результат деления суммы этих чисел, равной 30, на их количество, равное 6).

    Медиана - число, которое является серединой множества чисел: половина чисел имеют значения большие, чем медиана, а половина чисел - меньшие. Например, медианой для чисел 2, 3, 3, 5, 7 и 10 будет 4.

    Мода - число, наиболее часто встречающееся в данном множестве чисел. Например, модой для чисел 2, 3, 3, 5, 7 и 10 будет 3.

При симметричном распределении множества чисел все три значения центральной тенденции будут совпадать. При смещенном распределении множества чисел значения могут быть разными.

Снимки экрана в этой статье получены в Excel 2016. Если вы используете другую версию, интерфейс может немного отличаться, но функции будут такими же.

Пример

Чтобы этот пример проще было понять, скопируйте его на пустой лист.

Совет: Чтобы переключиться между просмотром результатов и просмотром формул, возвращающих эти результаты, нажмите клавиши CTRL+` (апостроф) или на вкладке Формулы в группе Зависимости формул нажмите кнопку Показать формулы .

Мода и медиана – особого рода средние, которые используются для изучения структуры вариационного ряда. Их иногда называют структурными средними, в отличие от рассмотренных ранее степенных средних.

Мода – это величина признака (варианта), которая чаще всего встречается в данной совокупности, т.е. имеет наибольшую частоту.

Мода имеет большое практическое применение и в ряде случаев только мода может дать характеристику общественных явлений.

Медиана – это варианта, которая находится в середине упорядоченного вариационного ряда.

Медиана показывает количественную границу значения варьирующего признака, которой достигла половина единиц совокупности. Применение медианы наряду со средней или вместо нее целесообразно при наличии в вариационном ряду открытых интервалов, т.к. для вычисления медианы не требуется условное установление границ отрытых интервалов, и поэтому отсутствие сведений о них не влияет на точность вычисления медианы.

Медиану применяют также тогда, когда показатели, которые нужно использовать в качестве весов, неизвестны. Медиану применяют вместо средней арифметической при статистических методах контроля качества продукции. Сумма абсолютных отклонений варианты от медианы меньше, чем от любого другого числа.

Рассмотрим расчет моды и медианы в дискретном вариационном ряду:

Определить моду и медиану.

Мода Мо = 4 года, так как этому значению соответствует наибольшая частота f = 5.

Т.е. наибольшее число рабочих имеют стаж 4 года.

Для того, чтобы вычислить медиану, найдем предварительно половину суммы частот. Если сумма частот является числом нечетным, то мы сначала прибавляем к этой сумме единицу, а затем делим пополам:

Медианой будет восьмая по счету варианта.

Для того, чтобы найти, какая варианта будет восьмой по номеру, будем накапливать частоты до тех пор, пока не получим сумму частот, равную или превышающую половину суммы всех частот. Соответствующая варианта и будет медианой.

Ме = 4 года.

Т.е. половина рабочих имеет стаж меньше четырех лет, половина больше.

Если сумма накопленных частот против одной варианты равна половине сумме частот, то медиана определяется как средняя арифметическая этой варианты и последующей.

Вычисление моды и медианы в интервальном вариационном ряду

Мода в интервальном вариационном ряду вычисляется по формуле

где Х М0 - начальная граница модального интервала,

h м 0 – величина модального интервала,

f м 0 , f м 0-1 , f м 0+1 – частота соответственно модального интервала, предшествующего модальному и последующего.

Модальным называется такой интервал, которому соответствует наибольшая частота.

Пример 1

Группы по стажу

Число рабочих, чел

Накопленные частоты

Определить моду и медиану.

Модальный интервал , т.к. ему соответствует наибольшая частота f = 35. Тогда:

Хм 0 =6, 0 =35

4. Мода. Медиана. Генеральная и выборочная средняя

Мода на экране, медиана в треугольнике, а средние – это температура по больнице и в палате. Продолжаем наш практический курс занимательной статистики (Занятие 1) изучением центральных характеристик статистической совокупности , названия которых вы видите в заголовке. И начнём мы с его конца, поскольку о средних величинах речь зашла практически с первых же абзацев темы. Для подготовленных читателей оглавление :

  • Генеральная и выборочная средняя – вычисление по первичным данным и для сформированного дискретного вариационного ряда;
  • Мода – определение и нахождение для дискретного случая;
  • Медиана – общее определение, как найти медиану;
  • Средняя, мода и медиана интервального вариационного ряда – вычисление по первичным данным и по готовому ряду. Формулы моды и медианы,
  • Квартили, децили, перцентили – коротко о главном.

ну а «чайникам» лучше ознакомиться с материалом по порядку:

Итак, пусть исследуется некоторая генеральная совокупность объёма , а именно её числовая характеристика , не важно, дискретная или непрерывная (Занятия 2, 3 ).

Генеральной средней называется среднее арифметическое всех значений этой совокупности:

Если среди чисел есть одинаковые (что характерно для дискретного ряда ) , то формулу можно записать в более компактном виде:
, где
варианта повторяется раз;
варианта – раз;
варианта – раз;

варианта – раз.

Живой пример вычисления генеральной средней встретился в Примере 2 , но чтобы не занудничать, я даже не буду напоминать его содержание.

Далее. Как мы помним, обработка всей генеральной совокупности часто затруднена либо невозможна, и поэтому из неё организуют представительную выборку объема , и на основании исследования этой выборки делают вывод обо всей совокупности.

Выборочной средней называется среднее арифметическое всех значений выборки:

и при наличии одинаковых вариант формула запишется компактнее:
– как сумма произведений вариант на соответствующие частоты .

Выборочная средняя позволяет достаточно точно оценить истинное значение , чего вполне достаточно для многих исследований. При этом, чем больше выборка, тем точнее будет эта оценка.

Практику начнём, а точнее продолжим, с дискретного вариационного ряда и знакомого условия:

Пример 8

По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

Как решать задачу? Если нам даны первичные данные (исходные необработанные значения), то их можно тупо просуммировать и разделить результат на объём выборки:
– среднестатистический квалификационный разряд рабочих цеха.

Но во многих задачах требуется составить вариационный ряд (см. Пример 4 ) :

– или же этот ряд предложен изначально (что бывает чаще). И тогда, мы, конечно, используем «цивилизованную» формулу:

Мода . Мода дискретного вариационного ряда – это варианта с максимальной частотой. В данном случае . Моду легко отыскать по таблице, и ещё легче на полигоне частот – это абсцисса самой высокой точки:


Иногда таковых значений несколько (с одинаковой максимальной частотой), и тогда модой считают каждое из них.

Если все или почти все варианты различны (что характерно для интервального ряда ), то модальное значение определяется несколько другим способом, о котором во 2-й части урока.

Медиана . Медиана вариационного ряда* – это значение, которая делит его на две равные части (по количеству вариант).

Но теперь нам нужно найти среднюю, моду и медиану.

Решение : чтобы найти среднюю по первичным данным, лучше всего просуммировать все варианты и разделить полученный результат на объём совокупности:
ден. ед.

Эти подсчёты, кстати, займут не так много времени и при использовании оффлайн калькулятора. Но если есть Эксель, то, конечно, забиваем в любую свободную ячейку =СУММ(, выделяем мышкой все числа, закрываем скобку ) , ставим знак деления / , вводим число 30 и жмём Enter . Готово.

Что касается моды, то её оценка по исходным данным, становится непригодна. Хоть мы и видим среди чисел одинаковые, но среди них запросто может найтись пять так шесть-семь вариант с одинаковой максимальной частотой, например, частотой 2. Кроме того, цены могут быть округлёнными. Поэтому модальное значение рассчитывается по сформированному интервальному ряду (о чём чуть позже) .

Чего не скажешь о медиане: забиваем в Эксель =МЕДИАНА(, выделяем мышью все числа, закрываем скобку ) и жмём Enter : . Причём, здесь даже ничего не нужно сортировать.

Но в Примере 6 была проведена сортировка по возрастанию (вспоминаем и сортируем – ссылка выше) , и это хорошая возможность повторить формальный алгоритм отыскания медианы. Делим объём выборки пополам:

И поскольку она состоит из чётного количества вариант, то медиана равна среднему арифметическому 15-й и 16-й варианты упорядоченного (!) вариационного ряда:

ден. ед.

Ситуация вторая . Когда дан готовый интервальный ряд (типичная учебная задача).

Продолжаем анализировать тот же пример с ботинками, где по исходным данным был составлен ИВР . Для вычисления средней потребуются середины интервалов:

– чтобы воспользоваться знакомой формулой дискретного случая:

– отличный результат! Расхождение с более точным значением (), вычисленным по первичным данным, составляет всего 0,04.

По сути дела, здесь мы приблизили интервальный ряд дискретным, и это приближение оказалось весьма эффективным. Впрочем, особой выгоды тут нет, т.к. при современном программном обеспечении не составляет труда вычислить точное значение даже по очень большому массиву первичных данных. Но это при условии, что они нам известны:)

С другими центральными показателями всё занятнее.

Чтобы найти моду, нужно найти модальный интервал (с максимальной частотой) – в данной задаче это интервал с частотой 11, и воспользоваться следующей страшненькой формулой:
, где:

– нижняя граница модального интервала;
– длина модального интервала;
– частота модального интервала;
– частота предыдущего интервала;
– частота следующего интервала.

Таким образом:
ден. ед. – как видите, «модная» цена на ботинки заметно отличается от средней арифметической .

Не вдаваясь в геометрию формулы, просто приведу гистограмму относительных частот и отмечу :


откуда хорошо видно, что мода смещена относительно центра модального интервала в сторону левого интервала с бОльшей частотой. Логично.

Справочно разберу редкие случаи:

– если модальный интервал крайний, то либо ;

– если обнаружатся 2 модальных интервала, которые находятся рядом, например, и , то рассматриваем модальный интервал , при этом близлежащие интервалы (слева и справа) по возможности тоже укрупняем в 2 раза.

– если между модальными интервалами есть расстояние, то применяем формулу к каждому интервалу, получая тем самым 2 или бОльшее количество мод.

Вот такой вот депеш мод:)

И медиана. Если дан готовый интервальный ряд, то медиана рассчитывается чуть по менее страшной формуле, но сначала нудно (описка по Фрейду:)) найти медианный интервал – это интервал, содержащий варианту (либо 2 варианты), которая делит вариационный ряд на две равные части.

Выше я рассказал, как определить медиану, ориентируясь на относительные накопленные частоты , здесь же сподручнее рассчитать «обычные» накопленные частоты . Вычислительный алгоритм точно такой же – первое значение сносим слева (красная стрелка) , и каждое следующее получается как сумма предыдущего с текущей частотой из левого столбца (зелёные обозначения в качестве примера) :

Всем понятен смысл чисел в правом столбце? – это количество вариант, которые успели «накопиться» на всех «пройденных» интервалах, включая текущий.

Поскольку у нас чётное количество вариант (30 штук), то медианным будет тот интервал, который содержит 30/2 = 15-ю и 16-ю варианту. И ориентируясь по накопленным частотам, легко прийти к выводу, что эти варианты содержатся в интервале .

Формула медианы:
, где:
– объём статистической совокупности;
– нижняя граница медианного интервала;
– длина медианного интервала;
частота медианного интервала;
накопленная частота предыдущего интервала.

Таким образом:
ден. ед. – заметим, что медианное значение, наоборот, оказалось смещено правее, т.к. по правую руку находится значительное количество вариант:


И справочно особые случаи.

В 1906 году великий ученый и известный специалист по евгенике Фрэнсис Гальтон посетил ежегодную выставку достижений животноводства и птицеводства в западной Англии, где совершенно случайно провел интересный эксперимент.

Как отмечает Джеймс Суровецки, автор книги «Мудрость толпы», на ярмарке Гальтона заинтересовало одно соревнование, в рамках которого люди должны были угадать вес забитого быка. Назвавший наиболее близкое к истинному число объявлялся победителем.

Гальтон был известен своим презрением к интеллектуальным способностям обычных людей. Он считал, что только настоящие эксперты смогут сделать точные утверждения о весе быка. А 787 участников соревнования не были экспертами.

Ученый собирался доказать некомпетентность толпы, вычислив среднее число из ответов участников. Каково же было его удивление, когда оказалось, что полученный им результат почти в точности соответствовал настоящему весу быка!

Среднее значение — позднее изобретение

Конечно, точность ответа поразила исследователя. Но еще более примечательным является тот факт, что Гальтон вообще догадался воспользоваться средним значением.

В сегодняшнем мире средние, и так называемые медианные показатели встречаются на каждом шагу: средняя температура в Нью-Йорке в апреле равняется 52 градусам по Фаренгейту; Стивен Карри в среднем зарабатывает 30 очков за игру; медианный семейный доход в США составляет $51 939/год.

Однако же идея о том, что множество различных результатов можно репрезентировать одним числом, довольна нова. До 17-ого века средние числа вообще не использовались.

Каким же образом появилась и развилась концепция средних и медианных значений? И как ей удалось стать главной измерительной методикой в наше время?

Преобладание средних значений над медианными имело далеко идущие последствия для на нашего понимания информации. И нередко оно приводило людей в заблуждение.

Среднее и медианное значения

Представьте, что вы рассказываете историю о четырех людях, ужинавших прошлым вечером с вами в ресторане. Одному из них вы бы дали 20 лет, другому — 30, третьему — 40, а четвертому — 50. Что вы скажете об их возрасте в своей истории?

Скорее всего, вы назовете их средний возраст.

Среднее значение часто используется для передачи информации о чем-либо, а также для описания некоего множества измерений. Технически, среднее значение — это то, что математики называют «средним арифметическим» — сумма всех измерений, разделенная на число измерений.

Хотя слово «среднее» (average) часто используется как синоним слова «медианное» (median), последним чаще обозначается середина чего-либо. Это слово происходит от латинского «medianus», что значит «середина».

Медианное значение в Древней Греции

История медианного значения берет свое начало с учения древнегреческого математика Пифагора. Для Пифагора и его школы медиана имела четкое определение и сильно отличалась от того, как мы понимаем среднее значение сегодня. Оно использовалось только в математике, а не в анализе данных.

В школе пифагорейцев медианное значение было средним числом в трехчленной последовательности чисел, находящемся в «равном» отношении с соседними членами. «Равное» отношение могло означать одинаково расстояние. Например, число 4 в ряду 2,4,6. Однако оно также могло выражать геометрическую прогрессию, например 10 в последовательности 1,10,100.

Статистик Черчилль Эйзенхарт объясняет, что в Древней Греции, медианное значение не использовалось в качестве репрезентирующего или заменяющего какой-либо набор чисел. Оно просто обозначало середину, и часто использовалось в математических доказательствах.

Эйзенхарт посвятил целых десять лет изучению среднего и медианного значений. Изначально он пытался отыскать репрезентирующую функцию медианы в ранних научных построениях. Однако вместо этого он обнаружил, что большинство ранних физиков и астрономов опирались на единичные, умело проведенные измерения, и у них не было методологии, позволявшей выбрать лучший результат среди множества наблюдений.

Современные исследователи основывают свои выводы на сборе больших объемов данных, как, например, биологи, изучающие человеческий геном. Древние ученые же могли провести несколько измерений, но выбирали лишь самое лучшее для построения своих теорий.

Как писал историк астрономии Отто Нойгебауэр, «это согласуется с осознанным стремлением античных людей минимизировать количество эмпирических данных в науке, потому что они не верили в точность непосредственных наблюдений».

Например, греческий математик и астроном Птолемей вычислил угловой диаметр Луны, используя метод наблюдения и теорию движения земли. Его результат был равен 31’20. Сегодня же мы знаем, что диаметр Луны колеблется от 29’20 до 34’6 в зависимости от расстояния от Земли. Птолемей в своих вычислениях использовал мало данных, но у него были все основания полагать, что они были точными.

Эйзенхарт пишет: «Необходимо иметь в виду, что связь между наблюдением и теорией в античности была иной, нежели сегодня. Результаты наблюдений понимались не как факты, под которые должна подстраиваться теория, но как конкретные случаи, которые могут быть полезны лишь в качестве иллюстративных примеров истинности теории»

В конце концов, ученые обратятся к репрезентативным измерениям данных, но изначально ни средние, ни медианные значения не использовались в этой роли. Со времен античности до сегодняшнего дня в качестве такого репрезентативного средства использовался другой математический концепт — полусумма крайних значений.

Полусумма крайних значений

Новые научные средства почти всегда возникают из необходимости решить определенную задачу в какой-либо дисциплине. Необходимость найти лучшее значение среди множества измерений возникло из потребности точно определить географическое положение.

Интеллектуальный гигант 11-ого века Аль-Бируни известен как один из первых людей, использовавших методологию репрезентирующих значений. Аль-Бируни писал, что когда в его распоряжении было множество измерений, и он хотел найти лучшее среди них, он использовал следующее «правило»: нужно отыскать число, соответствующее середине между двумя крайними значениями. При вычислении полусуммы крайних значений не принимаются во внимание все числа между максимальным и минимальным значениями, а находится среднее только для этих двух чисел.

Аль-Бируни применял этот метод в разных областях, в том числе для вычисления долготы города Газни, что находится на территории современного Афганистана, а также в своих исследованиях свойств металлов.

Однако в последние несколько веков полусумма крайних значений используется все реже. На самом деле, в современной науке она и вовсе не актуальна. На место полусуммы пришло медианное значение.

Переход к средним значениям

К началу 19-ого века использование медианного/среднего значения стало распространенным методом нахождения наиболее точно репрезентирующего значения из группы данных. Фридрих фон Гаусс, выдающийся математик своего времени, в 1809-ом году писал: «Считалось, что если некоторое число было определено несколькими прямыми наблюдениями, совершенными в одинаковых условиях, то среднее арифметическое значение является наиболее истинным значением. Если оно и не совсем строгое, то, по крайней мере, оно близко к действительности, и поэтому на него всегда можно положиться».

Почему произошел подобный сдвиг в методологии?

На этот вопрос довольно трудно ответить. В своем исследовании Черчилль Эйзенхарт предполагает, что метод нахождения среднего арифметического мог зародиться в области измерения магнитного отклонения, то есть в отыскании отличия между направлением стрелки компаса, указывающей на север, и реальным севером. Это измерение было крайне важным в эпоху Великих Географических Открытий.

Эйзенхарт выяснил, что до конца 16-ого века большинство измерявших магнетическое отклонение ученых использовали метод ad hoc (от лат. «к этому, для данного случая, для этой цели») при выборе наиболее точного измерения.

Но в 1580-ом году ученый Уильям Боро подошел к проблеме иначе. Он взял восемь различных измерений отклонения и, сравнив их, пришел к выводу, что наиболее точное значение было между 11 ⅓ и 11 ¼ градусами. Вероятно, он вычислил среднее арифметическое, которое находилось в этом диапазоне. Однако сам Боро открыто не называл свой подход новым методом.

До 1635-ого года вообще не было однозначных случаев использования среднего значения в качестве репрезентирующего числа. Однако именно тогда английский астроном Генри Геллибренд взял два различных результата измерения магнетического отклонения. Одно из них было сделано утром (11 градусов), а другое — днем (11 градусов и 32 минуты). Вычисляя наиболее истинное значение, он писал:

«Если мы найдем среднее арифметическое, мы с большой вероятностью можем утверждать, что результат точного измерения должен быть около 11 градусов 16 минут».

Вполне вероятно, что это был первый случай использования среднего значения как наиболее близкого к истинному!

Слово «среднее» (average) применялось в английском языке в начале 16-ого века для обозначения финансовых потерь от ущерба, которое получило судно или перевозимый груз во время плавания. В течение следующих ста лет оно обозначало именно эти потери, которые высчитывались как среднее арифметическое. Например, если корабль во время плавания был поврежден, и команде приходилось выбрасывать за борт некоторые товары, чтобы сохранить вес судна, инвесторы несли финансовые потери, эквивалентные сумме их инвестиции — эти потери вычислялись так же, как среднее арифметическое. Так постепенно значения среднего (average) и среднего арифметического сближались.

Медианное значение

В наши дни среднее значение или среднее арифметическое используются как основной способ для выбора репрезентативного значения множества измерений. Как же это произошло? Почему эта роль не была отведена медианному значению?

Френсис Гальтон был чемпионом медианного значения

Термин «медианное значение» (median) — средний член в ряде чисел, разделяющий этот ряд наполовину — появился примерно в то же время, что и среднее арифметическое. В 1599-ом году математик Эдвард Райт, работавший над проблемой нормального отклонения в компасе, впервые предложил использовать медианное значение.

«…Допустим, множество лучников стреляют в некоторую мишень. Цель впоследствии убирают. Каким образом можно узнать, где была цель? Нужно найти среднее место между всеми стрелами. Аналогично, среди множества результатов наблюдений ближе всего к истине будет то, которое находится посередине».

Медианное значение широко использовалось в девятнадцатом столетии, став обязательной частью любого анализа данных в то время. Им также пользовался и Френсис Гальтон, выдающийся аналитик девятнадцатого века. В истории о взвешивании быка, рассказанной вначале этой статьи, Гальтон изначально использовал медианное значение как представляющее мнение толпы.

Множество аналитиков, включая Гальтона, предпочитали медианное значение, поскольку его легче рассчитать для небольших наборов данных.

Тем не менее, медианное значение никогда не было более популярным, чем среднее. Скорее всего, это произошло из-за особых статистических свойств, присущих среднему значению, а также его отношения к нормальному распределению.

Связь среднего значения и нормального распределения

Когда мы проводим множество измерений, их результаты, как говорят статистики, «нормально распределены». Это значит, что если эти данные нанести на график, то точки на нем будут изображать нечто похожее на колокол. Если их соединить, получится «колоколообразная» кривая. Нормальному распределению соответствуют многие статистические данные, например, рост людей, показатель интеллекта, а также показатель самой высокой годовой температуры.

Когда данные нормально распределены, среднее значение будет очень близким к высшей точке на колоколообразной кривой, и очень большое количество измерений будет близким к среднему значению. Существует даже формула, предсказывающая, как много результатов измерений будут находиться на некотором расстоянии от среднего значения.

Таким образом, вычисление среднего значения дает исследователям много дополнительной информации.

Связь среднего значения со стандартным отклонением дает ему большое преимущество, ведь у медианного значения такой связи нет. Эта связь — важная часть анализа экспериментальных данных и статистической обработки информации. Именно поэтому среднее значение стало ядром статистики и всех наук, полагающихся в своих заключениях на множественные данные.

Преимущество среднего значения также связано с тем, что оно легко вычисляется компьютерами. Хотя медианное значение для небольшой группы данных довольно легко вычислить самостоятельно, все же намного проще написать компьютерную программу, которая находила бы среднее значение. Если вы пользуетесь Microsoft Excel, то наверняка знаете, что медианную функцию не так просто рассчитать, как функцию среднего значения.

В итоге, благодаря большому научному значению и простоте использования среднее значение стало главной репрезентативной величиной. Тем не менее, этот вариант далеко не всегда является самым лучшим.

Преимущества медианного значения

Во многих случаях, когда мы хотим вычислить центральное значение распределения, медианное значение является лучшим показателем. Так происходит потому, что среднее значение во многом определяется крайними результатами измерений.

Многие аналитики считают, что бездумное использование среднего значения отрицательно сказывается на нашем понимании количественной информации. Люди смотрят на среднее значение и думают, что это «норма». Но на самом деле оно может быть определено каким-нибудь одним сильно выдающимся из однородного ряда членом.

Представьте себе аналитика, желающего узнать репрезентативное значение для стоимости пяти домов. Четыре дома стоят $100,000, а пятый — $900,000. Среднее значение, таким образом, будет равняться $200,000, а медианное — $100,000. В этом, как и во многих других случаях, медианное значение дает лучшее понимание того, что можно назвать «стандартом».

Понимая, насколько сильно крайние значения могут сказаться на среднем, для отражения изменений в семейных доходах США используется медианное значение.

Медианные показатель также менее чувствителен к «грязным» данным, с которыми сегодня имеют дело аналитики. Многие статистики и аналитики собирают информацию, опрашивая людей в интернете. Если пользователь случайно добавит в ответ лишний ноль, который превратит 100 в 1000, то эта ошибка намного сильнее скажется на среднем значении, чем на медианном.

Среднее или медианное?

Выбор между медианным и средним значением имеет далеко идущие последствия — от нашего понимания влияния лекарств на здоровье до знаний относительно того, какой семейный бюджет можно назвать стандартным.

Поскольку сбор и анализ данных все больше определяет то, как мы понимаем мир, растет и значение используемых нами величин. В идеальном мире аналитики использовали бы и среднее, и медианное значение для графического выражения данных.

Но мы живем в условиях ограниченного времени и внимания. Из-за этих ограничений часто нам необходимо выбрать лишь что-то одно. И во многих случаях предпочтительней именно медианное значение.

Медианой Ме называют такое значение признака, которое приходится на середину ранжированного ряда и делит его на две равные по числу единиц части. Таким образом, в ранжированном ряду распределения одна половина ряда имеет значения признака, превышающие медиану, другая – меньше медианы.

Медиану используют вместо средней арифметической, когда крайние варианты ранжированного ряда (наименьшая и наибольшая) по сравнению с остальными оказываются чрезмерно большими или чрезмерно малыми.

В дискретном вариационном ряду, содержащем нечетное число единиц, медиана равна варианте признака, имеющей номер :
,
где N – число единиц совокупности.
В дискретном ряду, состоящем из четного числа единиц совокупности, медиана определяется как средняя из вариант, имеющих номера и :
.
В распределении рабочих по стажу работы медиана равна средней из вариант, имеющих в ранжированном ряду номера 10: 2 = 5 и 10: 2 + 1 = 6. Варианты пятого и шестого признака равны 4 годам, таким образом
года
При вычислении медианы в интервальном ряду сначала находят медианный интервал , (т. е. содержащий медиану), для чего используют накопленные частоты или частости. Медианным является интервал, накопленная частота которого равна или превышает половину всего объема совокупности. Затем значение медианы рассчитывается по формуле:
,
где – нижняя граница медианного интервала;
– ширина медианного интервала;
– накопленная частота интервала, предшествующего медианному;
– частота медианного интервала.
Рассчитаем медиану ряда распределения рабочих по размеру зарплаты (см. лекцию «Сводка и группировка статистических данных»).
Медианным является интервал заработной платы 800-900 грн., поскольку его кумулятивная частота равна 17, что превышает половину суммы всех частот (). Тогда
Ме=800+100грн.
Полученное значение говорит о том, половина рабочих имеют заработную плату ниже 875 грн., но это выше среднего ее размера.
Для определения медианы можно вместо кумулятивных частот использовать кумулятивные частости .
Медиана, как и мода, не зависит от крайних значений вариант, поэтому также применяется для характеристики центра в рядах распределения с неопределенными границами.
Свойство медианы :сумма абсолютных величин отклонений вариант от медианы меньше, чем от любой другой величины (в том числе и от средней арифметической):

Это свойство медианы используется на транспорте при проектировании расположения трамвайных и троллейбусных остановок, бензоколонок, сборочных пунктов и т..д.
Пример. На шоссе длиной 100 км расположено 10 гаражей. Для проектирования строительства бензоколонки были собраны данные о числе предполагаемых ездок на заправку по каждому гаражу.
Таблица 2 – Данные о количестве ездок на заправку по каждому гаражу.

Нужно поставить бензоколонку так, чтобы общий пробег автомашин на заправку был наименьшим.
Вариант 1. Если бензоколонку поставить в середине шоссе, т. е. на 50-ом километре (центр диапазона изменения признака), то пробеги с учетом числа ездок составят:
а) в одном направлении:
;
б) в противоположном:
;
в) общий пробег в оба направления: .

Вариант 2. Если бензоколонку поставить на среднем участке шоссе, определенном по формуле средней арифметической с учетом числа ездок:

Медиану можно определить графически, по кумуляте (см. лекцию «Сводка и группировка статистических данных»). Для этого последнюю ординату, равную сумме всех частот или частостей, делят пополам. Из полученной точки восстанавливают перпендикуляр до пересечения с кумулятой. Абсцисса точки пересечения и дает значение медианы.