Меры центральной тенденции (measures of central tendency) — способы осмысления центральной или средней позиции множества наблюдений, оценок, группы чисел и т.д.
На практике существуют большое разнообразие мер центральной тенденции (например, взвешенное, винсоризованное, гармоническое, геометрическое средние, среднее Колмогорова и др), но чаще всего встречаются:
- мода;
- среднее арифметическое;
- медиана.
Мода
Мода — типичность — максимальная частота — наиболее часто встречающееся значение в совокупности наблюдений. Применяется, например, для определения размера одежды, обуви, калибра патронов, пользующихся популярностью у покупателей, анализа технических экспериментов, а также определение часто встречающегося значения среди данных, имеющих не числовую природу происхождения (например, цвета: синий, красный, желтый, синий, зеленый…).
Давайте найдем моду — максимально встречающееся значение в данной совокупности:
Рассчитаем значение моды в Excel
У нас получилось 13. Т.е. максимально часто встречающееся значение в данной совокупности является значение 13.
Но если построить график, то получается такая картина
Видим, что на анализируемый показатель влияет 2 значения: это значения показателей 6, который встречается 16 раз и 13, встречающийся 17 раз. Например, такая ситуация может возникнуть при выборе кандидата в президенты: первая вершина — отданные голоса городского населения, вторая — сельского. Такой эффект называется мультимодальностью и, как правило, указывает что набор данных не подчиняется нормальному распределению.
Среднее арифметическое
Среднее арифметическое — сумма всех чисел, деленное на их количество, зависимое от разброса наблюдений.
Например, среднее арифметическое чисел 3, 7, 11 будет:
(3+7+11) /3 = 7.
Недостатком данной меры является чувствительность к различным отклонениям и неоднородностям в выборке, другими словами, оно подвержено существенным искажениям со стороны «отщепенцев» (значений) резко отклоняющихся от центра распределения. Для распределений с большим коэффициентом асимметрии может не соответствовать понятию среднего.
В приведенном примере аномальные значения («отщепенцы») будут наращивать среднее значение: если считать среднее арифметическое число проблем с качеством на 1 принтер, то получим 9,1. Впечатляющая цифра! Медиана проблем равняется 1.
Чтобы уяснить эту концепцию представьте 3-х мужчин, сидящих за барной стойкой.
Предположим, что у каждого из мужчин годовой доход составляет 42 000 долларов. Но тут, с попугаем на плече, к ним подсаживается Роман Абрамович, с годовым доходом 955 000 000 долларов.
Если подсчитать средний доход 4-х сидящих мужчин за барной стойкой (т.е. с Романом Абрамовичем), то мы ошибочно будем полагать что он составляет 238 781 500 долларов. Что на самом деле не соответствует действительности.
Медиана
Медиана — середина — уровень показателя, который делит набор данных на 2 равные половины (50/50). Она не присваивает наблюдениям весовые коэффициенты исходя из того, на сколько они отдалены от средней точки, а лишь оценивает их в зависимости от расположения.
Развивая мысль можно также делить медиану на четверти — квартили:
- 0,25 квантиль — первый (нижний) квартиль;
- 0,5 квантиль — медиана — второй квартиль;
- 0,75 квантиль — третий (верхний) квартиль.
Еще один вариант разделить на децили, каждый из которых включает в себя 10% наблюдений. Например, если ваш расход топлива бензинового двигателя автомобиля в верхнем дециле общего распределения расходов топлива всех бензиновых двигателей, то это означает, ваш двигатель сжигает топлива больше, чем 90% остальных двигателей.
Разбив распределение на сотые доли получим процентили — 1% распределения: первый процентиль представляет нижний 1% данного распределения, а 99-й — его верхний 1%.
Рассмотрим набор нормально распределенных случайных чисел.
В данном примере видим идеальную ситуацию когда медиана, среднее арифметическое и мода совпадают. Но, если рассмотреть ассиметричное распределение, которое может возникать при проведении технических замеров, например, скорости, может сложиться такая ситуация
Как видим из графика у нас присутствуют аномальные значения («отщепенцы»): 23, 28, 30, влияющие на среднее арифметическое, но никак не затрагивающие медиану.
Медиана — альтернатива среднему арифметическому, устойчивая к аномальным отклонениям («отщепенцам»).
Вывод
При выборе меры центральной тенденции нужно учитывать ее устойчивость к значениям, резко отклоняющихся от центра применяемых в каждом конкретном случае. Нужно определить какое влияние оказывают «отщепенцы»: искажают его или наоборот играют важную роль.
Окончательный выбор меры центральной тенденции всегда лежит за исследователем.