Что такое медианная зарплата: расчет, статистические данные. медианный доход

Содержание:

Среднее против медианы против режима  

Среднее значение, медиана и мода являются основными меры центральной тенденции используется в описательной статистике. Они полностью отличаются друг от друга, и случаи, в которых они используются для обобщения данных, также различны.

Значит

Среднее арифметическое — это сумма значений данных, деленная на количество значений данных, т. Е.

Если данные взяты из выборочного пространства, это называется выборочным средним (), которая является описательной статистикой выборки. Хотя это наиболее часто используемый описательный показатель для выборки, это не надежная статистика. Он очень чувствителен к выбросам и колебаниям.

Например, рассмотрим средний доход жителей конкретного города. Поскольку все значения данных суммируются, а затем делятся, доход чрезвычайно богатого человека значительно влияет на среднее значение. Следовательно, средние значения не всегда являются хорошим представлением данных.

Кроме того, в случае переменного сигнала ток, проходящий через элемент, периодически изменяется от положительного направления к отрицательному и наоборот. Если мы возьмем средний ток, проходящий через элемент за один период, он даст 0, что означает, что ток не прошел через элемент, что, очевидно, неверно. Следовательно, и в этом случае среднее арифметическое не является хорошим показателем.

Среднее арифметическое — хороший показатель, когда данные распределены равномерно. Для нормального распределения среднее значение равно моде и медиане. Он также имеет самые низкие остатки при рассмотрении среднеквадратичной ошибки; следовательно, это лучший способ описания, когда требуется представить набор данных одним числом.

Медиана

Значения средней точки данных после упорядочивания всех значений данных в порядке возрастания определяются как медиана набора данных. Медиана — это 2-й квартиль, 5-й дециль и 50-й процентиль.

• Если количество наблюдений (точек данных) нечетное, то медиана — это наблюдение точно в середине упорядоченного списка.

• Если количество наблюдений (точек данных) четное, то медиана — это среднее значение двух средних наблюдений в упорядоченном списке.

Медиана делит наблюдение на две группы; т.е. группа (50%) значений выше и группа (50%) значений ниже медианы. Медианы специально используются в асимметричных распределениях и представляют данные намного лучше, чем среднее арифметическое.

Режим

Мода — это наиболее часто встречающееся число в наборе наблюдений. Режим набора данных рассчитывается путем нахождения частоты каждого элемента в наборе.

• Если значение не встречается более одного раза, значит, в наборе данных нет режима.

• В противном случае любое значение, которое встречается с наибольшей частотой, является режимом набора данных.

В наборе может быть более 1 режима; следовательно, режим не является уникальной статистикой набора данных. В равномерном распределении есть одна мода. Режим дискретного распределения вероятностей — это точка, в которой функция массы вероятности достигает своей наивысшей точки. Используя приведенные выше интерпретации, можно сказать, что глобальные максимумы это режимы.

Рассмотрим применение всех трех мер к следующему набору данных.

ДАННЫЕ: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15 , 15}

Среднее значение = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15 ) / 25 = 8,12

Медиана = 9 (13-й элемент)

Mode = 9 (частота 9 = 5)

В чем разница между средним, медианным и модой?

• Среднее арифметическое — это сумма значений (наблюдений), деленная на количество наблюдений. Это не надежная статистика, и она сильно зависит от природы нормального распределения в рассматриваемом распределении. Один выброс может вызвать значительный сдвиг среднего значения, что приведет к относительно неверным значениям. Концепция может быть расширена до среднего геометрического, среднего гармонического, средневзвешенного и так далее.

• Медиана — это средние значения набора наблюдений, и на нее относительно меньше влияют выбросы. Это может дать хорошую оценку в качестве сводной статистики в случаях с большим перекосом.

• Режим — это наиболее распространенные значения наблюдений в наборе данных. Если распределение положительно смещено, мода лежит слева от медианы, а при отрицательном смещении мода лежит справа от медианы.

• При положительном перекосе среднее значение соответствует медиане; в случае отрицательного перекоса среднее значение находится слева от медианы.

• В нормальном распределении все три: среднее, мода и медиана равны.

Определение моды и медианы по несгруппированным данным

Рассмотрим определение моды и медианы по несгруппированным данным. Предположим, рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: . Так как в данной бригаде больше всего рабочих 3-го разряда, этот тарифный разряд будет модальным. Mo = 3. Для определения медианы необходимо провести ранжирование: . Центральным в этом ряду является рабочий 4-го разряда, следовательно, данный разряд и будет медианным. Если ранжированный ряд включает четное число единиц, то медиана определяется как средняя из двух центральных значений. Если мода отражает наиболее распространенный вариант значения признака, то медиана практически выполняет функции средней для неоднородной, не подчиняющейся нормальному закону распределения совокупности. Проиллюстрируем ее познавательное значение следующим примером. Допустим, нам необходимо дать характеристику среднего дохода группы людей, насчитывающей 100 человек, из которых 99 имеют доходы в интервале от 100 до 200 долларов в месяц, а месячные доходы последнего составляют 50000 долларов (табл. 1). Таблица 1 – Месячные доходы исследуемой группы людей.

N п/п 1 2 3 4 50 51 99 100
Доход, долл. 100 104 104 107 162 164 100 50 000

Если воспользоваться средней арифметической, то получим средний доход, равный примерно 600 – 700 долларов, который имеет мало общего с доходами основной части группы. Медиана же, равная в данном случае Me = 163 доллара, позволит дать объективную характеристику уровня доходов 99 % данной группы людей. Рассмотрим определение моды и медианы по сгруппированным данным (рядам распределения). Предположим, распределение рабочих всего предприятия в целом по тарифному разряду имеет следующий вид (табл. 2). Таблица 2 – Распределение рабочих предприятия по тарифному разряду

Тарифный разряд Численность рабочих, человек
2 12
3 48
4 56
5 60
6 14
ВСЕГО 190

Моду и медиану можно найти с помощью онлайн-калькуляторов.

Какие способы вычисления среднего бывают?

Первым способом является вычисление уже упомянутого среднего арифметического, являющегося суммой всех значений, деленной на их количество.

Формула:

  • x– среднее арифметическое;
  • x– конкретное значение;
  • n – количество значений.

Плюсы:

  • Хорошо работает при нормальном распределении значений в выборке;
  • Легко вычислить;
  • Интуитивно понятно.

Минусы:

  • Не дает реального представления о распределении значений;
  • Неустойчивая величина легко поддающаяся выбросам (как в случае с генеральным директором).

Вторым способом является вычисление моды, то есть наиболее часто встречающегося значения.

Формула:

  • M– мода;
  • x– нижняя граница интервала, который содержит моду;
  • n – величина интервала;
  • fm– частота (сколько раз в ряду встречается то или иное значение);
  • fm-1 – частота интервала предшествующего модальному;
  • fm+1 – частота интервала следующего за модальным.

Плюсы:

  • Прекрасно подходит для получения представления об общественном мнении;
  • Хорошо подходит для нечисловых данных (цвета сезона, хиты продаж, рейтинги);
  • Проста для понимания.

Минусы:

  • Моды может просто не быть (нет повторов);
  • Мод может быть несколько (многомодальное распределение).

Третий способ — это вычисление медианы, то есть значения, которое делит упорядоченную выборку на две половины и находится между ними. А если такого значения нет, то за медиану принимается среднее арифметическое между границами половин выборки.

Формула:

  • Me – медиана;
  • x– нижняя граница интервала, который содержит медиану;
  • h – величина интервала;
  • f – частота (сколько раз в ряду встречается то или иное значение);
  • Sm-1 – сумма частот интервалов предшествующих медианному;
  • fm – число значений в медианном интервале (его частота).

Плюсы:

  • Дает самую реалистичную и репрезентативную оценку;
  • Устойчива к выбросам.

Минусы:

Сложнее вычислить, так как перед вычислением выборку нужно упорядочить.

Мы рассмотрели основные методы нахождения среднего значения, называющиеся мерами центральной тенденции (на самом деле их больше, но это наиболее популярные).

А теперь давайте вернемся к нашему примеру и посчитаем все три варианта среднего при помощи специальных функций Excel:

  •  — функция для определения среднего арифметического;
  •  — функция моды (в более старых версиях Excel использовалась );
  •  — функция для поиска медианы.

И вот какие значения у нас получились:

В данном случае мода и медиана гораздо лучше характеризуют среднюю зарплату в компании.

Но что делать, когда в выборке не 10 значений, как в примере, а миллионы? В Excel это не посчитать, а вот в базе данных где хранятся ваши данные, без проблем.

Вычисляем среднее арифметическое на SQL

Тут все достаточно просто, так как в SQL предусмотрена специальная агрегатная функция .

И чтобы ее использовать достаточно написать вот такой запрос:

/* Здесь и далее salary - столбец с зарплатами, а employees - таблица сотрудников в нашей базе данных */

SELECT AVG(salary) AS 'Средняя зарплата'
FROM employees

Вычисляем моду на SQL

В SQL нет отдельной функции для нахождения моды, но ее легко и быстро можно написать самостоятельно. Для этого нам необходимо узнать, какая из зарплат чаще всего повторяется и выбрать наиболее популярную.

Напишем запрос:

/* WITH TIES необходимо добавлять к TOP() если множество многомодально, то есть у множества несколько мод */
SELECT TOP(1) WITH TIES salary AS 'Мода зарплаты'
FROM employees
GROUP BY salary
ORDER BY COUNT(*) DESC

Вычисляем медиану на SQL

Как и в случае с модой, в SQL нет встроенной функции для вычисления медианы, зато есть универсальная функция для вычисления процентилей .

Выглядит все это так:

/* В данном случае процентиль 0.5 и будет являться медианой */

SELECT TOP(1) PERCENTILE_CONT(0.5)
       WITHIN GROUP (ORDER BY salary)
       OVER() AS 'Медианная зарплата'
FROM employees

Подробнее о работе функции  лучше почитать в справке Microsoft и .

Формула медианы

Формула медианы в статистике для дискретных данных чем-то напоминает формулу моды. А именно тем, что формулы как таковой нет. Медианное значение выбирают из имеющихся данных и только, если это невозможно, проводят несложный расчет.

Первым делом данные ранжируют (сортируют по убыванию). Далее есть два варианта. Если количество значений нечетно, то медиана будет соответствовать центральному значению ряда, номер которого можно определить по формуле:

где

Me – номер значения, соответствующего медиане,

N – количество значений в совокупности данных.

Тогда медиана обозначается, как

Это первый вариант, когда в данных есть одно центральное значение. Второй вариант наступает тогда, когда количество данных четно, то есть вместо одного есть два центральных значения. Выход прост: берется средняя арифметическая из двух центральных значений:

В интервальных данных выбрать конкретное значение не представляется возможным. Медиану рассчитывают по определенному правилу. 

Для начала (после ранжирования данных) находят медианный интервал. Это такой интервал, через который проходит искомое медианное значение. Определяется с помощью накопленной доли ранжированных интервалов. Где накопленная доля впервые перевалила через 50% всех значений, там и медианный интервал.

Не знаю, кто придумал формулу медианы, но исходили явно из того предположения, что распределение данных внутри медианного интервала равномерное (т.е. 30% ширины интервала – это 30% значений, 80% ширины – 80% значений и т.д.). Отсюда, зная количество значений от начала медианного интервала до 50% всех значений совокупности (разница между половиной количества всех значений и накопленной частотой предмедианного интервала), можно найти, какую долю они занимают во всем медианном интервале. Вот эта доля аккурат переносится на ширину медианного интервала, указывая на конкретное значение, именуемое впоследствии медианой.

Обратимся к наглядной схеме.

Немного громоздко получилось, но теперь, надеюсь, все наглядно и понятно. Чтобы при расчете каждый раз не рисовать такой график, можно воспользоваться готовой формулой. Формула медианы имеет следующий вид:

где xMe — нижняя граница медианного интервала;

iMe — ширина медианного интервала;

∑f/2 — количество всех значений, деленное на 2 (два);

S(Me-1)— суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т.е. накопленная частота предмедианного интервала;

fMe — число наблюдений в медианном интервале.

Как нетрудно заметить, формула медианы состоит из двух слагаемых: 1 – значение начала медианного интервала и 2 – та самая часть, которая пропорциональна недостающей накопленной доли до 50%. 

Для примера рассчитаем медиану по следующим данным.

Требуется найти медианную цену, то есть ту цену, дешевле и дороже которой по половине количества товаров. Для начала произведем вспомогательные расчеты накопленной частоты, накопленной доли, общего количества товаров.

По последней колонке «Накопленная доля» определяем медианный интервал – 300-400 руб (накопленная доля впервые более 50%). Ширина интервала – 100 руб. Теперь остается подставить данные в приведенную выше формулу и рассчитать медиану.

То есть у одной половины товаров цена ниже, чем 350 руб., у другой половины – выше. Все просто. Средняя арифметическая, рассчитанная по этим же данным, равна 355 руб. Отличие не значительное, но оно есть.

Какой способ все-таки использовать?

Из сказанного выше следует, что медиана лучший способ для вычисления среднего значения.

Но это не всегда так. Если вы работаете со средним, то остерегайтесь многомодального распределения:

На графике представлено бимодальное распределение с двумя пиками. Такая ситуация может возникнуть, например, при голосовании на выборах.

В данном случае среднее арифметическое и медиана — это значения, находящиеся где-то посередине и они ничего не скажут о том, что происходит на самом деле и лучше сразу признать, что вы имеете дело с бимодальным распределением, сообщив о двух модах.

А еще лучше разделить выборку на две группы и собрать статистические данные для каждой.

Вывод:

При выборе метода нахождения среднего нужно учитывать наличие выбросов, а также нормальность распределения значений в выборке.

Окончательный выбор меры центральной тенденции всегда лежит на аналитике.

Полезные ссылки:

  • SQL и теория вероятностей (YouTube)
  • Анализ нормальности распределения данных (YouTube)
  • Меры центральной тенденции

Роман Романчук

Digital-аналитик и иногда спортсмен.

  • Учимся применять оконные функции — 29.09.2020
  • Автоматизация отчетности при помощи SQL и Power BI — 05.04.2020
  • Зачем аналитику нужно программирование на SQL? — 22.10.2019

Медиана

Медиана — та самая грань, которая отделяет наибольшие значения от наименьших. То самое «число в середине». Постойте-постойте, а разве среднее арифметическое делает не то же самое?

Вот вам простой пример. Какое число находится в середине этого ряда?

1, 2, 3, 4, 100

Число «3» находится в середине ряда. И хотя среднее арифметическое (22) является «средним», оно никак не отражает распределения этих чисел. Интуитивно (и абсолютно правильно!) мы считаем, что в середине этого ряда всё-таки 3, а не 22. Здесь среднее значение отошло от середины благодаря резко отклоняющемуся из общей массы значению, 100.

Медиана эту проблему решает. Медиана делит весь числовой ряд на две равные части по количеству значений, причём первая половина имеет значения меньше либо равные медиане, а вторая — больше либо равные. Если в середине числового ряда оказывается два числа то, тобы получить медиану мы просто берём среднее арифметическое этих двух чисел. В числовом ряду 1, 2, 3, 4 медианой станет число 2,5. Именно медиана позволяет выбивающимся из общей массы числам вроде 100 в нашем примере выше не влиять на общее впечатление о числовом ряде.

Прелести медианы:

  • Прекрасно справляется с резко отклоняющимися значениями, поэтому зачастую является самым репрезентативным значением для группы;
  • Разбивает данные на две группы, состоящие из одинакового количества элементов.

Изъяны медианы:

  • Немного усложняются вычисления: прежде чем разбить ряд на две равные части необходимо его упорядочить по возростанию или убыванию;
  • Медиана менее популярна и если вы скажете «среднее медианное значение», то люди зачастую принимают его за средне арифметическое. Отсюда возникает путаница.

Такие средние значения, как цены на недвижимость или, например, уровень дохода часто вычисляются именно по медиане, потому что нам важна именно средняя стоимость большей части домов в конкретном районе или средний уровень доходов большей части населения. В таком случае Билл Гейтс с годовым доходом в несколько миллиардов не испортит нам всю статистику. Видите, как много зависит от того, как мы работаем с имеющимися данными?

Пример использования

Предположим, что в одной комнате оказалось 19 бедняков и один миллионер. У каждого бедняка есть 5 ₽, а у миллионера — 1 млн ₽ (106). В сумме получается 1 000 095 ₽. Если мы разделим деньги равными долями на 20 человек, то получим 50 004,75 ₽. Это будет среднее арифметическое значение суммы денег, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна 5 ₽ (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив всю компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе у каждого не больше 5 ₽, во второй же — не меньше 5 ₽. В общем случае можно сказать, что медиана — это то, сколько принёс с собой «средний» человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.

Среднее гармоническое

Среднее гармоническое представить сложнее, чем предыдущих представителей «средних», но оно не менее полезно. Между прочим, само понятие «гармоники» в математике связано с обратными числами (1/2, 1/3 и т.д.). Среднее гармоническое помогает нам вычислить среднее арифметическое в рядах чисел, заданных обратными значениями. Это бывает чаще, чем можно подумать.

Например, если я еду со скоростью 30 км/ч, это значит, что я получаю определённый результат (30 км) за какую-либо единицу времени (1 час). Когда мы хотим узнать среднее значение для нескольких скоростей (Х и Y), нужно думать о результате и единицах измерения, а не об исходных цифрах.

CредняяCкорость = \frac{ОбщийРезультат}{ОбщаяЕдиницаИзмерения}

Возьмём двух сотрудников: Х и Y. Оба работают в одном проекте и выполняют одинаковое количество работы, но скорость их работы разная. Какова средняя скорость их работы?

Допусти, каменщик Х кладёт 30 кирпичей в час, а каменщик Y — 60 кирпичей в час. Значит, на один кирпич у каждого каменщика уходит:

  • У X укладка одного кирпича займёт 1/X времени (1/30);
  • У Y укладка одного кирпича займёт 1/Y времени (1/60)

Складываем результаты и единицы измерения:

Общий результат: 2 кирпича (Х и Y уложили по одному) Общая единица времени: 1/X + 1/Y (у каждого уходит разное количество времени)

Средней скоростью обоих каменщиков будет:

\frac{2}{\frac{1}{X} + \frac{1}{Y}}

Если бы у нас было 3 каменщика (X, Y и Z), их средняя скорость вычислялась бы по формуле:

\frac {3}{\frac{1}{X} + \frac{1}{Y} + \frac{1}{Z}}

Здорово же иметь одну формулу вместо того, чтобы каждый раз заниматься долгими вычислениями. Даже вычисляя среднюю скорость 5 нерадивых работников стало бы головной болью. Помните наш первый пример про скорость, с которой вы едете на работу и домой? Чтобы найти среднюю скорость передвижения в тот день, мы просто используем формулу.

При этом нам даже не нужно знать, где находится дом или офис! Теперь вместо X и Y у нас не кирпичи, а количество километров за единицу времени. Вне зависимости от расстояния результат один и тот же: допустим, некое количество километров R мы проходим на скорости X, а другое количество километров R — на скорости Y. Средняя скорость при этом будет вычисляться так же, как вычисляется средняя скорость прохождения 1 км на скорости X и одного километра на скорости Y:

\frac{2R}{\frac{R}{30} + \frac{R}{60}} = \frac{2}{\frac{1}{30} + \frac{1}{60}} = 40

Ключевая идея: Среднее гармоническое используется тогда, когда один и тот же объём работы выполняется с разной производительностью.

Ещё более ключевая идея: Помните, что среднее значение — это один элемент, способный передать суть целой группы элементов. В нашем примере с работой и офисой в среднем туда-обратно мы едем на скорости 40 км/ч (вместо 30 км/ч туда и 60 км/ч обратно)

Важно помнить, что средней скоростью мы заменяем каждую «стадию»

Ещё несколько примеров из жизни среднего гармонического:

  • Передача данных: Мы передаём данные между клиентом и сервером. С Клиента берут 1 доллар за 10 трафика, а Сервер на 1 доллар получает 20 Гб трафика. Каково среднее количество Гб, которые можно передать и получить за один доллар? Мы усредняем значения для клиента и для сервера: 2 / (1/10 + 1/20) = 13,3 Гб/доллар для каждой стороны. Поскольку данные и передаются, и получаются (каждая сторона выполняет свою половину работу), мы делим это значение на 2 и получаем следующее значение: 6,65 Гб за доллар.
  • Производительность машины: У нас есть производственная установка для подготовки и полировки деталей. За час установка может подготовить 25 деталей; либо за тот же час она может отполировать 10 деталей. Какова средняя производительность установки? Усредняем значения для каждой стадии: 2 / (1/25 + 1/10) = 14,28 деталей/час. Снова делим это значение на два, поскольку нас интересует средняя производительность установки, если она занимается сразу двумя фазами: получаем 7,14 деталей/час.

Формула дисперсии:

Населениеотклонениеσ2 (произноситсясигма в квадрате) дискретного набора чисел выражается следующей формулой:

где:XiпредставляетIthединица, начиная с первого наблюдения до последнегоμпредставляет среднее населениеNпредставляет количество единиц в населении

! Помните, что в приведенной выше формуле речь идет о всей совокупности набора данных.

Дляотбор пробмы рассчитываем дисперсию как указано ниже:

отклонениеобразцаs2 (произноситсяв квадрате) выражается несколько иной формулой:

где:XIпредставляетIthединица, начиная с первого наблюдения до последнегоИкспредставляет среднее значение выборкиNпредставляет количество единиц в образце

Среднее арифметическое

Эта размерность является основной в математике (алгебре) и статистике. Она вычисляется по формуле: сумма всех элементов последовательности, деленная на количество.

Определение используют для обработки сведений за большой период времени. Оно применимо для политической, экономической и социальной сфер. Ее часто используют, как показатель нескольких вычислений или сбора данных.

Многие статисты считают его неэффективным, так как множество лучше применяется для меньшей последовательности. Оно не показывает максимум и минимум, если они кардинально отличаются, а совокупность данных большая. К другим недостаткам характеристики относятся:

  1. Подвергается влиянию чрезмерных отклонений (если данные отличаются на большие числа).
  2. Показывает неправильные данные при измерении сведений циклических переменных (вычисление угла наклона или фазы события).
  3. Плохо применяется к вычислению процентных величин (подсчет инвестиций).

Режим:

Значение, которое встречается чаще в данном наборе данных. Чтобы определить режим, вы можете снова упорядочить результаты, как показано выше, а затем подсчитать каждый. Наиболее часто встречающимся значением является режим.

ЕслиИксявляется дискретной случайной величиной, режим является значениемИкс(То есть,Икс= х) при которой функция вероятности принимает максимальное значение. Другими словами, это значение, которое наиболее вероятно для выборки.

Например, режим образца

Список 1: 1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17

Здесь режим 6.

Дан список данных:

Список 2: 1, 1, 2, 4, 4

Здесь режим не уникален — можно сказать, что набор данныхбимодальныйв то время как набор с более чем двумя режимами может быть описан какмультимодальные,

Обычно режим используется для категориальных данных, где мы хотим знать, какая категория является наиболее распространенной, как показано ниже:

Когда использовать что в описательной статистике для измерения центральной тенденции?

Ниже приводится краткое изложение, чтобы узнать, какова наилучшая мера центральной тенденции по отношению к различным типам переменных.

Тип VariableBest мера центральной тенденции:

Для номинального: режим

Для ординала: медиана

Для интервала / отношения (без перекоса): среднее

Для интервала / отношения (перекошено): Медиана

Случай перекошенного распределения:

Иногда данные обычно не распространяются. Обязательно, чтобы мы проверили наши наборы данных на их нормальное распределение, потому что это — общее предположение, лежащее в основе многих статистических анализов.

Когда у вас есть нормально распределенная выборка, вы можете использовать как среднее значение, так и медиану как показатель центральной тенденции. Фактически, при любом симметричном распределении среднее, медиана и мода равны. Однако в этой ситуации среднее значение широко предпочитается как наилучшая мера центральной тенденции, поскольку именно эта мера включает в себя все значения в наборе данных для его расчета.

источник

На рисунке выше: вы можете заметить, что с правой стороны имеется длинный хвост, и распределение данных не согласовано. Мы можем видеть, чтоозначают (10.1)перетаскивается в направлении перекоса. В этих ситуациях медиана обычно считается лучшим представителем центрального расположения данных.

Помнить:

B: Распространение данных (изменчивость данных)

Мера распространения, иногда также называемая мерой дисперсии, используется для описания изменчивости в выборке или популяции. Обычно он используется в сочетании с мерой центральной тенденции, такой как среднее значение или медиана, для общего описания набора данных.

Меры распространения включают в себя 3 важных классификации:

  1. Диапазон
  2. Квартили и межквартильный ассортимент,
  3. Дисперсия и стандартное отклонение

Давайте быстро покроем все это

Диапазон:

Диапазон — это разница между самым высоким и самым низким баллами в наборе данных и является наиболее простой мерой разброса.

Диапазон = максимальное значение — минимальное значение

Пример: 22,45,56,32,10,9,54

Здесь в приведенном выше наборе данных, Макс = 56, Мин = 9

Так что диапазон = Макс-Мин = 56–9 = 47

Диапазон как мера распространения используется не очень популярно, но он действительно устанавливает границы баллов. Это может быть полезно, если вы измеряете переменную, которая имеет критический низкий или высокий порог или оба, которые не должны пересекаться.

В статистическом анализе диапазон представлен одним числом. В финансовых данных этот диапазон чаще всего относится к максимальному и минимальному значению цены за данный день или другой период времени.

Диапазон Quartiles & Interquartiles:

межквартильный размах(IQR) — это показатель изменчивости, основанный на делении набора данных на квартили.

Давайте сначала поймем, что такое квартили, а затем на некоторых примерах мы углубимся в понимание концепции IQR.

Понимание отклонения и стандартного отклонения на примере (Src):

Давайте разберемся с дисперсией населения σ2 и стандартным отклонением σ на примере, приведенном ниже

Набор данных A:

A =

Значит население значит (μ) из:(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12Означать (μ) = 6

Рассчитайте отклонение отдельных значений от среднего (6 рассчитано выше) путем вычитания среднего из каждого значения в наборе данных с использованием приведенной ниже формулы:

= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2

Квадрат каждого отдельного значения отклонения

= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4

Рассчитать среднее значение квадрата отклонения

= (4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12

отклонениеσ2= 1,17

Вычислить квадратный корень из дисперсии

Стандартное отклонениеσ= 1,08

Набор данных B:

B =

Значит население значит (μ) набора данных B:(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12Означать (μ) = 6

Рассчитайте отклонение отдельных значений от среднего (6 рассчитано выше) путем вычитания среднего значения из каждого значения в наборе данных

= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,

Квадрат каждого отдельного значения отклонения

= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25

Рассчитать среднее значение квадрата отклонения

= (25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12

отклонениеσ2= 9,17

Вычислить квадратный корень из дисперсии

Стандартное отклонениеσ= 3,03

Наблюдение:Большая дисперсия и стандартное отклонение в наборе данных B дополнительно демонстрируют, что набор данных B более рассредоточен, чем набор данных A.

Найдена одна интересная инфографика, приведенная ниже, которая прекрасно объясняет концепцию:

Что дальше ?

Мы поняли здесь о описательной статистике, где мы узнали, как эффективно описать / обобщить данный набор данных (совокупность / выборка) на начальном уровне EDA, используя концепцию статистики данных, прежде чем мы начнем строить наши модели данных. Мы поняли тот факт, что надежность данных имеет первостепенное значение, если мы действительно хотим построить эффективные модели машинного обучения. Описательная статистика только помогает нам строить наблюдения на основе предоставленных данных, но если нам действительно нужно делать интеллектуальные прогнозы, мы не можем полагаться только на это. Для этого у нас есть понятие в прикладной статистике под названием,