Data Mining

Свойства среднего


  • При расчете среднего не допускаются пропущенные значения данных.
  • Среднее может вычисляться только для числовых данных и для дихотомических шкал.
  • Для одного набора данных может быть рассчитано одно и только одно значение среднего.

Информативность среднего значения переменной высока, если известен ее доверительный интервал. Доверительным интервалом для среднего значения является интервал значений вокруг оценки, где с данным уровнем доверия находится "истинное" среднее популяции. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин.

Ширина доверительного интервала зависит от размера выборки и от разброса данных.

С увеличением размера выборки точность оценки среднего возрастает. С увеличением разброса значений выборки надежность среднего падает. Если размер выборки достаточно большой, качество среднего увеличивается независимо от выполнения предположения нормальности выборки.

Медиана - точная середина выборки, которая делит ее на две равные части по числу наблюдений.

Обязательным условием нахождения медианы является упорядоченность выборки.

Таким образом, для нечетного количества наблюдений медианой выступает наблюдение с номером (n+1)/2, где n - количество наблюдений в выборке.

Для четного числа наблюдений медианой является среднее значение наблюдений n/2 и (n+2)/2.



Содержание раздела