Data Mining

Прогнозирование и временные ряды


Основой для прогнозирования служит историческая информация, хранящаяся в базе данных в виде временных рядов.

Существует понятие Data Mining временных рядов (Time-Series Data Mining).

Подробно с этим понятием можно ознакомиться в [23].

На основе ретроспективной информации в виде временных рядов возможно решение различных задач Data Mining. На рис. 6.1 представлены результаты опроса относительно Data Mining временных рядов. Как видим, наибольший процент (23%) среди решаемых задач занимает прогнозирование. Далее идут классификация и кластеризация (по 14%), сегментация и выявление аномалий (по 9%), обнаружение правил (8%). На другие задачи приходится менее чем по 6%.


Рис. 6.1.  Data Mining временных рядов

Однако чтобы сосредоточиться на понятии прогнозирования, мы будем рассматривать временные ряды лишь в рамках решения задачи прогнозирования.

Приведем два принципиальных отличия временного ряда от простой последовательности наблюдений:

  • Члены временного ряда, в отличие от элементов случайной выборки, не являются статистически независимыми.
  • Члены временного ряда не являются одинаково распределенными.

Временной ряд - последовательность наблюдаемых значений какого-либо признака, упорядоченных в неслучайные моменты времени.

Отличием анализа временных рядов от анализа случайных выборок является предположение о равных промежутках времени между наблюдениями и их хронологический порядок. Привязка наблюдений ко времени играет здесь ключевую роль, тогда как при анализе случайной выборки она не имеет никакого значения.

Типичный пример временного ряда - данные биржевых торгов.

Информация, накопленная в разнообразных базах данных предприятия, является временными рядами, если она расположена в хронологическом порядке и произведена в последовательные моменты времени.

Анализ временного ряда осуществляется с целью:

  • определения природы ряда;
  • прогнозирования будущих значений ряда.

В процессе определения структуры и закономерностей временного ряда предполагается обнаружение: шумов и выбросов, тренда, сезонной компоненты, циклической компоненты. Определение природы временного ряда может быть использовано как своеобразная "разведка" данных. Знание аналитика о наличии сезонной компоненты необходимо, например, для определения количества записей выборки, которое должно принимать участие в построении прогноза.

Шумы и выбросы будут подробно обсуждаться в последующих лекциях курса. Они усложняют анализ временного ряда. Существуют различные методы определения и фильтрации выбросов, дающие возможность исключить их с целью более качественного Data Mining.



Содержание раздела