[ссылки] [литература] [проекты] [программы] [методические указания] [монографии и статьи] [вопросы и ответы] [школы] [учебники] [новости]
ENG  |   Карта сайта
Информация
Проект преследует цель популяризации идей применения природных механизмов функционирования для решения задач прогнозирования, оптимизации и поддержки принятия решений

Cписок рассылки
Открыть в новом окне

  1. Введение
  2. Генетические алгоритмы (1)
  3. Генетические алгоритмы (2)
  4. Генетические алгоритмы (3)
  5. Тренды
  6. Полиномиальные тренды
  7. Тригонометрические тренды
  8. Нейронные сети
  9. Метод наименьших квадратов
  10. Метод обратного распространения ошибки
  11. Множественная линейная модель
  12. Нестандартный выпуск. Анкета
  13. МЛМ. Пример расчета
  14. RBF-сеть
  15. Сеть встречного распространения
  16. Первая интерполяционная формула Ньютона
  17. МГУА (1)
  18. Вторая интерполяционная формула Ньютона
  19. Метод Брандона
  20. МГУА (2)
  21. Интерполяционные формулы Гаусса
  22. Интерполяционные формулы Стирлинга и Лагранжа
  23. МГУА (3)
  24. МГУА (4)
  25. Предварительная обработка данных (1)
  26. Предварительная обработка данных (2)
  27. Предварительная обработка данных (3)
  28. Box-counting
  29. Гетероскедастичность
  30. Введение в нечеткую логику
  31. Обобщённый метод наименьших квадратов
  32. Прогнозирование с помощью функций с гибкой структурой
  33. Автокорреляция
  34. Дистрибутивно-лаговые модели (1)
  35. Дистрибутивно-лаговые модели (2)
  36. Дистрибутивно-лаговые модели (3)
  37. Моделирование данных при помощи кривых для восстановления пробелов в таблицах (1)
  38. Нестандартный выпуск. Анонс книги Цейтлина Н.А."Опыт аналитического статистика"
  39. Алгоритм ZET
  40. Алгоритм ZetBraid
  41. Метод эволюционной кластеризации
  42. Эволюционный метод восстановления пропусков в данных
  43. Алгоритмы кластеризации класса FOREL

Предварительная обработка данных

 

      Возникновение теории информации связывают с появлением фундаментальной работы американского ученого К.Шеннона «Математическая теория связи» в 1948 году. Им была предложена, а советским ученым Л.Я.Хинчиным доказана единственность функционала, который называется энтропией и имеет вид , где  - положительная константа. Этот функционал указывает на меру неопределенности выбора дискретного состояния из ансамбля . Если есть  состояний   и известны вероятности этих состояний  (табл.1), то к мере неопределенности  предъявляются следующие требования:

Таблица 1

 

 

  1.  – непрерывная функция вероятностей состояний с выполнением условия .
  2. =,  если .
  3. ==0, если .
  4. ÎR+   (вещественная, неотрицательная функция).
  5. H(XÈY) =H(X)+H(Y), если X и Y статистически независимы.
  6. Энтропия характеризует среднюю неопределенность выбора одного состояния из ансамбля.

Меру снятой неопределенности называют количеством информации  и вычисляют как разность   , где   - энтропия до проведения опыта,  - после проведения опыта.   может быть как положительным так и отрицательным.

      Напомним, что в качестве исходных данных имеем табл.2.

Таблица 2

      Чем более информативными есть обучающие образы-элементы вектора , тем качество предска-занного значения  будет большим.

      Поскольку элементы векторов  в общем случае разноразмерны, то необходимо привести их к единой шкале. Это необходимо для адекватного применения математических методов и компьютерных расчетов при вычислениях, связанных с большими и малыми величинами, а также для того, чтобы установить соответствие между количественными и качественными характеристиками данных. Например, как Вы ответите на вопрос: «Что более свойственно человеку: иметь 60 кг веса, или 165 см роста, или 25 лет ?». А между тем, ответы на вопросы такого типа и их комбинации важны при оценке склонности человека к определенным заболеваниям.

      Еще одним шагом, дающим возможность сравнения, является нормирование. Основными формулами, реализующими и приведение к единой шкале, и нормирования есть такие:

 

Дадим им краткую характеристику:

  1. Область значений – [0,1]. Оптимально  использовать, если значения исходных данных равномерно заполняют интервал изменения. Для некоторых методов прогнозирования формула неэффективна, если значения будут нулевыми или сосредоточенными возле концов отрезка [0,1].
  2. Аналогична первой.
  3. Третья формула отличается тем, что значения, полученные в результате ее применения являются безразмерными, в большинстве своем находящиеся в окрестности нуля, но не обязательно принадлежат конкретному отрезку.  - выборочное среднее значение, d - выборочное среднее квадратичное отклонение. Из-за неопределенности границ отрезка изменения значений возникают проблемы соответствия активационным функциям в искусственных нейронных сетях. Необходимы дополнительные преобразования, например:

            Последнее преобразование, кроме значений принадлежащих [0,1], гарантирует и

            более равномерное распределение значений.

  1. Область значений – [-1,1]. Формула удобна для прогнозирования с помощью нейронных сетей, в которых используется в качестве активационной функции гиперболический тангенс. Имеет все свойства функций 1 и 2.
  2. Область значений – (1;+¥). Редко используется и, в основном, для преобразования отрицательных чисел в положительные. Функция вспомогательная, не нормировочная и не избавляющая от размерности.

      В общем случае, будем считать, что использование нормировочных функций ведет к отображению входных значений в единичном гиперкубе. Если они будут сосредоточены в небольшой гиперокрестности, то такие данные малоинформативны и прогнозирование будет неточным (смис.1).

      Наибольшей информативностью (в смысле получения более точного прогноза) будут обладать данные, имеющие равномерное распределение (известно, что они имеют наибольшую энтропию) (см. рис.2).

      Таким образом, одна из главных задач после приведения к безразмерным величинам и нормализации будет максимизация энтропии. Об этом будет далее…

                 Рис. 1.                                   Рис. 2.

РЕКЛАМА:

Администрация сайта: ()
Используются технологии uCoz