[ссылки] [литература] [проекты] [программы] [методические указания] [монографии и статьи] [вопросы и ответы] [школы] [учебники] [новости]
ENG  |   Карта сайта
Информация
Проект преследует цель популяризации идей применения природных механизмов функционирования для решения задач прогнозирования, оптимизации и поддержки принятия решений

Cписок рассылки
Открыть в новом окне

  1. Введение
  2. Генетические алгоритмы (1)
  3. Генетические алгоритмы (2)
  4. Генетические алгоритмы (3)
  5. Тренды
  6. Полиномиальные тренды
  7. Тригонометрические тренды
  8. Нейронные сети
  9. Метод наименьших квадратов
  10. Метод обратного распространения ошибки
  11. Множественная линейная модель
  12. Нестандартный выпуск. Анкета
  13. МЛМ. Пример расчета
  14. RBF-сеть
  15. Сеть встречного распространения
  16. Первая интерполяционная формула Ньютона
  17. МГУА (1)
  18. Вторая интерполяционная формула Ньютона
  19. Метод Брандона
  20. МГУА (2)
  21. Интерполяционные формулы Гаусса
  22. Интерполяционные формулы Стирлинга и Лагранжа
  23. МГУА (3)
  24. МГУА (4)
  25. Предварительная обработка данных (1)
  26. Предварительная обработка данных (2)
  27. Предварительная обработка данных (3)
  28. Box-counting
  29. Гетероскедастичность
  30. Введение в нечеткую логику
  31. Обобщённый метод наименьших квадратов
  32. Прогнозирование с помощью функций с гибкой структурой
  33. Автокорреляция
  34. Дистрибутивно-лаговые модели (1)
  35. Дистрибутивно-лаговые модели (2)
  36. Дистрибутивно-лаговые модели (3)
  37. Моделирование данных при помощи кривых для восстановления пробелов в таблицах (1)
  38. Нестандартный выпуск. Анонс книги Цейтлина Н.А."Опыт аналитического статистика"
  39. Алгоритм ZET
  40. Алгоритм ZetBraid
  41. Метод эволюционной кластеризации
  42. Эволюционный метод восстановления пропусков в данных
  43. Алгоритмы кластеризации класса FOREL

Предварительная обработка данных (часть 3).

Предварительная обработка данных (часть 3).

 

      В предыдущем выпуске рассылки был рассмотрен метод «выбеливания» входов, согласно которому матрица входных значений была преобразована к виду с некоррелированными входами, имеющими нулевое среднее и единичную дисперсию. «Выбеливание» входов увеличивает совместную энтропию входов и их информативность.

      Продолжая оптимизировать исходные данные неизбежно сталкиваются с двумя задачами:

  1. Удаление линейной зависимости среди входов.
  2. Выбор наиболее значимых входных факторов.

      Рассматривая первую задачу, заметим, что один из  методов ее решения был изложен в выпуске, посвященном мультиколлинеарности и базировался на методе Фаррара-Глобера. Одним из способов устроения  мультиколлинеарности есть удаление из множества входов линейно зависимых. Второй – замена одного из линейно зависимых факторов на их линейную комбинацию (наиболее распространенной является разность входов).

      Еще один способ заключается в следующем:

 Вычисляем матрицу ковариаций , и ее собственные числа  из равенства , где  – собственный вектор. Известно, что собственные числа являются квадратами дисперсий матрицы К вдоль ее главных осей. Если собственные числа достаточно малы, то это свидетельствует о том, что и дисперсия мала, а значит гиперповерхность, описывающая входные данные теряет одно измерение (превращает его в константу регрессионного уравнения) и, как следствие, указывает на то, что реальная размерность входного множества меньше заданной. Тогда размерность входов понижаем, исключая входы, которым соответствуют собственные числа меньше некоторого заданного . Точность модели при этом теряется незначительно.

      Задача выбора наиболее значимых факторов также может быть решена различными способами. Так, если предположить,  что осуществляется преобразование , причем , а  и зависимости  линейны, то поступим следующим образом. Для идентификации зависимости  используем однослойный перцептрон (рис. 1). Обучая его на известной матрице  исходных данных (рис. 2), получим матрицу весовых коэффициентов (рис. 3).

           

РЕКЛАМА:

Администрация сайта: ()
Используются технологии uCoz