[ссылки] [литература] [проекты] [программы] [методические указания] [монографии и статьи] [вопросы и ответы] [школы] [учебники] [новости]
ENG  |   Карта сайта
Информация
Проект преследует цель популяризации идей применения природных механизмов функционирования для решения задач прогнозирования, оптимизации и поддержки принятия решений

Cписок рассылки
Открыть в новом окне

  1. Введение
  2. Генетические алгоритмы (1)
  3. Генетические алгоритмы (2)
  4. Генетические алгоритмы (3)
  5. Тренды
  6. Полиномиальные тренды
  7. Тригонометрические тренды
  8. Нейронные сети
  9. Метод наименьших квадратов
  10. Метод обратного распространения ошибки
  11. Множественная линейная модель
  12. Нестандартный выпуск. Анкета
  13. МЛМ. Пример расчета
  14. RBF-сеть
  15. Сеть встречного распространения
  16. Первая интерполяционная формула Ньютона
  17. МГУА (1)
  18. Вторая интерполяционная формула Ньютона
  19. Метод Брандона
  20. МГУА (2)
  21. Интерполяционные формулы Гаусса
  22. Интерполяционные формулы Стирлинга и Лагранжа
  23. МГУА (3)
  24. МГУА (4)
  25. Предварительная обработка данных (1)
  26. Предварительная обработка данных (2)
  27. Предварительная обработка данных (3)
  28. Box-counting
  29. Гетероскедастичность
  30. Введение в нечеткую логику
  31. Обобщённый метод наименьших квадратов
  32. Прогнозирование с помощью функций с гибкой структурой
  33. Автокорреляция
  34. Дистрибутивно-лаговые модели (1)
  35. Дистрибутивно-лаговые модели (2)
  36. Дистрибутивно-лаговые модели (3)
  37. Моделирование данных при помощи кривых для восстановления пробелов в таблицах (1)
  38. Нестандартный выпуск. Анонс книги Цейтлина Н.А."Опыт аналитического статистика"
  39. Алгоритм ZET
  40. Алгоритм ZetBraid
  41. Метод эволюционной кластеризации
  42. Эволюционный метод восстановления пропусков в данных
  43. Алгоритмы кластеризации класса FOREL

Методика box-counting

Методика box-counting

 

Прекрасно развитая теория линейной множественной регрессии не оставляет и капли сомнения в правильности полученных результатах и разработанных методов. Не оставляет сомнения и тот факт, что подавляющее большинство природных процессов носят нелинейный характер, а поэтому применение линейной регрессионной модели весьма и весьма ограничено, а сама она и её развитие, и усовершенствование служит средством удовлетворения, преимущественно,  научного разума.

            Теория нелинейных процессов, в части идентификации, оценки их качества, статистических оценок, применения для прогнозирования развита слабо. Тому есть объективные и субъективные причины. Не углубляясь в них, рассмотрим один из методов определения значимости входных факторов, как аспект уменьшения начальной энтропии, играющий особо важную роль при прогнозировании на «коротких» выборках.

            Речь идет о методике «box-counting». Ее сущность заключается в следующем. Есть входные факторы: , значение каждого из них находятся в ограниченной области, т.е. , , . 

            Согласно положений теорий информации и теории вероятностей, мерой предсказуемости значения фактора Xк есть его энтропия,  которая определяется как , где . Энтропия максимальная, когда все значения фактора равновероятны. В методике «box-counting» энтропия приближенно оценивается по набору чисел заполнения ячеек, на которые разбивается интервал ее возможных значений (рис.1)


 

            Таким образом, качественно энтропия есть логарифм эффективного числа заполненных ячеек .

            Естественно, что энтропия увеличивается с количеством заполненных ячеек.

            Чем больше энтропия (мера неопределенности), тем менее предсказуемыми есть значения фактора. Когда все значения сосредоточены в одной ячейке, их энтропия равна нулю (полная определенность). Равномерному заполнению ячеек соответствует максимальная энтропия.

            Предсказуемость фактора Y, обеспечиваемая знанием случайного фактора X определяется кросс-энтропией (количеством информации):

                                                                                               (1)

            Качественно, кросс-энтропия равна логарифму отношения разброса значений переменной Y к типичному разбросу этой переменной, но при известном значении переменой Х:

                                                                                                                           (2)

Nxy – количество клеток в которых содержаться точка с координатами (Xi, Yi) (рис. 2). На рисунке 2   Nxy =8.

 

 

                Чем больше есть кросс-энтропия, тем больше определенности вносит знание значения X в предсказание значения Y.

            Подводя итог, укажем алгоритм использования «box-counting».

            Шаг 1. Пусть Y=F12,…,хn). Зависимость F – не известна, но это пока значения не имеет. Поскольку априорно  Xi – имеют разную размерность, то их необходимо нормировать и привести к [0; 1] шкале, что позволит проводить адекватный анализ.

            Шаг 2. Выбирают единицу дискретности Е, определяемую точностью исследований. Для каждого фактора разбивают отрезки [0; 1] на участке длиной Е и рассчитывают Nx .

            Шаг 3. В двухмерной плоскости (см. рис. 2) определяют Nxy  для каждого фактора.

            Шаг 4. Рассчитываем отношение (2), упорядочиваем последовательность I(X1, Y), I(X2, Y),…, I(Xn, Y) и исходя из начальных данных и опыта,  факторы с наименьшей кросс-энтропией отбрасываем. Остаются наиболее значимые факторы.

РЕКЛАМА:

Администрация сайта: ()
Используются технологии uCoz