Выпуск 23. МГУА (часть 3)

Ваши вопросы и, возможно, ответы на них в соответствующем разделе сайта (здесь>>>).

Здесь>>> можно посмотреть результат роботы программного модуля "Alternative_Simplex", предназначенного для решения задачи линейного программирования. Отличие от систем-аналогов в том, что для задачи ЛП полностью приводится алгоритм и результаты решения симплекс-методом.

Выпуск необычный и построен в режиме диалога-интервью с Григорием Ивахненко, за что я ему очень признателен.

Г.И. Так как Вы планируете выпустить выпуск посвященный МГУА позвольте высказать свои пожелания. Может они пригодятся. В целом мне кажется, что не так важны детали метода, способы деления выборки, критерии как описание оригинального индуктивного подхода к моделированию.

В.С. Возражаю, так как рассылка ориентирована на изложение методов, предназначенных для прогнозирования. Поэтому главным для подписчиков есть указание на конструктивные решения и способы их получения. Что касается парадигмы МГУА, то она интересна и в многочисленной уже литературе (в т.ч. в И-те) отображена.

Г.И. Ок. Неплохо бы там дать ссылку на http://www.gmdh.net/gmdh.htm В частности перебор функций разного вида, свобода выбора и оценка моделей на новой неиспользованной подвыборке дает возможность, независимо от предположений автора моделирования, находить законы верные для всех последующих выборок.
Я высылаю еще один файл с небольшим описанием.

В.С. Спасибо, сразу же его привожу. Одно замечание. Верность любого утверждения должна быть доказана аналитически, или подтверждена данными экспериментов. И в первом, и во втором случае, дабы не быть голословным, желательно приводить факты.

Knowledge Mining c помощью МГУА будет посвящена книга с проф.Мюллером - она выйдет в следующем году и там будет много примеров, как и в предыдущей книге Johann-Adolf Mueller and Frank Lemke 'Self-Organising Data Mining. An Intelligent Approach To Extract Knowledge From Data'.

Да именно критерии согласованности (критерий непротиворечивости) на _неиспользованных_ (внешних) данных позволяют находить долгосрочные прогнозы и находить физические законы и кластеризации. Одна из последних статей посвященных открытию физических законов с помощью МГУА - задача отыскания структуры металла для ракет.

A.G.Ivakhnenko, E.A.Savchenko, G. A.Ivakhnenko A.B.Nadiradze, A.O.Rogov Inductive Method Permitting to Choose Model With Least Error and Least Bias Allowing The Solve Interpolation Tasks of Artificial Intelligence выставлена на http://www.gmdh.net/articles

          Метод Группового Учета Аргументов состоит из нескольких алгоритмов для решения разных задач. В него входят как параметрические, так и алгоритмы кластеризации, комплексирования аналогов, ребинаризации и вероятностные алгоритмы. Этот подход самоорганизации основан на переборе постепенно усложняющихся моделей и выборе наилучшего решения согласно минимуму внешнего критерия. В качестве базисных моделей используются не только полиномы но и также нелинейные, вероятностные функции или кластеризации.
         При помощи перебора различных решений подход индуктивного моделирования пытается минимизировать роль предпосылок автора в результатах моделирования. Компьютер сам находит структуру модели и законы, действующие в объекте. Он может быть использован как советчик для отыскания новых решений в проблемах искусственного интелекта.
         Направление МГУА может быть полезным потому что:
- Находится оптимальная сложность структуры модели, адекватная уровню помех в выборке данных. (Для решения реальных проблем с зашумленными или короткими данными, упрощенные прогнозирующие модели оказываются более точными.)
- Количество слоев и нейронов в скрытых слоях, структура модели и другие оптимальные параметры нейросетей находятся автоматически.

В.С. Было бы замечательно знать поподробнее, как с помощью МГУА находятся те величины, о которых написано выше и почему автоматически.

Г.И. Минимум внешнего критерия указывает как оптимальную структуру модели, требуемые параметры, опорные функции (частные описания) и способ деления выборки.

Гарантируется нахождение наиболее точной или несмещенной
модели - метод не пропускает наилучшего решения во время перебора всех вариантов (в заданном классе функций).

Г.И. Полный перебор гарантирует нахождение оптимального решения.
Любые нелинейные функции или воздействия, которые могут иметь влияние на выходную переменную используются как входные параметры.

Г.И. Другими словами мы даем компьютеру выбрать эффективные факторы из всех возможных входных переменных и нелинейных функций от них. Хотя тут не все так просто.

МГУА автоматически находит интерпретируемые взаимосвязи в данных и выбирает эффективные входные переменные.
Переборные алгоритмы МГУА довольно просто запрограммировать.
Метод использует информацию непосредственно из выборки данных и минимизирует влияние априорных предположений автора о результатах моделирования.

Г.И. Автор дает выборку, задает критерий и класс функций только (например в Комбинаторном алгоритме)

Подход МГУА используется для повышения точности других алгоритмов моделирования.

В.С. Если не трудно объяснить, то каких и как?

Г.И. Дважды-многорядные нейросети на основе алгоритмов МГУА разного типа (аналоги, параметрические алгоритмы)

Дает возможность отыскания несмещенной физической модели объекта (закона или кластеризации) - одной и той же для всех будущих выборок.

В предыдущих выпусках вы упоминали
(((В.С. За основу изложения в предыдущих выпусках была взята книга Ивахненко А.Г. Долгосрочное прогнозирование и управление сложными системами. - К.: Технiка, 1975. - 312с.)))
об опорных функциях разного вида - многолетний опыт говорит что не следует > брать в них квадраты аргументов. Так что стоит брать максимум а0+а1Xi+a2XjXk. Свобода выбора состоит из 3-10 дополнительных переменных к выборке данных, пересчитываемых на каждом ряду расчета Многорядного алгоритма МГУА.

В.С. Что означает словосочетание "дополнительные переменные к выборке данных"?

Извините, я слишком кратко упомянул о следующем: Есть такой хороший Многорядный алгоритм МГУА разработанный Юрачковским Ю.П. названный GN (Goedel Numbers). Он описан в Ивахненко А.Г., Юрачковский Ю.П. Моделирование сложных систем по экспериментальным данным. - М.: Радио и связь, 1986. - 118с.

Если дана выборка с M переменными, то она расширяется еще несколькими F переменными, выходами, расчитанными функциями от нескольких моделей. После каждого ряда, в зависимости от критерия, они перезаписываются выходами лучших моделей. F бывает постоянным или переменным как здесь>>>. Каждый последующий ряд должен иметь на выбор не одно а несколько лучших решений.

Условия окончания в Комбинаторном алгоритме вообще нет, в многорядном - порог на сложность модели и количество рядов. Хотя самоорганизация требует исключения всяческих порогов и искусственных коэффициентов.
Нормированию подлежит не Y а вся входная матрица. Хотя это дело

(((В.С. Абсолютно согласен, возможно такие обозначения были в книге.)))

Г.И. Имелось в виду что нормирование не обязательно и может существенно изменить результаты моделирования.
Критерий регулярности один, СКO и гланое его свойство ( в отличие от многих известных например Акаике)

(((В.С. СКО - это среднее квадратическое отклонение? Интересно было бы иметь больше информации об "Акаике".)))

(((Г.И. Да можно грубо сказать что критерий регулярности это СКО расчитанное на подвыборке B. Классификация критериев дана в ч.2 книги Madala H.R., Ivakhnenko A.G. 'Inductive Learning Algorithms for Complex Systems Modeling'. Там и примеры и алгоритмы есть.

Посмотрите отчет В.С. Степашко, Ю.В. Коппа Моделирование эколого-экономических процессов по данным наблюдений в условиях неопределенности как задача структурной идентификации (стр.6, 13) Там кроме того дан метод критических дисперсий (помех).)))

находить оптимальную сложность структуры модели, адекватную уровню помех в выборке данных.
Так как сложность модели увеличивается постепенно то реально может быть m>n.

В.С. m привязано только к кол-ву слагаемых в опорной функции, так что здесь я согласен. Может быть m<n, m>n, m=n.

Г.И. "Шаг 4" - каждая третья точка в подвыборку B.

В.С. Не возражаю, но так в книге. И кроме того утверждения о второй, третьей, четвертой и т.п. требуют доказательств.

Г.И. Последние строгие эксперименты показали что предварительное ранжирование по дисперсии и затем разбиение

(((В.С. Это по-настоящему интересно. Не могли бы дать ссылку. )))

Степашко В.С. Кондрашова Н.В. Исследование способов генерации вариантов разбиения выборки в алгоритмах МГУА //

МКИМ-2002. Международная конференция по индуктивному моделированию, Львов, 20-25 мая 2002: Труды в 4-х томах. - Т.1., Ч.1 - Львов: Государственный НИИ информационной инфраструктуры, 2002. - 184 с. - ISSN 0135-5465

Юрачковский Ю.П. Грошков А.Н. Оптимальное разбиение исходных данных на обучающую и проверочную последовательности на основе анализа функции распределения критерия // Автоматика - 1980 - no.2 - с.5-9.

хуже других способов разбиения выборки. Но это как критериология тема для отдельной науки.
Используется два вида критериев несмещенности - по коэффициентам ( что признано математически более предпочтительным) и по точности (что практически легче) на двух равных частях выборки. Каждый автор делал по-своему. Поэтому говорить о тонкостях расчета критериев и деления выборки пожалуй нет смысла.
Главной проблемой в параметрических алгоритмах МГУА является ограничение объема перебора. К счастью теория метода подсказывает как алгоритмически и чисто математическими фокусами уменьшить его вплоть до секунд расчета. Другой проблемой по-моему также есть смещенность оценок коэффициентов по МНК.

Если содержание выпуска вызвало у Вас вопросы, замечания, пожелания, а также критику, пишите.