Повна версія

Головна arrow Інформатика arrow ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ: НЕЧІТКІ СИСТЕМИ І МЕРЕЖІ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

АЛГОРИТМИ ОПТИМІЗАЦІЇ НЕЧІТКОЇ НЕЙРОННОЇ МЕРЕЖІ

Адекватність моделі, яка описується нечіткими базами знань, даними експерименту визначається типом і якістю настройки функцій приналежності і ваг правил, за допомогою яких лінгвістичні оцінки параметрів моделі перетворюються в кількісну форму.

Але оскільки функції приналежності в свою чергу визначаються експертними методами [15], то адекватність нечіткої моделі в цілому також залежить від кваліфікації експертів. Крім того, далеко нс завжди існує можливість залучення експерта, який би промоделювати той чи інший об'єкт (процес), що може бути пов'язано з його складністю або певної новизною і як наслідок - недостатнім освоєнням. У зв'язку з цим виникає питання про можливість автоматизації процесу побудови нечітких баз знань, які моделюють зазначені об'єкти, на основі наявних експериментальних даних, отриманих в результаті їх дослідження. Так, перетворення експериментальної інформації в нечіткі бази знань могло б бути корисним в медицині, і інших областях, де особи, які приймають рішення, замість строгих кількісних співвідношень (яких вони часто не мають з об'єктивних причин) віддають перевагу прозорим і легким для інтерпретації словесним правилам. Щоб поліпшити класифікаційну здатність бази правил розглянемо різні алгоритми оптимізації.

Для дослідження були обрані середньомасштабні оптимізація з використанням нелінійного програмування з обмеженнями, і оптимізація з використанням алгоритму на основі фільтра Калмана [3, 8, 31].

Так як обсяг вибірки недостатньо великий, то використовується середньомасштабні оптимізація. У загальному випадку, це завдання відноситься до нелінійної оптимізації з обмеженнями або до нелінійного програмування [3, 8, 31]. В даному методі на кожній ітерації вирішується подзадача квадратичного програмування. У той же час квадратична задача досить проста, і для неї існують ефективні (в тому числі кінцеві) методи вирішення. Таким чином, зазначений підхід має практичний сенс, на відміну, наприклад, від використання аппроксимаций більш високого порядку. З іншого боку, методи Послідовного квадратичного програмування (SQP) [24] можуть розглядатися як результат поширення фундаментальної ідеї ньютоновских методів на завдання оптимізації з функціональними обмеженнями. Наприклад, в разі завдання з чистими обмеженнями-рівностями методи SQP суть не більше ніж спеціальні реалізації ньютоновских методів розв'язання системи Лагранжа. На сьогоднішній день методи SQP входять в число найбільш ефективних оптимізаційних методів загального призначення.

Оптимізація з використанням нелінійного программіро- вання з обмеженнями відноситься до етапу алгоритму навчання адаптивних нечітких нейронних мереж. Оптимізація являє собою знаходження таких параметрів вагових коефіцієнтів правил w = {w | , w 2 , ..., w n }, які є оптимальними в сенсі деякою критерію. У цьому випадку така задача зводиться до мінімізації цільової функції з обмеженнями, у вигляді нерівностей 0l(і ') <1 (/ = 1,2, ... /? г) або параметричних кордонів w L , w u . Загальна формулювання задачі параметричної оптимізації представляється в такий спосіб: потрібно знайти вектор vr, що забезпечує:

при обмеженнях

де w - вектор оптимізуються параметрів (we R "), J (w) - скалярна цільова функція векторного аргументу (/ (w): /?" -> /? (, g, (w) - деякі скалярні функції векторного аргументу. Дана задача може бути вирішена із застосуванням методу SQP. В даний час, більш ефективним вважається застосування так званих рівнянь Куна-Таккера з використанням леми Фаркаша, яка стверджують про існування рішення однієї і тільки однієї з двох систем лінійних рівнянь і нерівностей [24]. Те, що з рівняння слід V / (w * (> 0, означає, що існує безліч таких нео ріцательно скалярних постійних, що

де V - векторний диференційний оператор, w * - є точкою мінімуму функції Дуг) при обмеженнях, які відповідають умові регулярності у вигляді лінійної незалежності, Л * - невід'ємні множник Лагранжа, / - безліч індексів активних обмежень.

Оскільки при уе / функція Vg (W) = 0, а пріy'g / Л. = О, оскільки g, (w *) <0 для всіх jtl. Оскільки градієнти підлягають виходу на нульові значення, то множники Лагранжа (Д ( , / = 1,.,., / Л) будуть необхідні для того, щоб врівноважити відхилення за величиною даної цільової функції і градієнтів обмежень. Оскільки тільки активні обмеження залучені в цю процедуру обнулення, то обмеження не активні і не повинні піддаватися цій процедурі і тому відповідні множники Лагранжа дорівнюватимуть нулю. Рішення рівнянь Куна-Таккера служить основою для послідовного квадратичного програмування. В цьому алгоритмі і Використовується пряме обчислення множників Лагранжа. Нехай j, g n i ^ i <т, мають безперервними приватними похідними на деякому відкритому безлічі простору R ", що містить і <*. Якщо w * є точкою мінімуму функції / (vr) при обмеженнях 0 <§ , (щ) <1 (/ = 1,2, ... т), що задовольняють умові регулярності у вигляді лінійної незалежності, то існують такі невід'ємні множники Лагранжа (Я ,, / = 1, ..., т), що

Використовуючи послідовне квадратичне програмування на кожному кроці якого функції мети і обмежень замінюються на їх квадратичні наближення, і вирішується наступна подзадача квадратичного програмування: знаходження вектора d, за допомогою якого коригується вектор ваг w, + | = І », + d, такого, що d є рішенням задачі квадратичного програмування:

де V - векторний диференційний оператор, Н - симетрична і позитивно певна матриця друге приватних і змішаних похідних (матриця Гессе), А - якобіан обмежень.

В якості матриці Я (гессіан Лагранжа) може бути використаний як повний гессіан:

так і неповний:

0 Л - нульова квадратна матриця розмірності п, ".

Покладемо, що якобіан обмежень g (w) дорівнює A (w), тобто що

Відзначимо, далі, що обмеження g (w) входять тільки в вираження якобіана і гессіан обмежень, а, отже, тільки ці матриці залежать від схеми чисельного інтегрування цільової функції.

Неповний гессіан використовується для відшкодування відсутності позитивної визначеності V, L (w, X) і для зменшення складності обчислення. Також використання неповного гессіан призводить до спрощення програмного коду і прискоренню його розробки, при цьому, як буде показано, швидкість збіжності алгоритму до вирішення буде вище при виконанні деяких умов. Вид матриці Гессе для лагранжевої функції оновлюється на кожній ітерації за допомогою методу BFGS (Broyden, Fletcher, Goldfarb, Shanno) [28].

Метод BFGS оптимізації, що використовує апроксимацію матриці других похідних Я, представлений нижче.

На першому кроці розраховується матриця Я ". Як Я 0 вибирається одинична матриця. На другому кроці розраховується градієнт в поточній точці. На третьому кроці розраховується напрямки J. = -V 7 / (і;) ЯГ '. На четвертому кроці відбувається розрахунок кроку. На п'ятому кроці розраховується нова точка с /, = м> (+ | - і>.

. На шостому кроці алгоритму відбувається перерахунок матриці Я ж згідно з методом BFGS.

На сьомому етапі відбувається перевірка критерію зупину qj d t > 0. Якщо не виконується, то покласти i = / + 1 і перейти до кроку два.

Матриця Я повинна володіти двома властивостями:

  • - симетричність;
  • - позитивна визначеність.

Матрицю Я, можна шукати з умови лінійної інтерполяції для квадратичної моделі.

Якщо d, = w l4l - Wj, r / (w ( . + l ) -V r / (v ^.), тоді співвідношення січних для оптимізації матиме вигляд:

Перерахунок Н м відбувається за формулою.

Суть методу Бройде [27] полягає в тому, щоб обчислити матрицю Гессе аналітично або за допомогою методу скінченних різниць на першій ітерації, а після цього на кожній ітерації оновлювати матрицю Гессе, що не обчислюючи значення функцій і їх похідних.

Розглянемо наступний алгоритм оптимізації стосовно базі знань нечіткої нейронної мережі ANFIS типу Сугено [24]. Передбачається, що задана нечітка база знань Сугено і існує навчальна вибірка з М пар експериментальних даних, що зв'язують входи X r = (x rl9 x r29 ... 9 x m ) з виходом у досліджуваній залежності г , у), г = 1 , Л /. Параметрична ідентифікація нечіткої бази знань Сугено зводиться до наступної задачі знаходження вектора (P, fV) за формулою:

У цьому завданні оптимізації на керовані змінні Р накладаються обмеження, що забезпечують лінійну впорядкованість елементів терм-множин. Такі обмеження не дозволяють алгоритму оптимізації зробити, нечітка множина «низький» більше «високого». Що стосується вектора W, то його координати повинні знаходитися в діапазоні [0,1]. Впевненість експерта в кожному правилі ЯКЩО-TO, що входить в нечітку базу знань, може бути різною. Для відображення значущості правил введені їх ваги. Вага правила яке характеризує суб'єктивну міру впевненості експерта в цьому правилі. На практиці таке завдання вирішують алгоритмами на основі фільтра Калмана [24], які оптимізують тільки лінійні параметри нечіткої бази знань - коефіцієнти в висновках правил. Завдання зводиться до знаходження таких коефіцієнтів в висновках нечітких правил W , які забезпечують мінімум квадратичної нев'язки:

де y f - результат виведення по нечіткій базі знань з параметром W при значенні входів з рядка вибірки Х г Вхідному вектору * r відповідає такий результат нечіткого виведення:

полненіяу-го правила.

Відносну ступінь виполненіяу-го правила для вхідного Х г позначимо через:

Тоді формула можна переписати у вигляді:

Введемо наступні позначення:

Тоді задача настройки в матричної формі ставиться таким чином знаходження вектора W:

де Y f = AW.

Мінімальне значення квадратичної нев'язки Е досягається Y 1 = Y , що відповідає рішенню рівняння

Недоліком даного алгоритму є те, що при вирішенні реальних завдань кількість параметрів, що настроюються менше обсягу вибірки даних, отже, рівняння нс має точного рішення. Труднощі при вирішенні також пов'язані з сингулярностью матриці А. Кількість ітерацій даного алгоритму дорівнює обсягу вибірки експериментальних даних. На першому кроці алгоритму координати вектора W налаштовуються по першому рядку вибірки даних. На другий ітерації координати вектора W підлаштовують під другу пару «входи-вихід» і т.д. Інший недолік даного алгоритму оптимізації при великих навчальних вибірках настає ефект насичення - точність оптимізація практично не поліпшується зі збільшенням числа спостережень.

Підхід нелінійної оптимізації забезпечує істотний внесок від обмеження з невеликими параметрами в значення штрафних параметрів, що особливо актуально для активних обмежень поблизу точки рішення. Переваги даного методу оптимізації полягають в його простоті і ясною змістовної інтерпретації. Відсоток помилок широко використовується як критерій навчання різних систем розпізнавання образів. Цільова функція задачі оптимізації приймає дискретні значення.

Таким чином, з проведеного аналізу видно, що з використанням алгоритму нелінійної оптимізації з обмеженнями відбувається оптимальна настройка ваг висновків правил, що дає можливість краще підготувати нечітку нейронну мережу для вирішення конкретних завдань з меншими обчисленнями. Це передбачає вибір даного алгоритму для подальших експериментів.

 
<<   ЗМІСТ   >>