Головна Інформатика
ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ
|
|
|||||
МЕТОД ПАРЗЕНОВСКОГО ВІКНАБайєсівський підхід до класифікаціїУ попередньому параграфі ми розглянули підхід до вирішення задачі класифікації на основі побудови розділяє гиперплоскости. У цьому підпункті ми покажемо ще один підхід до вирішення завдання машинного навчання - статистичний, званий також групою байесовских класифікаторів. Ідея байесовских класифікаторів заснована на припущенні про ймовірнісної природі об'єктів класифікації і відповідей відповідно. Якщо X - це весь простір об'єктів класифікації, представлене у вигляді векторів ознак, a Y - все простір відповідей, то X • У - простір об'єктів-ознак з щільністю р (х, у). Для опису групи байесовских методів найзручніше почати з кінця - з припущення про те, що ми вже знаємо спільну щільність р (х, у):
де Р (у) - апріорна ймовірність класу у р (х у) - функція правдоподібності класу у Р (у х ) - апостериорная ймовірність класу у. Слід звернути увагу на те, що р мале - це функція, а Р велике - значення ймовірності. Вираз (5.4) легко перетворити до теоремі Байеса - звідси і назва групи методів:
Отже, знаючи все значення ймовірностей для формули (5.5), можна легко для всієї множини У розрахувати ймовірності того чи іншого класу для об'єкта класифікації х, після чого вибрати клас з максимальним значенням розрахованої ймовірності. Даний принцип вибору класу об'єкта називається принципом максимальної правдоподібності [1] , який можна записати в такий спосіб:
Цікаво, що, дотримуючись принципу максимальної правдоподібності, від знаменника в (5.5) можна позбутися і отримати підсумкову формулювання принципу, що лежить в основі байесовских класифікаторів: ![]() Алгоритми, в основі яких лежить такий підхід, мінімізують в першу чергу ймовірність неправильної класифікації, а значить, в теорії дадуть найбільш якісну класифікацію при практичному використанні такого класифікатора після його навчання. Наслідком же мінімізації даної помилки є і мінімізація емпіричного ризику. Однак це працює тільки в теорії, і, звичайно ж, байєсовські класифікатори будуть помилятися, і причиною тому є недосконалість навчальної вибірки - її кінцівку, яка не дозволяє виконати точну оцінку розподілів об'єктів і класів. Як і у випадку з логістичної регресією, байесовский класифікатор, даючи оцінку ймовірності класу у для об'єкта класифікації х, дозволяє побудувати функціонал середнього ризику (5.3). Найчастіше це важливо в таких завданнях, як, наприклад, кредитний скоринг для банків, в якій пропонується вирішити задачу класифікації - давати клієнту позику, або цей клієнт, ймовірно, не поверне борг. Невідоме значення Р (у) оцінюється як частка об'єктів класу у в навчальній вибірці, тобто статистична ймовірність класу у. Група байесовских класифікаторів породжується власне методами відновлення функції розподілу р (х у):
4) непараметрический метод Парзена - Розенблатта. Цей метод буде розглянуто в наступному абзаці як самий гнучкий метод відновлення розподілів з дуже складною формою. З точки зору реалізації наївний байесовский класифікатор найбільш простий, так як, зробивши припущення про вид одновимірних розподілів по кожній змінній, зазвичай дуже легко відновити його параметри. Наприклад, завдання відновлення параметрів нормального розподілу є стандартною завданням курсу математичної статистики в технічних вузах.
|
<< | ЗМІСТ | >> |
---|