Повна версія

Головна arrow Інформатика arrow ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

НАВЧАННЯ З УЧИТЕЛЕМ

В результаті освоєння даного розділу навчається буде: знати

  • • основні методи машинного навчання з учителем; вміти
  • • застосовувати базові алгоритми машинного навчання з учителем; володіти
  • • основними підходами до вирішення завдання машинного навчання з учителем.

Лінійна регресія

Постановка завдання відновлення лінійної регресії

Ми почнемо розділ машинного навчання з учителем, мабуть, з самого простого алгоритму машинного навчання для відновлення регресії.

Модель лінійної регресії (linear regression) - часто використовувана в статистиці модель лінійної залежності однієї змінної у від іншої, незалежної змінної х, або декількох змінних [1] . У термінах машинного навчання у - це відповідь, а безліч незалежних змінних - ознаки. Проста лінійна регресія виглядає як функція згортки безлічі ознак з ваговими коефіцієнтами:

Ця модель вже зустрічалася нам раніше, в параграфі 4.1, де наводився приклад завдання про класифікацію спаму. У цьому завданні модель лінійної регресії була вбудована в класифікатор для створення розділяє класи гиперплоскости. У задачі відновлення регресії це ж рівняння використовується безпосередньо.

Розглянемо наступну задачу. Нехай за наявними даними про площу квартири, висоті стель, близькості до метро, віддаленості від центру необхідно давати прогнози про можливу вартість такої квартири. Так як ціна квартири в загальному випадку - це речова змінна, то згідно з класифікацією алгоритмів машинного навчання, наведеної раніше (див. Рис. 4.1), це завдання потрапляє під клас задач про відновлення багатовимірної регресії.

Завдання відновлення регресії часто зустрічається при обробці експериментальних даних. Візьмемо, наприклад, таку задачу, як визначення залежності між успішністю з математики та концентрацією наркотичних речовин в крові.

Група волонтерів брала наркотичний препарат ЛСД перед тим, як здавати іспит з математики. На рис. 5.1 показані результати вимірювань.

Результати проведення експерименту

Мал. 5.1. Результати проведення експерименту 1

1

На рис. 5.1 очевидно видна (з деякою погрішністю) лінійна закономірність в даних: чим вище концентрація наркотичного препарату в крові, тим нижче бал.

При навчанні моделі для відновлення лінійної регресії використовується метод найменших квадратів. Даний алгоритм навчання виглядає наступним чином:

Проста модель лінійної регресії є насправді одним з найпотужніших інструментів аналізу даних. Як ми побачимо далі, її можна використовувати, як це не дивно, для передбачення складних нелінійних залежностей, класифікації. Регресію можна використовувати в тому числі і для вирішення задачі ранжування - досить прийняти відповідь моделі за вагу об'єкта, представленого вектором х. Однак перш за все необхідно навчитися вирішувати оптимізаційну задачу.

  • [1] Див .: Єлісєєва І. І. Економетрика. М .: Фінанси і статистика, 2003.
 
<<   ЗМІСТ   >>