Повна версія

Головна arrow Інформатика arrow ІНТЕЛЕКТУАЛЬНІ СИСТЕМИ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

ЧАСТИНА III ОБРОБКА ПРИРОДНОЇ МОВИ ТА МАШИННИЙ АНАЛІЗ ТЕКСТІВ

ОБРОБКА ПРИРОДНОЇ МОВИ

В результаті освоєння даного розділу навчається буде: знати

  • • предмет, цілі і завдання обробки природної мови; вміти
  • • аналізувати різні мовні явища;
  • • вирішувати лінгвістичні завдання; володіти
  • • базовими прийомами моделювання текстів на природній мові.

Природні і штучні мови. Проблема нерегулярності природних мов

Природними називаються історично склалися мови, які використовуються людьми для спілкування. Природні мови розвиваються безперервно і стихійно, тобто без певної мети і плану. Цим вони відрізняються від штучних мов, які створюються і розвиваються цілеспрямовано і планомірно. Прикладами природних мов є будь-які національні мови: російська, англійська, мова індіанців племені навахо і т.д. Прикладом штучної мови є мова міжнародного спілкування есперанто, лексика (словник) якого була створена на основі популярних інтернаціональних слів, а граматика (набір правил для побудови фраз) - на базі 16 найпростіших шаблонів, що не містять винятків.

В принципі, всі штучні мови, не тільки есперанто, відрізняються простою і суворої структурою, чого не можна сказати про природних мовах. Для порівняння: якщо штучна мова есперанто розроблявся як ясний і доступний кожному код спілкування, то природна мова навахо, навпаки, використовувався у Другій світовій війні як найскладніший і витончений шифр. У той період Японія і США вели війну на Тихому океані, і, як свідчать джерела, японці з легкістю розгадували всі передані американцями військові шифрограми. Але так тривало лише до тих пір, поки американці не стали використовувати в своїх шифрограмі мову навахо 1 . Мова навахо був гранично складний для вивчення і розуміння і в той час не мав писемності, а значить, книг і підручників. Крім самих індіанців навахо його знали всього 30 чоловік в світі. Японці довго билися над розшифровкою повідомлень на навахо, але так і не змогли розкрити секрет цієї мови.

Складність будови природних мов пояснюється їх еволюційної природою. Справа в тому, що лексико-граматичний лад природних мов формується історично, впродовж тривалого часу, під впливом різних епох, культур і народів, завдяки чому складається з безлічі хронологічних шарів. Ці пласти, нашаровуючись один на одного, змішуючись і взаімопронікая, утворюють в кінцевому підсумку таку складну, неоднозначну і надлишкову систему, як природна мова.

Наочною ілюстрацією сказаного може служити рис. 7.1, який зображає історію розвитку англійської мови. У ньому кожна лінія символізує певний етнокультурне вплив, який вчинила на англійську мову в певний період часу.

Інший, вже словесної ілюстрацією може служити історія зміни форми минулого часу в російській мові. До цієї історії ми звернулися, задавшись питанням, чому в російській мові дієслово в минулому часі змінюється за родами, а в сьогоденні і майбутньому - ні. Порівняйте: він (вона, воно) йде, але він йшов, вона йшла, воно йшло.

Виявилося [1] [2] , що спочатку в російській мові було чотири форми минулого часу, в тому числі перфект (в англійському ця форма існує до цих пір). Перфект позначав результат минулої дії, що зберігся до теперішнього часу. Він вживався при необхідності вказати на минуле, пов'язане з інтересами сьогодення, що характерно для риторики стародавніх текстів (літописів, грамот, чолобитних і т.д.). Складна семантика перфекта висловилася в його складній формі, утвореної з допоміжного дієслова бити в теперішньому часі (есьм, есмо, ссі і т.д.) і короткого дійсного причастя колишніх часів з суфіксом «л». Наприклад, «я наказав» - «аз есьм повелів».

Хронологія розвитку англійської мови

Мал. 7.1. Хронологія розвитку англійської мови 1

1 Упоряд. але: Crystal D. The Cambridge encyclopedia of the English language. Cambridge: Cambridge University Press, 2003.

Перфект рано втратив свій допоміжне дієслово, і ця втрата зняла його зв'язок з теперішнім часом. Залишившись без дієслова, причастя перетворилося на просту глагольную форму минулого часу, але зберегло морфологічні ознаки - зміна але пологів.

Мета такого прикладу - демонстрація регулярності лексико-граматичної будови штучних мов (на прикладі мови есперанто). Автором цього чудового прикладу є Б. Норман 1 .

У штучною мовою есперанто афікси характеризуються однозначністю і регулярністю використання. Дано такі набори слів на есперанто:

  • 1) vortaro - словник, gaze taro - преса, аго - збори, arbaro - ліс, homaro - людство;
  • 2) portilo - носилки, gladilo - праска, skribilo - ручка, знаряддя письма, tondilo - ножиці;
  • 3) топего - монета, fairero - іскра, pohero - порошинка, нею - частка;
  • 4) banejo - купальня, lemejo - школа, trezorejo - скарбниця, herbejo - луг, kuirejo - кухня, dormejo - спальня.

Визначте, яке значення мають в есперанто іменники Але і ejo. Що означають в цій мові herbero і gladejo ?

Рішення. Проаналізувавши ряди 1 і 3, робимо висновок, що афіксами для утворення нових слів в есперанто служать прості односкладні слова. Зіставивши слова ряду 2, помічаємо, що все слова ряду позначають інструменти і мають афікс -Але. Робимо висновок, що слово Але означає «інструмент». (Порівняйте з російськими словами: зубило, точило, дріб.) Зіставивши слова ряду 4, помічаємо, що все слова ряду позначають місця для виконання якихось процедур, дій і т.д. (місце для купання; місце для навчання; місце, де зберігаються скарби, і місце, де росте трава, і місце для приготування їжі, і місце для сну). Робимо висновок, що слово ejo означає «місце». Тепер, з огляду на, що слово herbejo означає «луг», а слово його - «частка», робимо висновок, що слово herbero означає «травинка». Аналогічно, враховуючи, що слово gladilo означає праска, робимо висновок, що слово gladejo означає «прасувальна».

Наступний приклад ми виявили в збірнику лінгвістичних олімпіад [3] [4] . Його автором є найбільший російський вчений-лінгвіст А. А. Залізняк.

Одне зі слів - двері, жменю, тінь, кінь, ліжко, ліжко - змінило в ході історії свій рід (проте деякі сліди того, що воно було раніше іншого роду, в російській мові збереглися). Знайдіть це слово. Обгрунтуйте свою відповідь.

Рішення. Оскільки всі слова в вихідному списку явно жіночого роду, потрібно шукати непрямі ознаки, які можуть вказувати на рід іменника. Перебираючи різні варіанти, ми приходимо до висновку, що такою ознакою може бути освіту зменшувально форми. І дійсно, все слова в списку, крім слова «тінь», утворюють зменшувальну форму як іменники жіночого роду: двері - дверцята, жменю - жменька, кінь - конячка, ліжко - ліжечко, ліжко - ліжечко. І тільки слово тінь утворює зменшувальну форму як іменник чоловічого роду: тінь - тінь (порівняйте: день - день, князь - князьок). Таким чином, правильна відповідь - це слово «тінь».

Цей приклад можна назвати в певному сенсі антагоністом попереднього. Він демонструє складну еволюційну природу формування лексико-граматичної будови природних мов на основі так званого діахронічного підходу. Діа- хронічний підхід дозволяє відстежити розвиток тих чи інших мовних явищ крізь час (грец. Dia chronos ) і тим самим допомагає зрозуміти, як еволюціонують природні мови.

  • [1] Див .: Paul D. Л. The Navajo code talkers. Pittsburgh: Dorrance Publishing, 1973.
  • [2] Див .: Історична граматика російської мови: посібник для студентів заочного відділення / під РСД. Л. Я. Костючук. Псков: Изд-во ПГПИ, 2003.
  • [3] Наводиться по: Норман Б. Ю. Лінгвістичні завдання: навч, посібник. М.: Флинта; Наука, 2006.
  • [4] Наводиться по: Завдання лінгвістичних олімпіад. 1965-1975 / ред.-сост.В. І. Бєліков, Є. В. Муравенко, М. Е. Алексєєв. М .: Изд-во МЦНМО, 2006.
 
<<   ЗМІСТ   >>