Повна версія

Головна arrow Головна

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

ІНФОРМАЦІЙНО-ПОШУКОВІ СИСТЕМИ

Після вивчення глави 9 студент повинен:

знати

  • • основні принципи інформаційного пошуку;
  • • універсальні пошукові сайти, мегапоісковие сайти і каталоги в Інтернеті;
  • • компоненти програмного забезпечення пошукового сайту і розмежування їх функцій;
  • • методи пошуку, звуження і розширення результатів пошуку документів і зображень;

вміти

• користуватися пошуковими сайтами, їх розділами, простим і розширеним пошуком;

володіти

навичками складання пошукової фрази, вибору розділу і області пошуку на пошуковому сайті і в каталозі.

Масиви інформації, необхідні для розвитку сучасного суспільства, величезні і мають принципову відмінність від тієї інформації, що була доступна кілька десятиліть тому. Сьогодні не існує яскраво виражених центрів зосередження знань. Традиційні джерела інформації: бібліотеки, бази даних, архіви сприймаються не як окремі інформаційні вузли, а як сукупність безлічі джерел інформації. Найбільш чітко тенденція розосередження інформації проглядається в нових інформаційних середовищах, таких як глобальні комп'ютерні мережі.

Розосередження джерел інформації - це не тільки можливість отримувати необхідну інформацію, а й серйозні проблеми, пов'язані з пошуком і класифікацією необхідних інформаційних ресурсів. Глобальна інформаційне середовище Інтернет являє собою мільйони джерел інформації загального користування, практично по всіх можливих тем. Складність орієнтування в цьому масиві інформації полягає навіть не в його величезних розмірах і наявності безлічі різноманітних форматів даних, а в динамічній природі інформації, що вимагає постійного оновлення "інформації про наявність і місце розташування інформації".

Неможливо ефективно використовувати нові інформаційні середовища, зокрема Інтернету, без застосування розвинених пошукових механізмів - інформаційних пошукових систем (ІПС).

Загальні принципи побудови інформаційно-пошукових систем

Основні принципи інформаційного пошуку. Проблема пошуку документа виникає в будь-якому сховище даних. При створенні систем зберігання застосовуються дві моделі: ієрархічна і гіпертекстова. Ієрархічна модель зберігання має на увазі багаторівневу рубрикацію системних ресурсів. Для визначення шляху до необхідного ресурсу використовуються опису, складені при відправці документа на зберігання. Гіпертекстова модель дозволяє пов'язувати документи посиланнями, розташованими безпосередньо в тексті документа.

При великих обсягах інформації, високій швидкості їх оновлення і різнорідності запитів очевидні недоліки цих моделей. Багаторівнева рубрикація і простановка посилань виконується висококваліфікованими фахівцями, тому обсяг оброблених ними документів стає обмеженим. Зв'язані документи обмежуються певною предметною областю, яка може по-різному трактуватися упорядником і користувачем. При пошуку документа доцільно переглядати безліч документів, що містять лише посилання на інші ресурси.

Цих недоліків позбавлені інформаційно-пошукові системи; будучи одного разу створеними, вони працюють автономно. Принцип взаємодії ІПС з користувачем полягає в тому, що користувач вводить в цій системі запит, що обробляється системою, і отримує список покажчиків на документи, що задовольняють запиту. Список може бути відсортований по релевантності - ступеня відповідності документа запиту.

Основні принципи інформаційного пошуку полягають в тому, що створюється масив покажчиків на інформаційні ресурси. Покажчик (індекс) містить якесь властивість документа і посилання на документи, які володіють цією властивістю. Наприклад, авторський покажчик дозволяє отримати посилання на роботи певного автора, предметний покажчик - вибрати документи, що зачіпають певні поняття (предмети). Процес створення покажчиків називається індексуванням, а терміни, що використовуються для індексування, називають термінами індексування. В авторському покажчику роль термінів індексування виконують прізвища авторів, роботи яких зберігаються в фонді. Сукупність використовуваних термінів індексування називається словником. Масив покажчиків, складений після індексації інформаційних ресурсів, іменується індексного базою.

До індексного базі звертаються за допомогою запитів. Так, запит користувача повинен бути переведений на мову індексування. При пошуку відбувається зіставлення запиту з наявними даними і користувачеві видається список посилань на відповідні ресурси. Для підвищення ефективності роботи системи словник і індекс повинні бути впорядковані за системою, найбільш відповідає завданням пошуку в конкретній предметній області.

Перші інформаційно-пошукові системи були створені в 1970- 1980-х рр. і продовжують розвиватися сьогодні.

Будь-яка інформаційно-пошукова система використовує предметний покажчик, що дозволяє відшукувати документи, що стосуються якогось "предмета". Для складання предметного покажчика аналізується зміст документа і визначається "предмет" або "предмети", про які в документі йдеться. Назви цих предметів переводяться на інформаційно-пошукова мова (ІПМ), в результаті отримують пошуковий образ документа (ПОД). Проїндексировав (створивши пошукові образи) всі інформаційні ресурси, отримують індексну базу - основний масив даних ІПС.

Процес пошуку полягає в зіставленні запиту користувача з наявними даними, отриманий запит також перекладається на інформаційно-пошукова мова. Після зіставлення перекладеного па ІПМ запиту і пошукових образів документів користувач отримує список посилань на документи, відповідні на думку системи його запитом. Пошук відбувається не по тексту документів, а по їх пошуковим образам, складеним на ІПМ. Тому якість пошукової системи залежить в першу чергу від її інформаційно-пошукової мови. До складу інформаційно пошукового мови входять:

  • 1) словник індексаційних термінів - безліч термінів індексування;
  • 2) кодовий словник - безліч кодових термінів;
  • 3) словник входів - безліч вхідних термінів;
  • 4) допоміжні засоби мови індексування - використовувані спільно з індексаційних термінами для розширення або звуження певних понять;
  • 5) правила використання мови індексування.

Для підвищення ефективності пошуку словник повинен бути контрольованим, тобто повинен бути організований таким чином, щоб повнота і точність пошуку були оптимальними. Очевидно, що організація словника залежить від багатьох факторів - предметної області, в якій буде функціонувати ІПС, характеру інтересів користувачів, ступеня їх підготовки і т.д.

Для поліпшення результатів пошуку необхідно визначити ступінь специфічності термінів при індексації. Як правило, застосовують два принципи - використання найбільш специфічного терміна, відповідного обсягу та змісту відбиваного поняття, і надмірне індексування. У надмірному индексировании пошуковий образ доповнюється термінами, пов'язаними з основним. Можуть використовуватися терміни, пов'язані як з основним ставленням узагальнення або специфікації, так і асоціативної зв'язком. Доповнення пошукового образу термінами з асоціативної зв'язком збільшує повноту пошуку, але неминуче знижує його точність. До недоліків надлишкового індексування відносяться також збільшення обсягу пошукових образів. Для усунення цієї проблеми в багатьох ІПС використовується надлишкове індексування не документ, а запитів.

Предметне індексування не виключає використання при створенні пошукового образу атрибутів документа. Це можуть бути такі атрибути, як дані про автора, дата публікації, мова публікації і т.д.

Точність і повнота пошуку залежать не тільки від характеристик самої ІПС, а й від того, як створюється запит. Ідеальний запит може бути складений користувачем, в повному обсязі знайомим з його цікавить предметною областю, а також з застосовуваної ІПС. Однак такому користувачеві ІПС, очевидно, не потрібно. Решта користувачів змушені задовольнятися або низькою точністю пошуку, або низькою повнотою.

Для підвищення якості пошуку існують різні методи. Найбільш вживається з них - використання

логічних операторів І, АБО, НЕ. Це досить простий спосіб підвищити релевантність видаваних документів. Недоліком вважається погана масштабованість. Оператор І може сильно звузити пошук, а оператор АБО - сильно розширити. Ступінь точності і повноти пошуку залежить від того, наскільки загальні терміни брали участь в формулюванні запиту. Може бути невірним використання як найбільш загальних термінів (зростає рівень інформаційного шуму), так і занадто специфічних термінів (знижується повнота пошуку). Застосування занадто специфічних термінів загрожує ще й тим, що в словнику ІПС даного терміну може не виявитися. У загальному вигляді процедура пошуку - процедура ітеративна, тобто за етапом видачі результатів пошуку слід корекція запиту, пошук за цим запитом і т.д. Схематично процедура показана на рис. 9.1. Корекція запиту відбувається в залежності від кількості отриманих документів і їх релевантності та може виконуватися як користувачем, так і самої інформаційно-пошуковою системою.

Залежно від співвідношення повноти і точності знайдених документів користувач може звузити або розширити область пошуку, перейшовши до більш загальним або, навпаки, більш специфічним термінам, а також використавши споріднені поняття. У разі пошуку за кількома термінам така корекція області пошуку може відбуватися по одному з декількох термінів, що дозволяє змінювати цю область досить плавно. Може виявитися корисним знання користувача про наявність виразно релевантних документів. Не виявивши їх в списку знайдених документів, область пошуку слід розширити. Запит коригується системою інформаційного пошуку па підставі аналізу документів, зазначених користувачем як найбільш точно відповідають його потребам. У такому випадку при наступному пошуку система шукає ті документи, де крім заданих в первісному запиті містяться терміни, що зустрічаються в документах, зазначених користувачем. Поліпшити результати пошуку можна різними способами, якщо функції для цього надаються інтерфейсом інформаційно-пошукової системи.

процедура пошуку

Мал. 9.1. Процедура пошуку

Останнім часом у багатьох ІПС з'явилася функція підказки при введенні тексту пошукового запиту, що враховує раніше введені цим користувачем запити за подібною тематикою за деякий період часу.

Інтерфейс системи. Важливим фактором, багато в чому визначає ефективність пошуку, може бути вид подання інформації в програмі, тобто її інтерфейс. За формою діалогу, способу завдання умови відбору і механізму пошуку програмні засоби можна розділити на системи рубрікаціонного типу і структурно-логічні системи.

Перші реалізуються інтерфейсом у вигляді ієрархічних послідовно розкриваються списків, через які забезпечується доступ до тематично пов'язаних групамидокументів. Розкриваючи чергову рубрику і переміщаючись у такий спосіб по тематичної ієрархії, користувач уточнює предметну область і збільшує (усрсдненно) ступінь точності відповідності видаваних документів та інформаційної потреби. Зумовленість співвіднесення документів з окремими рубриками компенсується логічністю природничо-наукової класифікаційної схеми, що замінює користувачеві путівник.

Структурно-логічні методи формування запиту використовуються для роботи з базами даних структурованої інформації, коли кожен документ складається з багатьох інформаційних полів, можливо, різного типу. Критерій відбору будується як логічна комбінація простих, що зводяться до перевірки умови присутності або відсутності в документі слів (назв або імен понять, що визначають предмет пошуку).

При складанні запиту до системи використовують або "меню-орієнтований" підхід, або командний рядок. Перший дозволяє ввести список термінів, як правило, розділяються пропуском, і вибрати тип логічного зв'язку між ними. Логічний зв'язок поширюється на всі терміни. Багато ІПС дозволяють зберігати запити користувача - в більшості систем це просто фраза на ІПМ, яку можна розширити за рахунок додавання нових термінів і логічних операторів. Але це тільки один спосіб використання збережених запитів, званий розширенням, або уточненням, запиту. Для виконання цієї операції традиційна ІПС зберігає не запит як такий, а результат пошуку - список ідентифікаторів документів, який об'єднується або перетинається зі списком, отриманим при пошуку документів по нових термінів.

 
<<   ЗМІСТ   >>