Повна версія

Головна arrow Інформатика arrow ІНФОРМАЦІЙНІ СИСТЕМИ УПРАВЛІННЯ ВИРОБНИЧОЮ КОМПАНІЄЮ

  • Увеличить шрифт
  • Уменьшить шрифт


<<   ЗМІСТ   >>

СХОВИЩА ДАНИХ

Проблеми розрізненості зберігання даних в рамках одного підприємства, необхідність залучення технічних фахівців для вилучення з баз даних потрібної для прийняття рішень інформації привели в 1980-і рр. до ідеї централізованого зберігання даних, необхідних для подальшого аналізу. Виник термін «сховище даних».

Сховища даних є спеціалізовані бази даних, що володіють такими властивостями:

  • предметна орієнтованість. У сховищі містяться дані, всебічно описують певну предметну область;
  • інтегрованість. Дані збираються з безлічі різних джерел, узагальнюються і зберігаються в єдиному корпоративному сховищі;
  • забезпечення несуперечності даних. Дані з різних джерел можуть містити дублюючі, суперечливі відомості, тому перед їх завантаженням в сховище вони проходять процедури перевірки, узгодження, доповнення, узагальнення;
  • незмінюваність. На відміну від баз даних транзакційних систем, в яких оперативні дані можуть редагуватися користувачами, дані в сховищі використовуються виключно в режимі читання і недоступні для коригування;
  • підтримка хронології. Оскільки для цілей аналізу і прогнозування розвитку предметної області необхідно бачити її показники в динаміці, дані зберігаються в прив'язці в дату і за максимально можливий часовий період;
  • оптимізація під виконання складних аналітичних запитів. Сховище проектується таким чином, щоб мінімізувати час на формування аналітичної звітності, необхідної для підтримки прийняття рішень для керівників і менеджерів.

Якщо в базах даних транзакційних систем дані надходять в процесі бізнес-діяльності (продажу товарів фіксуються в системі за фактом продажу, товари, що надійшли на склад, враховуються за фактом надходження на склад і т.п.), то для поповнення даних в сховищі потрібно їх періодична вивантаження з джерел. Процес розміщення інформації в сховищах передбачає періодичний збір, очищення та інтеграцію розрізнених даних з подальшим їх перетворенням в статичні, постійні структури.

Як джерела даних для інформаційного сховища, як правило, використовуються дані з розрізнених ІС, заснованих на різних реляційних СУБД, що обслуговують повсякденну діяльність підприємства. Джерелами можуть бути і дані, одержувані від зовнішніх організацій - інформаційних агентств, консалтингових компаній, засобів масової інформації, сайтів Інтернету.

Залежно від ступеня деталізації і часу зберігання в сховищі виділяються поточні детальні дані, архівні дані, агреговані (сумарні, узагальнені) дані, метадані (репозиторій).

На відміну від баз даних транзакційних систем, де агреговані дані не зберігаються, а кожен раз обчислюються заново, сховище містить і детальні, і агреговані дані. Це обумовлено необхідністю забезпечення швидкого виконання запитів користувачів: в сховищі міститься така велика кількість даних, що обчислення сумарних показників «на льоту» займало б значну кількість часу.

У сховищі міститься інформація з різних джерел, яка може мати різну періодичність оновлення, різну структуру, ступінь достовірності, власників даних - відомості про ці характеристики інформації називаються метаданими і зберігаються в репозиторії сховища. У репозиторії можуть також зберігатися бізнес-терміни, правила та алгоритми обчислення показників, які визначені для даного бізнесу. Фізично репозиторій є окремою базу даних або набір таблиць в рамках бази даних сховища.

Сховище може бути реалізовано у вигляді віртуального сховища даних, вітрин даних та глобального сховища даних.

Під віртуальним сховищем даних розуміють спеціальні засоби доступу до даних транзакційних систем, що забезпечують роботу з цими даними як зі сховищем даних. Цими засобами доступу можуть бути як «уявлення» в базі даних, так і окремі програмні продукти. Перевагами віртуального сховища є простота і низька ціна реалізації, єдина платформа з джерелом інформації, відсутність необхідності перевантаження даних з джерел інформації в сховищі даних. До недоліків такого підходу відносяться проблеми продуктивності, трансформації даних, інтеграції даних з іншими джерелами, відсутність підтримки хронології, перевірки коректності даних, залежність від доступності та структури основної бази даних.

Реалізація сховища даних на основі вітрин даних передбачає функціонування двох рівнів: рівня джерел даних і рівня вітрин даних, які будуються на основі принципів проектування сховищ даних і містять дані про конкретної вузької предметної області. В рамках одного підприємства вітрин даних може бути кілька: вітрина даних але постачальникам, вітрина даних по виробленим товарам, вітрина даних але доходах і видатках для бухгалтерії та ін. Єдине центральне сховище даних при цьому не створюється. Перевагами вітрин даних є простота і низька ціна реалізації в порівнянні зі створенням централізованого сховища даних, висока продуктивність за рахунок фізичного поділу реєструють і аналітичних систем, виділення завантаження і трансформації даних в окремий процес, оптимізований під аналіз структури зберігання даних. Вітрини даних також дозволяють підтримувати хронологію даних, описувати структуру даних у вигляді метаданих. До недоліку вітрин даних можна віднести те, що вони не дають єдиного джерела інформації про все підприємстві. Згодом інтегрувати вітрини в єдине централізоване сховище може виявитися проблематичним через що розрізняються форматів і структур зберігання даних. Крім того, різні вітрини можуть використовувати частково дані, що повторюються, які потрібно витягувати з джерела для кожної вітрини окремо, що вимагає додаткових витрат на обслуговування.

Глобальне сховище даних передбачає реалізацію трирівневої архітектури системи. На першому рівні розташовуються джерела даних - внутрішні транзакційні системи, зовнішні джерела (дані інформаційних агентств, консалтингових компаній тощо). Другий рівень містить центральне сховище, в яке завантажується інформація з джерел даних. При різному регламенті надходження даних з джерел в якості проміжної ланки може використовуватися оперативний склад даних, в якому дані готуються, перетворюються, перевіряються для їх подальшого завантаження в центральне сховище. Описи завантажених даних поміщаються в репозиторій. Третій рівень являє собою набір предметно-орієнтованих вітрин даних, джерелом інформації для яких є центральне сховище даних. Саме з вітринами даних і працює більшість кінцевих користувачів.

Концептуально організацію сховища даних можна представити у вигляді схеми на рис. 3.2.

В основі побудови сховища даних лежить принцип багатовимірного представлення даних, при якому в структурі економічної інформації виділяються вимірювання і факти. Під вимірами розуміються категоріальні (дискретні) атрибути, найменування і властивості об'єктів, що беруть участь в бізнес-процесі, наприклад, найменування клієнтів, чиї імена товарів, регіонів, магазинів. Факти - це кількісні значення показників, що описують бізнес-процес. Прикладами фактів можуть бути ціни на товари, обсяг продажів, обсяг доходів, обсяг витрат, рентабельність, частка на ринку.

Схема організації сховища даних

Мал. 3.2. Схема організації сховища даних

Відповідно до принципу багатовимірного представлення даних в базі даних сховища виділяються таблиці фактів, таблиці вимірювань і консольні таблиці. У таблицях фактів містяться кількісні значення економічних показників з посиланнями на результати вимірювання, до яких вони належать. У таблицях вимірів (довідників) зберігаються всі можливі значення вимірювань. Консольні таблиці можуть використовуватися для зберігання більш складних вимірювань з вкладеністю і ієрархією. Наприклад, якщо в сховище повинні міститися дані про продажі різних товарів, в різних магазинах, то найменування товарів і магазинів будуть зберігатися у відповідних таблицях вимірів «Товари» і «Магазини», а кількісні значення продажів - в таблиці фактів «Продажі». Якщо при цьому магазини знаходяться в різних регіонах і це необхідно враховувати при аналізі продажів, то найменування регіонів можуть бути поміщені в консольну таблицю «Регіони», яка буде пов'язана з таблицею вимірювань «Магазини».

Залежно від складності предметної області таблиці бази даних сховища можуть бути пов'язані за схемою «зірка», «сніжинка» або «сузір'я» (рис. 3.3).

Схеми побудови сховищ даних

Мал. 33. Схеми побудови сховищ даних:

а - «зірка»; б - «сніжинка»; в - «сузір'я»

При схемі «зірка» одна таблиця фактів зв'язується з декількома таблицями вимірювань. Схема «сніжинка» передбачає додаткові зв'язку таблиць вимірів з консольними таблицями. Якщо в сховище присутні кілька таблиць фактів, які використовують загальні таблиці вимірювань і консольні таблиці, то сховище побудоване за схемою «сузір'я».

Технологічно сховища даних тісно пов'язані із засобами оперативної аналітичної обробки даних (OLAP-технологіями), що дозволяють аналітикам, керівникам і керівникам вищої ланки вивчати великі обсяги взаємопов'язаних даних за допомогою швидкого інтерактивного відображення інформації на різних рівнях деталізації.

 
<<   ЗМІСТ   >>