Mity i fakty na temat hurtowni danych
Okresy budowy hurtowni danych

fragmenty rozdz.II pracy Zygmunta RYZNARa "Monografia informatyki bankowej oraz nowoczesne technologie informatyczne"
Copyright by Zygmunt Ryznar

Mity i fakty na temat hurtowni danych

Hurtownie danych stanowiły sztandarowe hasło postępu technologicznego lat 90-tych. Zdarzało się, że wdrożenia "hurtowni" w firmach miały na celu nie tyle usprawnianie biznesu, ile poprawianie marketingowego wizerunku firmy wobec klientów i konkurentów. W wyniku tego stanu rzeczy termin "hurtownia danych" jakby zestarzał się przedwcześnie (szczególnie w Polsce) zanim doszło do wdrożeń tej technologii na szerszą skalę. W tej sytuacji nie trudno było o tworzenie mitów.

Mit 90 dni

Opracowanie hurtowni danych “od zera” w ciągu 3 miesięcy jest nierealne jeśli mamy na myśli coś poważniejszego niż prosty datamart, czyli aplikację zorientowaną na proste struktury danych (np. kilkadziesiąt pól nie stowarzyszonych ze złożonymi algorytmami obliczeń), wymagającą jedynie wizualizacji wielowymiarowej techniką “drill down” w postaci np.kilkunastu predefiniowanych raportów. Okres kilkudziesięciu dni może okazać się również wystarczający dla “przyrostów” tematycznych, wykonywanych w stosunku do istniejących baz danych

Eksperci sądzą (np. Sean Kelly), że typowy nietrywialny projekt hurtowni danych trwa co najmniej 1 rok. , gdyż wymaga przygotowania odpowiedniej infrastruktury. Infrastruktura ta polega m.i. na zdefiniowaniu celów biznesowych i modelu biznesowego pod kątem hurtowni danych, przeniesieniu modelu biznesowego na poziom modelu danych, opracowaniu strategii budowy hurtowni danych, założeniu centralnego repozytorium metadanych, wyborze “tematu” dla pierwszej hurtowni danych, sformułowaniu potrzeb informacyjnych do uzyskania z pierwszej aplikacji oraz zdefiniowaniu danych wejściowych do hurtowni wraz z algorytmami kontroli ich jakości. Czynności powyższe zwykle trzeba powtarzać w kilku iteracyjnych nawrotach, zanim ustalone zostaną cele biznesowe możliwe do osiągnięcia w technologii hurtowni danych oraz osiągnie się zadowalającą zgodność podejścia biznesowego i informatycznego. Zbytni pośpiech w formułowaniu potrzeb biznesowych nie jest wskazany, gdyż koszt usuwania błędów tego etapu jest bardzo wysoki na etapie wdrażania hurtowni

Z reguły są to zadania koncepcyjne i analityczne wymagające dłuższego czasu, natomiast sama realizacja projektowo-programistyczna (polegająca na implementacji już ustalonych reguł ekstraktyzacji, czyszczenia, transformacji i ładowania danych wejściowych oraz utworzeniu predefiniowanych raportów i prezentacji graficznych) wspierana metodycznie i narzędziowo może być wykonana w kilkumiesięcznych terminach. Pracochłonne jest uzyskanie danych odpowiedniej jakości - czasem samo wykonanie operacji czyszczenia danych, pochodzących z wielu aplikacji, trwa od paru miesięcy do roku. Ponadto niektóre aplikacje (oparte na wykrywaniu trendów) mogą funkcjonować dopiero po nagromadzeniu odpowiednich danych historycznych (np. za okres 2 lat).

Dopiero po zbudowaniu wspomnianej wyżej infrastruktury możliwe są tematyczne “przyrosty” co “90 dni”, co określane jest jako strategia drobnych kroków (tzw. rapid development methodology) podporządkowana zasadzie “Think globally, act locally” (myśl globalnie działaj lokalnie).

Mit 90 dni coraz częściej zastępowany jest okresem 180 dni i zasadą “zadanie na 6 miesięcy dla nie więcej niż 6 osób projektujących. Krótkoterminowość dotyczy więc z reguły poszczególnych kroków, które można nazwac “przyrostami” hurtowni danych. W bankach istnieje zazwyczaj wiele (kilkadziesiąt) systemów transakcyjnych. Transformacja danych z tych systemów do hurtowni danych może trwać lata.

Mit kosztu “minimalnego"

Koszt minimalny jest inny dla dużego banku, a inny dla małego. W sytuacji kiedy 1 terabajt pamięci dyskowej kosztuje ok.1 ml dolarów wolumen danych rzutuje zasadniczo na koszt przedsięwzięcia. Jeśli liczyć nie tylko komputery do usadowienia hurtowni, licencje oprogramowania, koszty projektu i wykonania oprogramowania, lecz też okresy zaangażowania personelu banku, koszty konsultantów, wyjazdów konferencyjnych i szkoleniowych, minimalny koszt przedsięwzięcia początkowego (z wdrożeniem pierwszej aplikacji “hurtownianej” z bazą rzędu 100GB) wyniesie zapewne ok.1 ml dolarów. Koszt budowy rozszerzonej hurtowni danych może być bardzo różny i wynosi od kilku milionów do kilkudziesięciu milionów dolarów. Praktyka zachodnia wskazuje, że im wyższy koszt tym wyższe ryzyko, gdyż prawdopodobieństwo niepowodzenia dużego (i dłużej trwającego) projektu jest o wiele wyższe niż małego, ale w przypadku powodzenia duże przedsięwzięcie (obejmujące krytyczne obszary działalnosci firmy) przynosi z reguły większy zysk .

Na hurtownię danych nie musi być stać każdą firmę. Na zachodzie ocenia się, iż typowymi użytkownikami hurtowni danych są i będą firmy o dochodach 100 - 700 ml dolarów rocznie. W większości przypadków (ponad 60% obrotów na rynku hurtowni danych – [IDC-2 s.10]) decydują się one na rozwiązania globalne (enterprise wide) a nie fragmentaryczne (data-martowe).

W małych bankach (i wszędzie tam, gdzie nie docenia się potrzeby globalnych hurtowni danych) zapewne uprawiana będzie strategia “małych kroków” (np. tworzenie wielu podhurtowni typu datamart zlokalizowanych na niewielkich serwerach a nawet komputerach biurkowych), które niewiele kosztują z osobna ale w sumie kosztują dużo, a niekoniecznie prowadzą do końcowego sukcesu.

Mit budowy hurtowni własnymi siłami banku

Zakończone sukcesem przedsięwzięcia hurtowni danych realizowane były z reguły jako wspólne przedsięwzięcie konsorcjum składające się z :

  • firmy software’owej, dostarczającej oprogramowanie bazodanowe lub datamartowe oraz narzędzia typu ETL (Extraction Tranformation Loading), oprogramowanie repozytorium metadanych i odpowiedzialnej za integrację tego oprogramowania oraz “tuning” (ustawienie, skonfigurowanie) wydajnościowy,

  • firmy konsultingowej, zapewniającej metodologię budowy hurtowni, analizującej potrzeby biznesowe, podnoszącej kulturę biznesową i informacyjną, wspierającej tworzenie sponsoringu, wspomagającej dobór sprzętu i oprogramowania, umożliwiającej kontakty z bankami które już wdrażały hurtownie

  • własnego zespołu projektowego, obejmującego zarówno ludzi ze sfery biznesu jak i informatyki, zapewniającego nie tylko techniczną sprawność hurtowni, lecz również zdolnego do konwersji modelu biznesowego na model danych i algorytmy komputerowe.

Mit przedsięwzięcia z góry skazanego na niepowodzenie

Czasem spotyka się w kierownictwie firmy osoby z poglądem następującym: “Nie będziemy budować hurtowni danych, bo nigdzie się to przedsięwzięcie nie powiodło”. Jest to wyraz albo braku rzeczywistego przekonania do użyteczności tej technologii albo forma robienia uników przed odpowiedzialnością za przedsięwzięcie.

Fakty mówią same za siebie (zarówno o powodzeniach jak i ryzyku niepowodzenia). Wystarczy wziąć udział w konferencjach międzynarodowych poświęconych hurtowniom danych i wysłuchac wystąpień przedstawicieli banków. Ponadto warto zwrócić uwagę na nakłady ponoszone w świecie na hurtownie danych (w 1996 roku - 2.6 mld dolarów na oprogramowanie hurtowni i wydatki sprzętowe w wysokości 3,7 mld dolarów [IDC-2].

Okresy budowy hurtowni danych

Analogicznie do innych złożonych przedsięwzięć, intuicyjnie wyróżnić można w procesie budowy hurtowni danych następujące okresy:

  • okres “nieporozumień”
  • okres “dojrzewania”
  • okres działania decyzyjnego i przygotowawczego
  • okres twórczego działania: projektowania i budowy hurtowni danych
  • okres wdrażania
  • okres iteracyjnych modyfikacji i rozszerzania hurtowni danych

Pierwsze dwa etapy trwają zwykle 1-3 lata i w każdym konkretnym przypadku okres ten jest trudny do skrócenia, gdyż przebiega w “naturalnym” tempie właściwym dla danego środowiska bankowego. Środowisko to cechuje określony poziom kultury biznesowej i informacyjnej, a kultury nie można zmienić z dnia na dzień.

Okresy nieporozumień i dojrzewania poprzedzają pierwszą fazę budowy hurtowni, jaką jest okres działania decyzyjnego i przygotowawczego. Faza ta powinna doprowadzić do stanu gotowości banku do podjęcia przedsięwzięcia zwanego za granicą “warehousingiem”.

Gotowość ta wg Seana Kelly’ego [SE-1.2] mierzona jest następującymi dokonaniami:

  • wyłonieniem sponsora przedsięwzięcia

  • zdefiniowaniem biznesowych potrzeb (sił napędowych - business drivers) wymagających zastosowania technologii hurtowni danych

  • oceną środowiska danych (czyli źródeł zasilania hurtowni i jakości danych)

  • ustaleniem kierunków i kluczowych etapów budowy hurtowni danych (roadmap).

Do gotowości tej należy jeszcze dodać zabezpieczenie odpowiednich środkow inwestycyjnych na zakup sprzętu, oprogramowania bazodanowego, OLAPowego, narzędziowego oraz utrzymanie personelu.

  1. Okres “nieporozumień”

Okres “nieporozumień” jest typowy dla pierwszego okresu budowy hurtowni danych. Korzenie jego tkwią w konieczności zmiany sposobu myślenia zarówno kierownictwa, jak i analityków bankowych i informatyków, a w szczególności sposobu kojarzenia potrzeb biznesowych z potrzebami informacyjnymi oraz myślenia kategoriami wielowymiarowej analizy danych.

Chodzi tutaj przede wszystkim o oderwanie się od stałych raportów, wskaźników i stabilnych scenariuszy na rzecz zadawania takich pytań jak:

  • co się “może” zdarzyć ( w tym “najgorsze” i “najlepsze” zdarzenia) ?

  • kim są nasi klienci i co oddziaływuje na ich zachowanie ?

  • co robią i zrobią konkurenci oraz klienci ?

  • jak zmieni się struktura usług rynkowych i struktura klientów uwzględniając trendy demograficzne i restrukturalizację biznesu ( rozwój czy zanikanie małych firm, prognozy rozwoju gospodarczego rejonów i branż)

Konieczne jest zarówno zrozumienie potrzeb biznesowych jak i specyfiki hurtowni danych. O możliwości wykorzystania technologii hurtowni danych decyduje więc głęboka orientacja w mechanizmach rozwoju biznesu i wyczuwanie potrzeb informacyjnych nie pod układy personalne i aktualne struktury organizacyjne, ale pod zachodzące procesy i trendy biznesowe. Problemu nie da się rozwiązać wyłącznie poprzez zarządzenia i powoływanie zespołów problemowych, składających się często z przypadkowych (wolnych w danej chwili) ludzi..

Okres “nieporozumień” kończy się z chwilą przechodzenia z postawy odrzucania idei hurtowni danych (“brak czasu”, “ważniejsze są problemy bieżące”, “wystarczą nam ekstrakty z systemów transakcyjnych i raporty sprawozdawcze dla NBP”) do postawy uczenia się poprzez wizyty w bankach, seminaria prowadzone przez zewnętrzne firmy doradcze, prezentacje firm oferujących rozwiązania aplikacyjne i narzędzia olapowe itp.

2. okres “dojrzewania”

Hurtownia danych jest w rzeczy samej nie tylko jedną z aplikacji komputerowych, lecz infrastrukturą informacyjną w skali całej firmy, rzutującą często na warunki funkcjonowania każdej biznesowej komórki organizacyjnej.

Dojrzewanie rozpoczyna się z chwilą uświadomienia konieczności zbudowania takich fundamentów hurtowni danych jak:

  • Sprecyzowanie potrzeb biznesowych nadających się do obsługi w technologii hurtowni danych tzn. wymagających informacji przechowywanych w kilkuletniej perspektywie czasowej i wielowymiarowej analizy danych lub inteligentnej eksploracji typu “data-mining”

Oto przykładowe potrzeby: typowe koszyki produktowe klientów, ustalenie najlepszych (z punktu widzenia dochodowości banku) i najgorszych klientów, opracowanie kluczowych mierników oceny działalności, itp. Formułowanie potrzeb odbywa się zwykle w drodze wyodrębnienia etapu pracy zwanego “business discovery”. Potrzeby powinny być definiowane w sposób możliwie jasny i prosty

  • Zapewnienie danym źródłowym dobrej jakości, poprzez ulepszenie kontroli wprowadzania danych w systemach transakcyjnych i obudowanie ekstraktów algorytmami badania poprawności danych, nie dopuszczającymi do zaśmiecenia hurtowni. Zapewnienie odpowiedniej jakości danych wejściowych to czasem pon ad 50% pracochłonności wdrożenia hurtowni danych i jeden z najważniejszych czynników powodzenia przedsięwzięcia.

  • Wybranie problemu biznesowego odpowiedniego do pierwszego wdrożenia- niekoniecznie najważniejszego, ale takiego który ma duże szanse powodzenia i pokazania możliwości technologii hurtowni danych. Dla tego problemu powinny istnieć dane odpowiedniej jakosci, niewielki stopień złożoności ma umozliwić realizację w ciągu krótkiego okresu czasu (najlepiej w ciągu 3 miesięcy), zaś jego wdrożenie nie utrudni późniejszej konsolidacji danych w globalnej hurtowni. Czyli powinien to być temat względnie odosobniony o akceptowalnym koszcie realizacji przedsięwzięcia (w przypadku ewentualnego niepowodzenia nie wpłynie negatywnie na wyniki finansowe firmy).

  • Utworzenie centralnego repozytorium metadanych

Rozpoczęcie budowy centralnego repozytorium metadanych jest świadectwem doceniania ważności zadania porządkowania informacji w firmie, polegającego na inwentaryzacji danych istniejących w systemach transakcyjnych, ustaleniu jednego źródła (jednej “prawdy”) wiarygodnej informacji, zasad weryfikacji jakości i transformacji danych na etapie zasilania hurtowni danych, ustalenie harmonogramu migracji danych do hurtowni etc.

Okres dojrzewania kończy się z chwilą pojawienia się sponsora na szczeblu kierowniczym, umiejącego ocenić stopień dopasowania potrzeb biznesowych i informacyjnych, rozumie specyfikę przedsięwzięcia budowy hurtowni danych, potrafi nadać mu odpowiednią rangę w skali firmy i zapewnić odpowiednie srodki realizacji.

3. okres działania decyzyjnego i przygotowawczego

W okresie tym podejmowane są konkretne działania polegające na początku głównie na zabezpieczeniu zasobów finansowych na realizację przedsięwzięcia oraz przygotowanie zasobów wykonawczych, w tym powołanie (najlepiej samodzielnej) komórki organizacyjnej d/s hurtowni danych.

Następnie dokonywana jest ocena stanu zasobów informacyjnych oraz budowane są fundamenty wymienione w charakterystyce okresu dojrzewania. Trudnym, m.i. ze względu na różnorodność ofert przy braku obiektywnych ocen porównawczych, i ważnym zadaniem będzie również przetarg na dostawę sprzętu i oprogramowania oraz budowę hurtowni danych

4. okres twórczego działania: projektowanie i budowa hurtowni danych

Okres ten jest najważniejszy z punktu widzenia efektów końcowych. W przypadku budowy pierwszej aplikacji w zakresie hurtowni danych wskazane jest oparcie metodyczne i wykonawcze o konsultantów posiadających duże doświadczenie w budowie hurtowni danych o tej tematyce, którą bank wybrał na pierwsze wdrożenie (zwane “Right Start” lub “Fast Start”).

Do najważniejszych decyzji w tym zakresie należy wybór strategii budowy hurtowni danych: baz globalnych i data-martów (podhurtowni, minihurtowni, hurtowni tematycznych). Ograniczenie budowy hurtowni danych jedynie do data-martów może doprowadzić do ich niekontrolowanego rozrostu, znacznego dublowania danych i związanych z tym trudności aktualizacyjnych, nie mówiąc o utracie skonsolidowanego spojrzenia na całość zasobów informacyjnych banku. Całościowe ujęcie wymaga opracowania globalnej (zwykle wielowarstwowej) architektury hurtowni danych w skali banku oraz strategii jej przyrostowej realizacji.

5.okres wdrażania

Testem dojrzałości użytkowników hurtowni danych jest przejście na bezpośrednie korzystanie z zasobów informacyjnych hurtowni poprzez ich własne stacje robocze, a nie w trybie składania zapotrzebowań na raporty do sekcji informatyków czy też administratorów hurtowni danych. Formułowanie własnych zapytań zwykle następuje po pewnym okresie korzystania z gotowych (predefiniowanych) układów raportowania, które potem przestają wystarczać.

Nie należy zapominać o tym, że wdrożenie hurtowni danych polega nie tyle na jej jednorazowym załadowaniu, ile na zachowaniu staranności jej zasilania i utrzymywaniu na bieżąco repozytorium metadanych. Staranność polega na zapewnieniu danym dobrej jakości (w wyniku oczyszczania danych) i terminowej aktualizacji danymi zarówno z własnych systemów transakcyjnych jak i źródeł zewnętrznych. Do wykonywania tych czynności musi być zapewniony odpowiedni personel. Przykładowo, w CBA (Common Bank of Australia) na 1 administratora hurtowni danych przypada dwóch “ładowaczy” danych oraz trzech administratorów słowników danych (tak w tym banku nazywa się repozytorium metadanych).

6. czas refleksji i rozszerzania hurtowni danych

Budowa hurtowni danych nie jest zadaniem jednorazowym, lecz procesem trwającym lata, gdyż jako przedsięwzięcie integrujące dane i ukierunkowane na obsługę procesów decyzyjnych dotyczy infrastruktury całego banku i powinno być realizowane stopniowo, dając po każdym wdrożeniu czas na refleksję związaną z oceną tego co zrobiono i skorygowanie założeń ogólnych o zmiany jakie w międzyczasie zaszły w działalnosci biznesowej.

Przykładowo, jeśli rozpoczęto implementację hurtowni od stosunkowo prostego systemu wskaźników opartych na danych księgowych, to przyjdzie zapewne pora też na hurtownię marketingowo-klientowską ściśle związaną z systemem zarządzania relacjami z klientem (CRM), badanie dochodowości klientów i produktów, liczenie ryzyka rynku np. metodą kalkulacji wartości narażonej na ryzyko VaR, itp.

Stosownie do zwiększających się wolumenów danych powinna być rozbudowywana konfiguracja sprzętowa i software’owa. Nie kupujmy od razu na początku przysłowiowej “armaty na muchę”, lecz decydujmy się na rozwiązania skalowalne, czyli rozszerzalne zgodnie z potrzebami.