Zapraszamy na kolejne spotkanie Data Community – Trójmiasto.
UWAGA, zmieniło się miejsce spotkań. Sponsorem sali jest firma High Wheel Software.
Wymagana darmowa rejestracja na Meetup
KIEDY
Ze względu na chorobę prelegentów jesteśmy zmuszeni przełożyć spotkanie na 23.10. Przepraszamy za informację w ostatniej chwili.
AGENDA
17:45 – 18:00 Rozpoczęcie spotkania, sprawy organizacyjne
18:00 – 18:50 Natalia Reszka – Data Mining Best Practices
18:50 – 19:00 Networking,
19:00 – 19:50 Bartosz Szymula, Maciej Górski – RCD – czyli, co zrobić z rozpędzonym SCD.
20:00 Zakończenie
ABSTRAKTY
Data Mining Best Practices
W wystąpieniu przedstawiony zostanie zestaw dobrych praktyk zarządzania procesem modelowania w firmie, gdzie wymagana jest ścisła współpraca analityka danych z biznesem. Zestaw ten okazuje się być użytecznym narzędziem w pracy analityka, nie tylko zgodnym ze światowymi standardami, ale też możliwym do wprowadzenia w korporacyjnej rzeczywistości. Główne filary DMBP to : prototypowanie, CRISP-DM oraz monitoring powdrożeniowy modelu. Wykorzystując te zasady analityk dostarcza szybki sukces, unika typowych błędów i oszczędza czas na pytania typu „co dalej?”.
Natalia Reszka
Absolwentka informatyki i ekonometrii oraz socjologii na Uniwersytecie Gdańskim. Od 3 lat analityk danych w firmie windykacyjnej BEST, gdzie zajmuje się optymalizacją strategii w oparciu o techniki data mining i uczenia maszynowego. Wcześniej związana z sopocką firmą badawczą PBS, gdzie tworzyła rozwiązania analityczne dla branży telekomunikacyjnej, energetycznej i finansowej.
RCD – czyli, co zrobić z rozpędzonym SCD.
O wymiarze RCD (Rapidly Changing Dimensions) możemy mówić jeżeli dla jednego lub więcej atrybutów zachodzi dużo, szybkich zmian w wielu wierszach. Przy takim scenariuszu, zapewnienie SCD typu 2 może być już niewystarczające.
Obsługa wymiarów RCD staję się bardzo często niemałym problemem przy tworzeniu hurtowni danych. Jest to głównie związane z zapewnieniem wydajnego mechanizmu po stronie procesu ETL oraz dobrze zaprojektowanych wymiarów, które będą przechowywały bardzo dużą ilość danych.
Na spotkaniu zaprezentujemy podstawowe typy mechanizmów odpowiedzialnych za wyłapanie zmian w danych po stronie systemu źródłowego oraz zaproponujemy strukturę wymiaru po stronie hurtowni/kostki, który pozwoli na wydajne wykorzystanie zarchwizowanych informacji.
Bartosz Szymula i Maciej Górski
Od 7 lat developerzy i architekci systemów Business Inteligence opartych głównie na Microsoft SQL Server.
Prowadzili, bądź uczestniczyli w dedykowanych projektach przeznaczony głównie dla dużych i średnich firm.
Obecnie, w ramach pracy w High Wheel Software, nadzorują i konsultują działania związne z globalnym przepływem danych dla jednego z największych koncernów medycznych na świecie.