14. spotkanie Data Community Trójmiasto

2018-09-26 Łukasz Terlecki News, Spotkania, Trójmiasto

Zapraszamy na kolejne spotkanie Data Community – Trójmiasto.

UWAGA, zmieniło się miejsce spotkań. Sponsorem sali jest firma High Wheel Software.

Wymagana darmowa rejestracja na Meetup

KIEDY

Ze względu na chorobę prelegentów jesteśmy zmuszeni przełożyć spotkanie na 23.10. Przepraszamy za informację w ostatniej chwili.

AGENDA

17:45 – 18:00 Rozpoczęcie spotkania, sprawy organizacyjne

18:00 – 18:50 Natalia Reszka – Data Mining Best Practices

18:50 – 19:00 Networking,

19:00 – 19:50 Bartosz Szymula, Maciej Górski – RCD – czyli, co zrobić z rozpędzonym SCD.

20:00 Zakończenie

ABSTRAKTY

Data Mining Best Practices

W wystąpieniu przedstawiony zostanie zestaw dobrych praktyk zarządzania procesem modelowania w firmie, gdzie wymagana jest ścisła współpraca analityka danych z biznesem. Zestaw ten okazuje się być użytecznym narzędziem w pracy analityka, nie tylko zgodnym ze światowymi standardami, ale też możliwym do wprowadzenia w korporacyjnej rzeczywistości. Główne filary DMBP to : prototypowanie, CRISP-DM oraz monitoring powdrożeniowy modelu. Wykorzystując te zasady analityk dostarcza szybki sukces, unika typowych błędów i oszczędza czas na pytania typu „co dalej?”.

Natalia Reszka

Absolwentka informatyki i ekonometrii oraz socjologii na Uniwersytecie Gdańskim. Od 3 lat analityk danych w firmie windykacyjnej BEST, gdzie zajmuje się optymalizacją strategii w oparciu o techniki data mining i uczenia maszynowego. Wcześniej związana z sopocką firmą badawczą PBS, gdzie tworzyła rozwiązania analityczne dla branży telekomunikacyjnej, energetycznej i finansowej.

RCD – czyli, co zrobić z rozpędzonym SCD.

O wymiarze RCD (Rapidly Changing Dimensions) możemy mówić jeżeli dla jednego lub więcej atrybutów zachodzi dużo, szybkich zmian w wielu wierszach. Przy takim scenariuszu, zapewnienie SCD typu 2 może być już niewystarczające.
Obsługa wymiarów RCD staję się bardzo często niemałym problemem przy tworzeniu hurtowni danych. Jest to głównie związane z zapewnieniem wydajnego mechanizmu po stronie procesu ETL oraz dobrze zaprojektowanych wymiarów, które będą przechowywały bardzo dużą ilość danych.
Na spotkaniu zaprezentujemy podstawowe typy mechanizmów odpowiedzialnych za wyłapanie zmian w danych po stronie systemu źródłowego oraz zaproponujemy strukturę wymiaru po stronie hurtowni/kostki, który pozwoli na wydajne wykorzystanie zarchwizowanych informacji.

Bartosz Szymula i Maciej Górski

Od 7 lat developerzy i architekci systemów Business Inteligence opartych głównie na Microsoft SQL Server.
Prowadzili, bądź uczestniczyli w dedykowanych projektach przeznaczony głównie dla dużych i średnich firm.
Obecnie, w ramach pracy w High Wheel Software, nadzorują i konsultują działania związne z globalnym przepływem danych dla jednego z największych koncernów medycznych na świecie.