Opanuj budowanie MapReduce Jobs używając biblioteki MRJob oraz usługi Amazon Elastic MapReduce!
Stworzony przez Paweł Krakowiak
Masz pytania dotyczące tego szkolenia ?
Skupiamy się na sednie Big Data: paradygmacie MapReduce. Zamiast teorii, piszesz kod w Pythonie i budujesz kilkanaście Jobów, które krok po kroku przetwarzają duże zbiory danych.
Pracujesz na prawdziwych danych: ruch lotniczy nad USA i przejazdy nowojorskich taksówek. Uruchamiasz analizy na klastrze Hadoop w Amazon EMR, aby zobaczyć realne wyniki i ich interpretację.
Brak sztywnych wymagań wstępnych. Kurs realizowany jest w języku Python i wykorzystuje uruchomienie klastra Hadoop w usłudze Amazon EMR.
Umiejętność pracy z dużymi zbiorami danych to dziś cenna kompetencja. W tym kursie skupiasz się na paradygmacie MapReduce – podstawie analiz Big Data. Krok po kroku zbudujesz kilkanaście Jobów w Pythonie, dzięki którym przeanalizujesz ruch lotniczy nad USA oraz dane nowojorskich taksówek. Obliczysz m.in. średni dystans połączeń i wskażesz najpopularniejszy punkt odbioru. Do uruchamiania zadań postawisz klaster Hadoop w Amazon EMR.
Zaczynasz od zrozumienia, na czym polega dzielenie problemu na etapy przekształcania i agregacji, czyli Map i Reduce. Na prostych przykładach budujesz intuicję, a następnie przechodzisz do kodu w Pythonie. Tworzysz własne skrypty pełniące rolę mappera i reducera oraz łączysz je w kompletne Joby. Dzięki powtarzalnemu schematowi szybko zobaczysz, jak te same zasady stosować do różnych zadań. Każdy kolejny krok prowadzi do samodzielnego uruchamiania analiz i czytelnych wyników, które łatwo interpretować.
Jednym z filarów kursu jest praca z danymi o ruchu lotniczym nad Stanami Zjednoczonymi. Twoim celem jest wyznaczenie średniego dystansu pokonywanego przez połączenia lotnicze. Projekt prowadzisz krokami MapReduce: przygotowujesz przekształcenia, które wyciągają z rekordów interesujące informacje, a następnie agregujesz je, aby otrzymać końcowy wynik. Zobaczysz, jak przejść od surowych danych do liczby, która ma znaczenie, oraz jak interpretować rezultat w kontekście całego zbioru.
Drugi projekt dotyczy przejazdów taksówek w Nowym Jorku. Celem jest wskazanie najbardziej popularnego punktu odbioru pasażerów. Wykorzystując ten sam schemat pracy, przygotowujesz Joby, które zliczają wystąpienia poszczególnych lokalizacji, a następnie wybierają tę najczęściej pojawiającą się w danych. Dzięki temu ćwiczeniu utrwalisz sposób myślenia w MapReduce i zobaczysz, jak stosować identyczną logikę do zupełnie innego problemu, osiągając szybki i zrozumiały wynik.
Żeby uruchomić przygotowane analizy, postawisz klaster Hadoop w chmurze wykorzystując usługę Amazon EMR (Elastic MapReduce). Dzięki temu wykonasz swoje Joby na rzeczywistym środowisku i zobaczysz, jak wygląda praca z klastrem. Dowiesz się, jak przygotować środowisko do uruchamiania zadań oraz jak skierować skrypty w Pythonie do wykonania na klastrze, by otrzymać wyniki gotowe do interpretacji i dalszego wykorzystania.
Kurs ma charakter projektowy. Krokami realizujesz kolejne zadania, wykorzystując MapReduce Joby. Dzięki pracy na danych o lotach i przejazdach taksówek przekuwasz teorię w konkret. Na finisz otrzymujesz namacalne rezultaty, takie jak średni dystans połączeń czy najbardziej popularny punkt odbioru. Jednocześnie utrwalasz schemat działania, który pozwala w podobny sposób podchodzić do innych pytań analitycznych.