Big Data, Hadoop oraz MapReduce w języku Python
Opanuj budowanie MapReduce Jobs używając biblioteki MRJob oraz usługi Amazon Elastic MapReduce!
Stworzony przez Paweł Krakowiak
Najniższa cena z ostatnich 30 dni: 47.40zł
Masz pytania dotyczące tego szkolenia ?
Odkryj powiązane tematy
W cenie szkolenia otrzymasz
W skrócie
Dlaczego warto wybrać to szkolenie
Skupiamy się na sednie Big Data: paradygmacie MapReduce. Zamiast teorii, piszesz kod w Pythonie i budujesz kilkanaście Jobów, które krok po kroku przetwarzają duże zbiory danych.
Pracujesz na prawdziwych danych: ruch lotniczy nad USA i przejazdy nowojorskich taksówek. Uruchamiasz analizy na klastrze Hadoop w Amazon EMR, aby zobaczyć realne wyniki i ich interpretację.
- Praktyka od pierwszych minut – Piszesz MapReduce w Pythonie i od razu widzisz efekty.
- Realne zbiory danych – Loty w USA i taksówki NYC zamiast sztucznych przykładów.
- Hadoop w chmurze – Uruchamiasz Joby na klastrze Amazon EMR.
- Konkretne wyniki – Średni dystans lotów i najpopularniejszy punkt odbioru.
Czego się nauczysz?
- 1MapReduce w praktyceZrozumiesz paradygmat MapReduce i zastosujesz go w zadaniach analitycznych.
- 2Mapper i Reducer w PythonieNapiszesz komponenty przetwarzania w Pythonie, gotowe do uruchomienia jako MapReduce Joby.
- 3Uruchamianie Jobów na EMRPostawisz klaster Hadoop w Amazon EMR i uruchomisz na nim własne analizy.
- 4Analiza lotów w USAWyznaczysz średni dystans pokonywany przez połączenia lotnicze.
- 5Dane taksówek z Nowego JorkuOdnajdziesz najbardziej popularny punkt odbioru pasażerów w NYC.
- 6Planowanie zadań MapReducePodzielisz problem na kroki i zbudujesz kilkanaście niezależnych Jobów.
- 7Praca z klastrem HadoopPoznasz sposób uruchamiania klastra oraz sprawdzania wyników wykonanych Jobów.
- 8Wnioskowanie na podstawie wynikówPrzełożysz wyniki obliczeń na proste wnioski przydatne w analizie danych.
Dla kogo jest to szkolenie
- Python Developerzy, którzy chcą poznać Big Data i MapReduce w praktyce
- Data Scientist i ML Engineer, potrzebujący przetwarzania dużych zbiorów
- BI Analyst oraz Data Analyst pracujący na realnych danych
- Big Data Analyst oraz osoby aspirujące do tej ścieżki
- Deep Learning Engineer poszerzający zaplecze przetwarzania danych
- Osoby chcące przećwiczyć analizy lotów i przejazdów taksówek
- Uczący się Pythona chcący uruchamiać joby na klastrze Hadoop w EMR
- Każdy, kto woli konkretne projekty zamiast teorii bez przykładów
Wymagania
Brak sztywnych wymagań wstępnych. Kurs realizowany jest w języku Python i wykorzystuje uruchomienie klastra Hadoop w usłudze Amazon EMR.
Opis szkolenia
Umiejętność pracy z dużymi zbiorami danych to dziś cenna kompetencja. W tym kursie skupiasz się na paradygmacie MapReduce – podstawie analiz Big Data. Krok po kroku zbudujesz kilkanaście Jobów w Pythonie, dzięki którym przeanalizujesz ruch lotniczy nad USA oraz dane nowojorskich taksówek. Obliczysz m.in. średni dystans połączeń i wskażesz najpopularniejszy punkt odbioru. Do uruchamiania zadań postawisz klaster Hadoop w Amazon EMR.
MapReduce krok po kroku
Zaczynasz od zrozumienia, na czym polega dzielenie problemu na etapy przekształcania i agregacji, czyli Map i Reduce. Na prostych przykładach budujesz intuicję, a następnie przechodzisz do kodu w Pythonie. Tworzysz własne skrypty pełniące rolę mappera i reducera oraz łączysz je w kompletne Joby. Dzięki powtarzalnemu schematowi szybko zobaczysz, jak te same zasady stosować do różnych zadań. Każdy kolejny krok prowadzi do samodzielnego uruchamiania analiz i czytelnych wyników, które łatwo interpretować.
Analiza ruchu lotniczego w USA
Jednym z filarów kursu jest praca z danymi o ruchu lotniczym nad Stanami Zjednoczonymi. Twoim celem jest wyznaczenie średniego dystansu pokonywanego przez połączenia lotnicze. Projekt prowadzisz krokami MapReduce: przygotowujesz przekształcenia, które wyciągają z rekordów interesujące informacje, a następnie agregujesz je, aby otrzymać końcowy wynik. Zobaczysz, jak przejść od surowych danych do liczby, która ma znaczenie, oraz jak interpretować rezultat w kontekście całego zbioru.
Dane taksówek z Nowego Jorku
Drugi projekt dotyczy przejazdów taksówek w Nowym Jorku. Celem jest wskazanie najbardziej popularnego punktu odbioru pasażerów. Wykorzystując ten sam schemat pracy, przygotowujesz Joby, które zliczają wystąpienia poszczególnych lokalizacji, a następnie wybierają tę najczęściej pojawiającą się w danych. Dzięki temu ćwiczeniu utrwalisz sposób myślenia w MapReduce i zobaczysz, jak stosować identyczną logikę do zupełnie innego problemu, osiągając szybki i zrozumiały wynik.
Klaster Hadoop w Amazon EMR
Żeby uruchomić przygotowane analizy, postawisz klaster Hadoop w chmurze wykorzystując usługę Amazon EMR (Elastic MapReduce). Dzięki temu wykonasz swoje Joby na rzeczywistym środowisku i zobaczysz, jak wygląda praca z klastrem. Dowiesz się, jak przygotować środowisko do uruchamiania zadań oraz jak skierować skrypty w Pythonie do wykonania na klastrze, by otrzymać wyniki gotowe do interpretacji i dalszego wykorzystania.
Projektowe podejście i efekty
Kurs ma charakter projektowy. Krokami realizujesz kolejne zadania, wykorzystując MapReduce Joby. Dzięki pracy na danych o lotach i przejazdach taksówek przekuwasz teorię w konkret. Na finisz otrzymujesz namacalne rezultaty, takie jak średni dystans połączeń czy najbardziej popularny punkt odbioru. Jednocześnie utrwalasz schemat działania, który pozwala w podobny sposób podchodzić do innych pytań analitycznych.
To szkolenie w liczbach
Spis treści
O autorze
Ten kurs nie został jeszcze oceniony.
Przystąp do szkolenia i oceń go jako pierwszy!
Big Data: Analiza danych przy użyciu SQL oraz ...
88 wykładów
9 godz. 25 min
Wprowadzenie do data science w języku Python ...
87 wykładów
12 godz. 15 min
110+ Ćwiczeń - Python + SQL (sqlite3) - Bazy ...
33 wykładów
0 godz. 53 min
Twórz nowoczesne aplikacje webowe w Pythonie ...
76 wykładów
11 godz. 37 min
Deep Learning w języku Python - Konwolucyjne ...
71 wykładów
8 godz. 23 min
120+ Ćwiczeń w języku Python - Data Science - ...
31 wykładów
0 godz. 21 min
Machine Learning Bootcamp w języku Python cz. ...
91 wykładów
5 godz. 09 min
Machine Learning Bootcamp w języku Python cz. ...
109 wykładów
11 godz. 01 min
130+ Ćwiczeń w języku Python - Data Science - ...
33 wykładów
0 godz. 21 min
100+ Ćwiczeń - Zaawansowane programowanie w j ...
30 wykładów
0 godz. 34 min
Big Data: Analiza danych przy użyciu SQL oraz BigQuery
Analizuj dane rzędu GB czy TB w mgnieniu oka. Wykorzystaj przewagę rozwiązań chmurowych już dziś!
Czego się nauczysz?
- Czym jest chmura?
- Chmura Google - Google Cloud Platform
- Konfiguracja konta Google