Logo
Zostań autorem

Koszyk jest pusty

0

Kategorie

  • Chcesz się dzielić wiedzą?

Zaloguj się

Nie pamiętasz hasła? Kliknij tutaj

Big Data, Hadoop oraz MapReduce w języku Python

Opanuj budowanie MapReduce Jobs używając biblioteki MRJob oraz usługi Amazon Elastic MapReduce!

5.0(1)
99% pozytywnych recenzji

Stworzony przez Paweł Krakowiak

Ostatnia aktualizacja: 02/01/2025
79
00
Ikona kalendarza30 dni gwarancji zwrotu pieniędzy
Ikona zegaraRozpocznij teraz za darmo, zapłać do 30 dni
Flaga PolskiPolska obsługa i faktura

Masz pytania dotyczące tego szkolenia ?

questionZadaj pytanie autorowi

W cenie szkolenia otrzymasz

calendar_clockBezterminowy dostęp
licenseCertyfikat ukończenia
currency_exchange30 dni gwarancji zwrotu
headset_micWsparcie autora
forumDostęp do grupy dyskusyjnej
database_uploadRegularne aktualizacje
acute 7 godz. 44 min. materiału
play_circle62 nagrania wideo
animated_images16 slajdów
checklist3 testy i ćwiczenia

W skrócie

Poznasz paradygmat MapReduce i zastosujesz go w Pythonie.
Postawisz klaster Hadoop na Amazon EMR i uruchomisz joby.
Przeanalizujesz ruch lotniczy w USA oraz dane taksówek z Nowego Jorku.
Obliczysz średni dystans lotów i wskażesz najpopularniejszy punkt odbioru.

Dlaczego warto wybrać to szkolenie

Skupiamy się na sednie Big Data: paradygmacie MapReduce. Zamiast teorii, piszesz kod w Pythonie i budujesz kilkanaście Jobów, które krok po kroku przetwarzają duże zbiory danych.

Pracujesz na prawdziwych danych: ruch lotniczy nad USA i przejazdy nowojorskich taksówek. Uruchamiasz analizy na klastrze Hadoop w Amazon EMR, aby zobaczyć realne wyniki i ich interpretację.

  • Praktyka od pierwszych minut – Piszesz MapReduce w Pythonie i od razu widzisz efekty.
  • Realne zbiory danych – Loty w USA i taksówki NYC zamiast sztucznych przykładów.
  • Hadoop w chmurze – Uruchamiasz Joby na klastrze Amazon EMR.
  • Konkretne wyniki – Średni dystans lotów i najpopularniejszy punkt odbioru.

Czego się nauczysz?

  1. 1
    MapReduce w praktyceZrozumiesz paradygmat MapReduce i zastosujesz go w zadaniach analitycznych.
  2. 2
    Mapper i Reducer w PythonieNapiszesz komponenty przetwarzania w Pythonie, gotowe do uruchomienia jako MapReduce Joby.
  3. 3
    Uruchamianie Jobów na EMRPostawisz klaster Hadoop w Amazon EMR i uruchomisz na nim własne analizy.
  4. 4
    Analiza lotów w USAWyznaczysz średni dystans pokonywany przez połączenia lotnicze.
  5. 5
    Dane taksówek z Nowego JorkuOdnajdziesz najbardziej popularny punkt odbioru pasażerów w NYC.
  6. 6
    Planowanie zadań MapReducePodzielisz problem na kroki i zbudujesz kilkanaście niezależnych Jobów.
  7. 7
    Praca z klastrem HadoopPoznasz sposób uruchamiania klastra oraz sprawdzania wyników wykonanych Jobów.
  8. 8
    Wnioskowanie na podstawie wynikówPrzełożysz wyniki obliczeń na proste wnioski przydatne w analizie danych.
Zobacz więcej Zobacz mniej

Dla kogo jest to szkolenie

  • Python Developerzy, którzy chcą poznać Big Data i MapReduce w praktyce
  • Data Scientist i ML Engineer, potrzebujący przetwarzania dużych zbiorów
  • BI Analyst oraz Data Analyst pracujący na realnych danych
  • Big Data Analyst oraz osoby aspirujące do tej ścieżki
  • Deep Learning Engineer poszerzający zaplecze przetwarzania danych
  • Osoby chcące przećwiczyć analizy lotów i przejazdów taksówek
  • Uczący się Pythona chcący uruchamiać joby na klastrze Hadoop w EMR
  • Każdy, kto woli konkretne projekty zamiast teorii bez przykładów

Wymagania

Brak sztywnych wymagań wstępnych. Kurs realizowany jest w języku Python i wykorzystuje uruchomienie klastra Hadoop w usłudze Amazon EMR.

Opis szkolenia

Umiejętność pracy z dużymi zbiorami danych to dziś cenna kompetencja. W tym kursie skupiasz się na paradygmacie MapReduce – podstawie analiz Big Data. Krok po kroku zbudujesz kilkanaście Jobów w Pythonie, dzięki którym przeanalizujesz ruch lotniczy nad USA oraz dane nowojorskich taksówek. Obliczysz m.in. średni dystans połączeń i wskażesz najpopularniejszy punkt odbioru. Do uruchamiania zadań postawisz klaster Hadoop w Amazon EMR.

MapReduce krok po kroku

Zaczynasz od zrozumienia, na czym polega dzielenie problemu na etapy przekształcania i agregacji, czyli Map i Reduce. Na prostych przykładach budujesz intuicję, a następnie przechodzisz do kodu w Pythonie. Tworzysz własne skrypty pełniące rolę mappera i reducera oraz łączysz je w kompletne Joby. Dzięki powtarzalnemu schematowi szybko zobaczysz, jak te same zasady stosować do różnych zadań. Każdy kolejny krok prowadzi do samodzielnego uruchamiania analiz i czytelnych wyników, które łatwo interpretować.

Analiza ruchu lotniczego w USA

Jednym z filarów kursu jest praca z danymi o ruchu lotniczym nad Stanami Zjednoczonymi. Twoim celem jest wyznaczenie średniego dystansu pokonywanego przez połączenia lotnicze. Projekt prowadzisz krokami MapReduce: przygotowujesz przekształcenia, które wyciągają z rekordów interesujące informacje, a następnie agregujesz je, aby otrzymać końcowy wynik. Zobaczysz, jak przejść od surowych danych do liczby, która ma znaczenie, oraz jak interpretować rezultat w kontekście całego zbioru.

Dane taksówek z Nowego Jorku

Drugi projekt dotyczy przejazdów taksówek w Nowym Jorku. Celem jest wskazanie najbardziej popularnego punktu odbioru pasażerów. Wykorzystując ten sam schemat pracy, przygotowujesz Joby, które zliczają wystąpienia poszczególnych lokalizacji, a następnie wybierają tę najczęściej pojawiającą się w danych. Dzięki temu ćwiczeniu utrwalisz sposób myślenia w MapReduce i zobaczysz, jak stosować identyczną logikę do zupełnie innego problemu, osiągając szybki i zrozumiały wynik.

Klaster Hadoop w Amazon EMR

Żeby uruchomić przygotowane analizy, postawisz klaster Hadoop w chmurze wykorzystując usługę Amazon EMR (Elastic MapReduce). Dzięki temu wykonasz swoje Joby na rzeczywistym środowisku i zobaczysz, jak wygląda praca z klastrem. Dowiesz się, jak przygotować środowisko do uruchamiania zadań oraz jak skierować skrypty w Pythonie do wykonania na klastrze, by otrzymać wyniki gotowe do interpretacji i dalszego wykorzystania.

Projektowe podejście i efekty

Kurs ma charakter projektowy. Krokami realizujesz kolejne zadania, wykorzystując MapReduce Joby. Dzięki pracy na danych o lotach i przejazdach taksówek przekuwasz teorię w konkret. Na finisz otrzymujesz namacalne rezultaty, takie jak średni dystans połączeń czy najbardziej popularny punkt odbioru. Jednocześnie utrwalasz schemat działania, który pozwala w podobny sposób podchodzić do innych pytań analitycznych.

Zobacz więcej Zobacz mniej

To szkolenie w liczbach

7 godz. 44 min. materiału
62 nagrania wideo
16 slajdów
3 testy i ćwiczenia

Spis treści

Czas trwania: 07:44:26Liczba wykładów: 79
downWprowadzenie do Big Data
5 wykładów
  • Wprowadzenie do Big Data|03:49
  • WymaganiaSlajdy: 1
  • Big Data - początki i historia04:14
  • The 5 V's of Big Data04:06
  • Big Data - przykłady zastosowań11:22
downEkosystem Big Data
5 wykładów
downHDFS - Hadoop Distributed File System
4 wykłady
downMapReduce
4 wykłady
downPrzygotowanie środowiska
4 wykłady
downMapReduce w języku Python - mrjob
7 wykładów
downMapReduce w języku Python - Iliada
4 wykłady
downMapReduce: Map + Combine + Reduce
3 wykłady
downMapReduce w języku Python - Airplane dataset
16 wykładów
downMapReduce w języku Python - Taxi dataset
6 wykładów
downHadoop w chmurze AWS - usługa EMR (Elastic MapReduce)
7 wykładów
downMapReduce w języku Python - Taxi dataset c.d.
5 wykładów
downMapReduce w języku Python - Food reviews dataset
9 wykładów

O autorze

avatar
Paweł KrakowiakData Scientist / Securities Broker

Publikacje: 31

Ocena autora: 4.8

O mnie
Data Scientist, Securities Broker Miłośnik nowych technologii, szczególnie w obszarze sztucznej inteligencji, big data oraz rozwiązań chmurowych. Absolwent podyplomowych studiów ...Czytaj więcej
5.0
100 %
0 %
0 %
0 %
0 %
79
00