REKLAMA

Chmura obliczeniowa w Pythonie

W pierwszej części artykułu przekonaliśmy się, jak Python sprawdza się w przetwarzaniu języka naturalnego i uczeniu maszynowym (ang. machine learning). Przekonaliśmy się, że Python świetnie sprawdza się w analizie i przetwarzaniu danych ze względu na prostotę języka i liczne dojrzałe biblioteki i narzędzia. Przy okazji „odczarowaliśmy” uczenie maszynowe i poznaliśmy podstawowe koncepcje i pomysły stojące za tą dziedziną sztucznej inteligencji.
Dzisiaj przyjrzymy się temu, jak Python skaluje się i co ma do zaoferowania w przetwarzaniu dużej ilości danych. Korzystając z darmowych instancji Amazon EC2 i biblioteki dask.distributed, stworzymy chmurę obliczeniową składającą się z dziewięciu węzłów. Przeanalizujemy wszystkie zdarzenia, jakie miały miejsce na GitHubie w ciągu jednego tygodnia. Wystarczy nam tylko 80 sekund, aby nasz klaster pobrał i przeanalizował 20 GB danych!

Zagadnienia poruszane w tym artykule:

  • Jak działa chmura obliczeniowa?
  • Konfiguracja lokalnej maszyny
  • Chmura na jednej maszynie?
  • Tworzenie chmury na Amazon EC2
  • Założenie konta na Amazon Web Services
  • Uwierzytelnienie
  • Tworzenie instancji Amazon EC2
  • Łączenie z chmurą na Amazon EC2
  • Zarządzanie chmurą
  • Wykonanie kodu na każdym węźle
  • Restartowanie chmury
  • Wczytanie danych
  • Format danych
  • Wygenerowanie adresów URL
  • Pobranie i wczytanie danych
  • Przetwarzanie danych
  • Liczba rekordów
  • Rozmiar danych skompresowanych
  • Rozmiar danych nieskompresowanych
  • Przykładowy rekord
  • Agregacja danych
  • Najczęściej wydawane projekty
  • Debugowanie chmury
  • Zamykanie chmury

Artykuł pochodzi z miesięcznika "Programista" nr 60 (05/2017). Jest to wydanie z przełomu czerwca i lipca. Szczegółowy spis treści: http://programistamag.pl/programista-5-2017-60/

Autorem artykułu jest Krzysztof Mędrela. Programista i konsultant specjalizujący się przede wszystkim w aplikacjach webowych tworzonych w Django (Python). Trener w firmie Bottega IT Minds i InfoTraining. Działa w lokalnej społeczności Pythona w Krakowie (Pykonik). Prowadzi bloga pod adresem http://medrela.com.