W pierwszej części artykułu przekonaliśmy się, jak Python sprawdza się w przetwarzaniu języka naturalnego i uczeniu maszynowym (ang. machine learning). Przekonaliśmy się, że Python świetnie sprawdza się w analizie i przetwarzaniu danych ze względu na prostotę języka i liczne dojrzałe biblioteki i narzędzia. Przy okazji „odczarowaliśmy” uczenie maszynowe i poznaliśmy podstawowe koncepcje i pomysły stojące za tą dziedziną sztucznej inteligencji.
Dzisiaj przyjrzymy się temu, jak Python skaluje się i co ma do zaoferowania w przetwarzaniu dużej ilości danych. Korzystając z darmowych instancji Amazon EC2 i biblioteki dask.distributed, stworzymy chmurę obliczeniową składającą się z dziewięciu węzłów. Przeanalizujemy wszystkie zdarzenia, jakie miały miejsce na GitHubie w ciągu jednego tygodnia. Wystarczy nam tylko 80 sekund, aby nasz klaster pobrał i przeanalizował 20 GB danych!
Zagadnienia poruszane w tym artykule:
Artykuł pochodzi z miesięcznika "Programista" nr 60 (05/2017). Jest to wydanie z przełomu czerwca i lipca. Szczegółowy spis treści: http://programistamag.pl/programista-5-2017-60/
Autorem artykułu jest Krzysztof Mędrela. Programista i konsultant specjalizujący się przede wszystkim w aplikacjach webowych tworzonych w Django (Python). Trener w firmie Bottega IT Minds i InfoTraining. Działa w lokalnej społeczności Pythona w Krakowie (Pykonik). Prowadzi bloga pod adresem http://medrela.com.