Praca z danymi w Apache Spark 3 marca
W zawodowej pracy często na naszej drodze stają dane. Nie możemy przejść obok nich obojętnie, więc najlepszym wyjściem jest nauczyć się z nimi pracować. Jednak tylko najwięksi szczęściarze dostają idealnie uporządkowane dane w gotowej tabeli. Co zrobić, jeśli mamy pecha i musimy zmieszać informacje pochodzące z MongoDB, MySQLa, a nawet plików tekstowych? Być może powinniśmy skorzystać z Apache Sparka - chętnie wykorzystywanego narzędzia do pracy z big data. Podczas prezentacji opowiem o jego możliwościach, zasadach działania, a także o sytuacjach, w których nie warto go użyć. Przedstawię sposób konfiguracji gotowej aplikacji oraz pułapki czyhające w zakamarkach pipeline’ów przetwarzania danych. Postaram się również odpowiedzieć na pytanie, czy wykorzystanie Sparka do pracy z danymi niewielkich rozmiarów jest legalne :)
– w Allegro pracuje w backendzie, chociaż lubi zapuszczać się w czeluści Big Data i frontendu. Poznaje głębiny systemów finansowych i oznaczeń na ofertach, a poza tym jest fanem biegów z przeszkodami.