Wierzymy, że doświadczenie i pasja są podstawą sukcesu. Doceniają to nasi klienci, partnerzy i pracownicy. To właśnie sprawiło, że w ciągu 20 lat staliśmy się wiodącym dystrybutorem elementów i komponentów pneumatyki siłowej.
Dołączając do naszego zespołu będziesz mieć okazję pracować przy projekcie hurtowni danych w dużej skali i realnie wpływać na architekturę oraz dobór narzędzi. Cenimy swobodę technologiczną, a przy tym stawiamy na efektywność i jakość.
Jeśli podzielasz naszą filozofię i chcesz rozwijać się w ambitnych projektach data, zachęcamy do aplikowania.
Będziesz je realizował po etapie wdrożenia.
Projektowanie i implementacja procesów ETL/ELT na danych produktowych i operacyjnych z różnych źródeł (ERP, API, scraping).
Budowa i rozwój hurtowni danych opartej na PostgreSQL oraz rozszerzanie architektury o narzędzia big data (np. Spark, Dask).
Modelowanie danych i projektowanie procesów z myślą o dużej skali (miliony rekordów).
Harmonogramowanie i automatyzacja procesów przy użyciu orkiestratorów (Airflow, Prefect, Luigi).
Integracja danych z systemem Subiekt oraz innymi źródłami (REST API, SOAP, XML/CSV).
Scraping i masowe pozyskiwanie danych z wielu źródeł zewnętrznych z uwzględnieniem anti-bot detection, proxy, kolejkowania.
Przygotowanie i wzbogacanie danych pod kątem zastosowań AI i NLP (czyszczenie tekstu, tokenizacja, embeddingi, wektorowe bazy danych).
Współpraca z zespołem data w zakresie dostarczania danych i wspierania projektów AI/ML.Optymalizacja zapytań SQL i procesów ETL (partycjonowanie, indeksowanie, sharding, materializowane widoki).
Wdrożenie monitoringu i kontroli jakości danych (Great Expectations, dbt tests, Soda).
Dokumentowanie architektury danych i procesów.
Mile widziane doświadczenie z narzędziami BI (Metabase, Tableau, Power BI) oraz w pracy z danymi tekstowymi i NLP (spaCy, HuggingFace).
Mile widziana znajomość Pythona (integracje API, NLP, data wrangling), hurtowni w chmurze (BigQuery, Redshift, Snowflake), narzędzi integracyjnych (Airbyte, Fivetran, Singer) oraz zasad DataOps ((testy danych, versioning datasetów, CI/CD dla ETL).
Możesz pracować w rozwijającej się firmie, jeśli ten profil pasuje do Ciebie
Bardzo dobra znajomość SQL (PostgreSQL, T-SQL).
Doświadczenie w projektowaniu i utrzymywaniu procesów ETL/ELT.
Praktyczne doświadczenie w pracy z PostgreSQL jako hurtownią danych.
Znajomość i doświadczenie z dbt (Data Build Tool).
Umiejętność pracy z danymi przyrostowymi i modelami incremental.
Doświadczenie z Apache Airflow lub innym orkiestratorem ETL.
Doświadczenie w pracy z GIT i repozytoriami kodu (CI/CD).
Doświadczenie w przetwarzaniu danych pod kątem AI, NLP, embeddingów i wektorowych baz danych (pgvector, Pinecone, FAISS).
Znajomość struktury danych systemów ERP.
Doświadczenie w scrapingu i masowym pobieraniu danych (Scrapy, Playwright, Selenium, API).
Umiejętność pracy z narzędziami do przetwarzania dużych zbiorów danych (Spark, Dask, PySpark, Hadoop).
Znajomość konteneryzacji i orkiestracji (Docker, Kubernetes).
Praktyka w zakresie monitoringu danych i pipeline’ów (Prometheus, Grafana, logging/alerting).
Samodzielność i odpowiedzialność za procesy danych end-to-end.
Umiejętność dokumentowania pipeline’ów danych i modeli.
To tylko kilka najważniejszych informacji. Inne będą miłą niespodzianką.
ciekawa praca w firmie o ugruntowanej pozycji
udział w budowaniu rozwijającej się marki cieszącej się uznaniem klientów
możliwość rozwoju, zdobycia doświadczenia oraz szerokiej wiedzy
duża samodzielność, otwartość na kreatywne pomysły
konkurencyjne wynagrodzenie, adekwatne do doświadczenia
stabilne zatrudnienie w oparciu o umowę o pracę, niezbędne narzędzia
przyjazna atmosfera pracy w zespole pasjonatów