Microsoft Fabric: Staňte se datovým analytikem za jeden den
Titulek článku je možná trochu clickbait, ale během kurzu s názvem „Data Analyst in a Day“, který vedl Štěpán Rešl z DataBrothers, jsme se seznámili s dnes klíčovou platformou Microsoft Fabric a jejich praktickým využitím. Tento článek přináší shrnutí a vysvětlení hlavních aspektů platformy Microsoft Fabric pro ty, kteří mají technický background a baví je data, jen se s touto platformou se dosud nesetkali. Včetně insightů zmíněné v kurzu.
Analytika dnes s Microsoft Fabric
Microsoft Fabric nabízí jedno centralizované řešení, které zahrnuje tyto komponenty:
- OneLake: Centrální úložiště dat, které podporuje formát Parquet pro efektivní kompresi a sjednocení formátů dat.
- Data Factory: Online platforma pro integraci dat, která kombinuje funkce Power Query. Data Factory obsahuje komponentu Data Pipeline, která využívá M jazyk pro transformaci dat.
- Data Engineering: Tato část využívá platformu Spark pro transformaci dat. Klíčové komponenty zahrnují Notebooky a Dataflows, které umožňují low-code transformaci dat.
- Data Warehouse: SQL úložiště pro strukturovaná data, která podporuje rozsáhlé dotazy a analytiku.
- Data Science: Modul pro vytváření a nasazení machine learning modelů.
- Real-Time Analytics: Analytický nástroj využívající KQL (Kusto Query Language), který kombinuje prvky SQL a PowerShellu pro real-time data analýzu.
- Power BI: Oblíbený nástroj pro vizualizaci dat, který je integrován do Microsoft Fabric pro tvorbu interaktivních reportů a dashboardů.
- Data Activator: No-code nástroj pro automatizaci akcí na základě datových událostí.
Microsoft Fabric rodinka se všemi službami na jednom místě, barvy dokonce mají svůj význam.
Klíčové koncepty, které je dobré znát
- Parquet formát: Tento formát umožňuje efektivní kompresi a sjednocení formátování dat, což zvyšuje výkon a snižuje nároky na úložný prostor.
- Shortcuts: Zkratky zajišťují, aby nedocházelo k duplikaci dat, což šetří úložný prostor a zvyšuje efektivitu. Dobrý hack, jak ušetřit peníz.
- Workspaces a domény: Umožňují organizaci dat podle oddělení či projektů (např. marketing, sales,…), což zlepšuje správu a přístup k datům.
Pokud by vás zajímaly rozdíly mezi .parquet, .json nebo .csv tak, jako mě, zde jsem dohledal krásné srovnání datových formátů.
Hlavní výhodou Parquet v MS Fabric je ta, že formátování jsou standardizované pro všechny tabulky v úložišti.
Praktická ukázka z workshopu: Case study – Fabrikam company
Na workshopu jsme se seznámili s konkrétním případem fiktivního zákazníka Fabrikam, který využívá Microsoft Fabric pro integraci čtyř různých datových zdrojů: Snowflake, SharePoint a MS Azure Data Lake Storage (Gen2).
Postup z workshopu:
- Power BI Desktop: Integrace různých datových zdrojů a jejich příprava pro Power BI vizualizaci dat.
- Microsoft Fabric workspace: Vytvořili jsme si nový workspace, který se propisuje do všech komponent platformy, více v dalších krocích.
- OneLake: Naklikali jsme si ve workspace data lake, který zahrnuje semantický model pro BI a případnou SQL analytiku.
- Dataflow: Pro ADLS gen2, definovali jsme si dotazy v Power Query. Nastavení destinace dat do OneLake.
- Data Pipeline: Abychom neaktualizovali data manuálně, nastavil se pravidelný refresh dat.
- Data Factory: V neposlední řadě integrace SQL modelů do konečného řešení.
Tipy z praxe:
- Pojmenování zdrojů: Používat pojmenování jako je "lh" pro Lake House a "df" pro Dataflow (např. df_Sales, lh_Name).
- Staging: Vypnutí stagingu může ušetřit náklady a je vhodné ho vypínat, pokud není potřeba.
- Refresh dat: Občas se stává, že se data v lake house nezobrazují. Pokud se to stane, pomůže tomu refresh!
Insight: Cena za Microsoft Fabric řešení: Naštěstí je možné využít 60denní trial a vyzkoušet si celou platformu zdarma na demo datech nebo i na svých datech. Co se týče ceny po vypršení trialu, je občas tricky zjistit, kolik by vás to ve skutečnosti stálo.
Proto vám dám příklad: základní datová struktura, která byla použita během workshopu, by vyšla v realitě okolo 6 000 Kč měsíčně v rámci Fabric F2, což není nejlevnější záležitost, ale ani nejdražší. Nicméně pozitivní je, že s cenou se za tu dobu, co Fabric existuje, moc nehýbalo:).
Pro koho je Fabric a kde začít?
Pokud vaše firma jede na Microsoft ekosystému, pravděpodobně ji s radostí nebo se smutkem využijete pro svá data. S radostí díky dostupným integracím pro efektivní práci s daty mezi systémy. Se smutkem, protože Microsoft není vždy user friendly.
Také je vhodný pro všechny datové analytiky a technické specialisty, kteří chtějí využít pokročilé nástroje pro analýzu dat.
Tip na závěr
Tímto článkem bych chtěl poděkovat DataBrothers za skvěle vedený workshop. Dalo mi to vhled do Fabric platformy a ušetřilo mi to spoustu trápení, kdybych se vydal po vlastní ose. Pokud by vás zajímal stejný nebo případně jiný datově orientovaný workshop, zde je odkaz na jejich nabušené kurzy. A Horste to není vše! Jsou dostupné zdarma pro kohokoliv, kdo projeví zájem. Jinde by se za ně tučně platilo. Přikládám odkaz rovnou i na příklady sample dat, které nabízí Microsoft (NYC Taxi je prý populární) v rámci platformy.