Microsoft Fabric: Staňte se datovým analytikem za jeden den

Microsoft Fabric: Staňte se datovým analytikem za jeden den

Titulek článku je možná trochu clickbait, ale během kurzu s názvem „Data Analyst in a Day“, který vedl Štěpán Rešl z DataBrothers, jsme se seznámili s dnes klíčovou platformou Microsoft Fabric a jejich praktickým využitím. Tento článek přináší shrnutí a vysvětlení hlavních aspektů platformy Microsoft Fabric pro ty, kteří mají technický background a baví je data, jen se s touto platformou se dosud nesetkali. Včetně insightů zmíněné v kurzu.

Analytika dnes s Microsoft Fabric

Microsoft Fabric nabízí jedno centralizované řešení, které zahrnuje tyto komponenty:

  1. OneLake: Centrální úložiště dat, které podporuje formát Parquet pro efektivní kompresi a sjednocení formátů dat.
  2. Data Factory: Online platforma pro integraci dat, která kombinuje funkce Power Query. Data Factory obsahuje komponentu Data Pipeline, která využívá M jazyk pro transformaci dat.
  3. Data Engineering: Tato část využívá platformu Spark pro transformaci dat. Klíčové komponenty zahrnují Notebooky a Dataflows, které umožňují low-code transformaci dat.
  4. Data Warehouse: SQL úložiště pro strukturovaná data, která podporuje rozsáhlé dotazy a analytiku.
  5. Data Science: Modul pro vytváření a nasazení machine learning modelů.
  6. Real-Time Analytics: Analytický nástroj využívající KQL (Kusto Query Language), který kombinuje prvky SQL a PowerShellu pro real-time data analýzu.
  7. Power BI: Oblíbený nástroj pro vizualizaci dat, který je integrován do Microsoft Fabric pro tvorbu interaktivních reportů a dashboardů.
  8. Data Activator: No-code nástroj pro automatizaci akcí na základě datových událostí.
Microsoft Fabric rodinka se všemi službami na jednom místě, barvy dokonce mají svůj význam.

Microsoft Fabric rodinka se všemi službami na jednom místě, barvy dokonce mají svůj význam.

Klíčové koncepty, které je dobré znát

  • Parquet formát: Tento formát umožňuje efektivní kompresi a sjednocení formátování dat, což zvyšuje výkon a snižuje nároky na úložný prostor.
  • Shortcuts: Zkratky zajišťují, aby nedocházelo k duplikaci dat, což šetří úložný prostor a zvyšuje efektivitu. Dobrý hack, jak ušetřit peníz.
  • Workspaces a domény: Umožňují organizaci dat podle oddělení či projektů (např. marketing, sales,…), což zlepšuje správu a přístup k datům.

Pokud by vás zajímaly rozdíly mezi .parquet, .json nebo .csv tak, jako mě, zde jsem dohledal krásné srovnání datových formátů.

Parquet formát dat

Hlavní výhodou Parquet v MS Fabric je ta, že formátování jsou standardizované pro všechny tabulky v úložišti.

Praktická ukázka z workshopu: Case study – Fabrikam company

Na workshopu jsme se seznámili s konkrétním případem fiktivního zákazníka Fabrikam, který využívá Microsoft Fabric pro integraci čtyř různých datových zdrojů: Snowflake, SharePoint a MS Azure Data Lake Storage (Gen2).

Postup z workshopu:

  1. Power BI Desktop: Integrace různých datových zdrojů a jejich příprava pro Power BI vizualizaci dat.
  2. Microsoft Fabric workspace: Vytvořili jsme si nový workspace, který se propisuje do všech komponent platformy, více v dalších krocích.
  3. OneLake: Naklikali jsme si ve workspace data lake, který zahrnuje semantický model pro BI a případnou SQL analytiku.
  4. Dataflow: Pro ADLS gen2, definovali jsme si dotazy v Power Query. Nastavení destinace dat do OneLake.
  5. Data Pipeline: Abychom neaktualizovali data manuálně, nastavil se pravidelný refresh dat.
  6. Data Factory: V neposlední řadě integrace SQL modelů do konečného řešení.

Tipy z praxe:

  • Pojmenování zdrojů: Používat pojmenování jako je "lh" pro Lake House a "df" pro Dataflow (např. df_Sales, lh_Name).
  • Staging: Vypnutí stagingu může ušetřit náklady a je vhodné ho vypínat, pokud není potřeba.
  • Refresh dat: Občas se stává, že se data v lake house nezobrazují. Pokud se to stane, pomůže tomu refresh!
Insight: Cena za Microsoft Fabric řešení: Naštěstí je možné využít 60denní trial a vyzkoušet si celou platformu zdarma na demo datech nebo i na svých datech. Co se týče ceny po vypršení trialu, je občas tricky zjistit, kolik by vás to ve skutečnosti stálo.

Proto vám dám příklad: základní datová struktura, která byla použita během workshopu, by vyšla v realitě okolo 6 000 Kč měsíčně v rámci Fabric F2, což není nejlevnější záležitost, ale ani nejdražší. Nicméně pozitivní je, že s cenou se za tu dobu, co Fabric existuje, moc nehýbalo:).

Pro koho je Fabric a kde začít?

Pokud vaše firma jede na Microsoft ekosystému, pravděpodobně ji s radostí nebo se smutkem využijete pro svá data. S radostí díky dostupným integracím pro efektivní práci s daty mezi systémy. Se smutkem, protože Microsoft není vždy user friendly.

Také je vhodný pro všechny datové analytiky a technické specialisty, kteří chtějí využít pokročilé nástroje pro analýzu dat.

Tip na závěr

Tímto článkem bych chtěl poděkovat DataBrothers za skvěle vedený workshop. Dalo mi to vhled do Fabric platformy a ušetřilo mi to spoustu trápení, kdybych se vydal po vlastní ose. Pokud by vás zajímal stejný nebo případně jiný datově orientovaný workshop, zde je odkaz na jejich nabušené kurzy. A Horste to není vše! Jsou dostupné zdarma pro kohokoliv, kdo projeví zájem. Jinde by se za ně tučně platilo. Přikládám odkaz rovnou i na příklady sample dat, které nabízí Microsoft (NYC Taxi je prý populární) v rámci platformy.