pySpark acessando arquivos em Azure Blob Storage (ADLS)

Como usar um arquivo do datalake com pyspark no Azure Synapse Studio?

Pois bem, pode ser meio difícil achar informações sobre isso (acredite), mas apesar disso é bem simples utilizar arquivos em um blob storage.

Para usarmos, a URI de conexão fica:
abfss://<CONTAINER>@<STORAGEACCOUNT>.dfs.core.windows.net/<CAMINHO>/<ARQUIVO>

Et Voi la!

Automágicamente o Azure Synapse identifica o arquivo e a magia acontece. Vou colocar um exemplo abaixo 🙂

Notebook de exemplo:

%%pyspark 
df = spark.read.load('abfss://dart-container@dart_stgaccount.dfs.core.windows.net/SILVER/monitoring.data.json', format='json') 
df.limit(10).show();