Como usar um arquivo do datalake com pyspark no Azure Synapse Studio?
Pois bem, pode ser meio difícil achar informações sobre isso (acredite), mas apesar disso é bem simples utilizar arquivos em um blob storage.
Para usarmos, a URI de conexão fica:
abfss://<CONTAINER>@<STORAGEACCOUNT>.dfs.core.windows.net/<CAMINHO>/<ARQUIVO>
Et Voi la!
Automágicamente o Azure Synapse identifica o arquivo e a magia acontece. Vou colocar um exemplo abaixo 🙂
Notebook de exemplo:
%%pyspark df = spark.read.load('abfss://dart-container@dart_stgaccount.dfs.core.windows.net/SILVER/monitoring.data.json', format='json') df.limit(10).show();
