Repositório adaptado do template do Escritório de Dados para versionamento e execução de projetos no datalake.
- Python <=3.9
- Crie um ambiente virtual e instale as dependências:
python -m venv dbt-env
. dbt-env/bin/activate # no Windows, usar . dbt-env/Scripts/activate
python -m pip install --upgrade pip
pip install -r requirements-dev.txt- Configure suas credenciais para leitura/escrita no datalake:
# copie o arquivo de exemplo
cp dev/profiles-example.yml dev/profiles.yml
# preencha com suas credenciais- Edite o arquivo
dev/run.pypara rodar seus testes. Em seguida, execute o script:
python dev/run.py-
Crie uma branch com o mesmo padrão da pipeline correspondente em pipelines(quando houver)
-
Crie um novo diretório
models/<dataset-id>, sendodataset_ido nome do conjunto. Nesta pasta serão guardadas as queries (modelos) que dão origem às tabelas deste dataset no BigQuery. -
No arquivo
dbt_project.yml, adicione odataset-idjunto aos conjuntos já registrados, conforme abaixo:
models:
rj-smtr:
<dataset-id>:
+materialized: view # Materialization type (view, table or incremental)
+schema: <dataset-id> # Overrides the default schema (defaults to what is set on profiles.yml)Crie os modelos que desejar em models/<dataset-id> (ex:
nome_da_tabela.sql). Nesses arquivos, adicione o código SQL utilizado
para gerar as tabelas no BigQuery. Quaisquer especificações de particionamento
também devem ser inseridas ali.
Leia:
Antes de fazer o merge da branch, garanta que os devidos metadados para a(s) nova(s) tabela(s) estão preenchidos no portal https://meta.dados.rio/. Caso ontrário, não será gerada a documentação da tabela.