Domine as Window Functions no PostgreSQL: Conceitos, Exemplos Práticos e Aplicações Reais

As window functions¹ no PostgreSQL facilitam a execução de cálculos em conjuntos de linhas correlacionadas, melhorando a análise de dados, permitindo análises sofisticadas sem a necessidade de agregar os dados. Neste guia, abordaremos desde a criação das tabelas até a aplicação de window functions em cenários reais, incluindo exemplos práticos e explicações detalhadas dos resultados.

Uma Explicação Simples:

Considerando a tabela abaixo, cada linha representa um registro, como uma venda, um cliente ou um produto. As window functions permitem que você realize cálculos sobre um conjunto dessas linhas, não apenas sobre linhas individuais. É como se você tivesse uma “janela” que se move ao longo da sua planilha, realizando cálculos em um grupo de linhas por vez.

#Id	UF	Vendedor	Cliente	Produto	Data	Valor
1	SP	valeria.sacks	José	Teclado	10/03/2024	120,45
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590,20
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340,20
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750,32
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980,76
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640,55
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85,99
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810,45
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450,99
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654,77
11	SC	marcos.lima	André	Teclado	02/05/2024	135,78
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720,33
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912,88
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760,32
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980,65
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215,99
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90,75
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850,34
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340,45
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670,99
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450,75
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045,65
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890,34
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150,00
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230,67
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315,99
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720,50
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620,45
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342,88
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750,88

Por que escolher window functions para comparar e analisar dados?

Comparar valores: Você pode comparar o valor de uma linha com os valores das linhas anteriores ou posteriores. Por exemplo, descobrir se as vendas de um produto estão aumentando ou diminuindo ao longo do tempo.
Calcular totais acumulados: Calcular o total acumulado de vendas até determinada data, ou o número total de clientes por região.
Ranking: Classificar os registros dentro de um grupo, como os 10 produtos mais vendidos em cada categoria.
Análise de séries temporais: Analisar tendências e padrões em dados que se alteram ao longo do tempo.
Identificar lacunas: em uma sequência de dados, como uma lista de datas sem registros.

Principais Window Functions no PostgreSQL

ROW_NUMBER(): Numera as linhas dentro da partição.
RANK(): Atribui uma classificação às linhas, permitindo empates.
DENSE_RANK(): Similar ao RANK(), mas sem pular números após empates.
NTILE(): Divide as linhas em um número específico de grupos.
LAG() e LEAD(): Permitem acessar dados de linhas anteriores ou posteriores.
FIRST_VALUE() e LAST_VALUE(): Retornam o primeiro ou último valor dentro da partição.
CUME_DIST(): Retorna a distribuição cumulativa de uma linha dentro de um conjunto de resultados. É o percentual de linhas com valores menores ou iguais ao valor atual.
PERCENT_RANK(): Calcula a posição relativa de uma linha dentro de um conjunto de resultados como uma fração. Diferente de CUME_DIST, o PERCENT_RANK calcula a posição como a diferença entre a classificação da linha e 1, dividido pelo número de linhas menos 1.
NTH_VALUE(): Retorna o valor da n-ésima² linha dentro de uma janela. Se o n for maior que o número de linhas, o resultado será NULL.

:. Vamos a Prática .:

Preparando o Ambiente: Criação da Tabela

Para começar, vamos criar uma tabela de exemplo que será usada ao longo deste guia. Ela simula um conjunto de dados de vendas por produto em diferentes regiões.

create table vendas (
    id serial primary key,
    estado varchar(2) not null,
    vendedor varchar(50) not null,
    cliente varchar(50) not null,
    produto varchar(50) not null,
    data date not null,
    valor numeric(10, 2) not null
);

create index idx_vendas_estado on vendas (estado);

create index idx_vendas_vendedor on vendas (vendedor);

create index idx_vendas_data on vendas (data);

create index idx_vendas_cliente on vendas (cliente);

create index idx_vendas_produto on vendas (produto);

insert into vendas (estado, vendedor, cliente, produto, data, valor)
    values ('SP', 'valeria.sacks', 'José', 'Teclado', '2024-03-10', 120.45),
    ('SP', 'valeria.sacks', 'Larissa', 'Memoria RAM', '2024-04-20', 590.20),
    ('SP', 'valeria.sacks', 'Camila', 'Smartphone', '2024-06-07', 1340.20),
    ('PR', 'roberto.ferreira', 'Eduardo', 'Monitor', '2024-03-12', 750.32),
    ('PR', 'roberto.ferreira', 'Marcelo', 'Processador', '2024-04-24', 980.76),
    ('PR', 'roberto.ferreira', 'Rodrigo', 'HD Externo', '2024-06-11', 640.55),
    ('RS', 'aline.souza', 'Claudia', 'Mouse', '2024-03-15', 85.99),
    ('RS', 'aline.souza', 'Mariana', 'Placa Mãe', '2024-04-28', 810.45),
    ('RS', 'aline.souza', 'Simone', 'Mini PC', '2024-06-15', 1450.99),
    ('SC', 'marcos.lima', 'Leonardo', 'Impressora', '2024-03-18', 654.77),
    ('SC', 'marcos.lima', 'André', 'Teclado', '2024-05-02', 135.78),
    ('SC', 'marcos.lima', 'Bruno', 'Memoria RAM', '2024-06-19', 720.33),
    ('RS', 'carla.rodrigues', 'Beatriz', 'Projetor', '2024-03-21', 912.88),
    ('RS', 'carla.rodrigues', 'Rafael', 'Monitor', '2024-05-06', 760.32),
    ('RS', 'carla.rodrigues', 'Juliana', 'Processador', '2024-06-23', 980.65),
    ('PR', 'fernando.santos', 'Diego', 'Câmera', '2024-03-25', 1215.99),
    ('PR', 'fernando.santos', 'Fernanda', 'Mouse', '2024-05-10', 90.75),
    ('PR', 'fernando.santos', 'Felipe', 'Placa Mãe', '2024-06-27', 850.34),
    ('SC', 'juliana.almeida', 'Tatiana', 'Caixa de Som', '2024-03-28', 340.45),
    ('SC', 'juliana.almeida', 'Silvia', 'Impressora', '2024-05-14', 670.99),
    ('SP', 'ana.martins', 'Roberto', 'Tv LED', '2024-04-01', 1450.75),
    ('SP', 'ana.martins', 'Bruno', 'Projetor', '2024-05-18', 1045.65),
    ('RS', 'paulo.silva', 'Vanessa', 'Tablet', '2024-04-04', 890.34),
    ('RS', 'paulo.silva', 'Carla', 'Câmera', '2024-05-22', 1150.00),
    ('PR', 'fernanda.costa', 'Gustavo', 'Smartphone', '2024-04-08', 1230.67),
    ('PR', 'fernanda.costa', 'João', 'Caixa de Som', '2024-05-26', 315.99),
    ('SC', 'renata.souza', 'Helena', 'HD Externo', '2024-04-12', 720.50),
    ('SC', 'renata.souza', 'Lucas', 'Tv LED', '2024-05-30', 1620.45),
    ('RS', 'jose.mendes', 'Felipe', 'Mini PC', '2024-04-16', 1342.88),
    ('RS', 'jose.mendes', 'Pedro', 'Tablet', '2024-06-03', 750.88);

Claúsulas OVER e PARTITION BY

OVER Define a janela de linhas sobre as quais a função será aplicada. Ela permite que uma função de janela, como ROW_NUMBER(), RANK(), SUM(), ou qualquer outra função agregada, seja calculada ao longo de um conjunto específico de linhas, sem a necessidade de agrupar ou consolidar os dados.

PARTITION BY é uma parte opcional da cláusula OVER. Ela divide o conjunto de resultados em partições (grupos) de linhas e a função de janela é aplicada separadamente a cada partição. Cada partição pode ser vista como um subconjunto da tabela sobre o qual a função é calculada individualmente. Quando PARTITION BY não é usado, a função de janela é aplicada sobre todas as linhas do conjunto de resultados.

ORDER BY dentro da cláusula OVER especifica a ordem em que as linhas dentro de cada partição (ou do conjunto de resultados completo, se PARTITION BY não for usado) são processadas. Isso é especialmente útil para funções de janela que dependem da ordenação, como ROW_NUMBER(), RANK(), e LAG(). Se ORDER BY não for especificado, as linhas dentro da partição não têm uma ordem definida.

FRAME (também chamado de frame_clause) é uma extensão opcional da cláusula OVER que define um subconjunto das linhas na partição, ao qual a função de janela será aplicada. É útil para limitar o cálculo a um grupo específico de linhas em torno da linha atual, ao invés de aplicá-lo a todas as linhas da partição.

Tipos de cláusulas de frame incluem:

ROWS: Define o frame em termos de um número específico de linhas antes ou depois da linha atual.
RANGE: Define o frame em termos de valores lógicos relacionados à linha atual, como todos os valores anteriores ou seguintes até um determinado ponto.

ROW_NUM

A função ROW_NUMBER() é útil em vários contextos, especialmente quando você precisa atribuir números únicos a linhas dentro de grupos específicos, com base em uma ordem determinada. No exemplo fornecido, a função ROW_NUMBER() é utilizada para numerar as vendas em cada estado de acordo com a data da venda. Aqui estão algumas utilidades específicas para o uso de ROW_NUMBER() nesse contexto:

Ordenação Cronológica: Permite que você atribua uma numeração sequencial às vendas em cada estado, com base na data. Isso é útil para acompanhar a ordem das vendas ao longo do tempo dentro de um estado, permitindo que você veja qual venda foi a primeira, a segunda, etc.
Análise de Frequência: Com a numeração sequencial, você pode facilmente analisar padrões e tendências de vendas ao longo do tempo em cada estado. Por exemplo, ao olhar para as vendas numeradas como 1, 2, 3, etc., você pode identificar se as vendas tendem a aumentar ou diminuir em determinados períodos.
Seleção de Vendas Recorrentes: Se você quiser selecionar apenas a primeira venda de cada estado, por exemplo, poderia usar um WHERE num_venda_por_estado = 1. Isso é útil em relatórios que precisam mostrar apenas o primeiro registro de cada grupo.
Relatórios Detalhados: Em relatórios detalhados, você pode querer incluir uma numeração que ajude a organizar e compreender as vendas dentro de cada estado. A numeração sequencial pode facilitar a leitura e interpretação dos dados.
Mudança de Status: Se você tivesse uma coluna adicional para indicar se um cliente fez outra compra, poderia usar ROW_NUMBER() para identificar a primeira, segunda, terceira compra, e assim por diante. Isso permite analisar como o comportamento de compra evolui ao longo do tempo.
Subconsultas e Junções: A numeração sequencial com ROW_NUMBER() pode ser usada em subconsultas para operações mais complexas, como juntar apenas as vendas mais recentes ou as mais antigas em cada estado com outros conjuntos de dados.
Histórico de Vendas: Se você precisar manter um histórico detalhado e rastreável das vendas, a numeração cronológica é essencial. Você pode, por exemplo, criar registros históricos onde a posição cronológica da venda dentro de um estado é um fator importante.

Neste exemplo, vamos gerar uma numeração sequencial para as vendas, ordenando-as pela data. O ROW_NUMBER() será reiniciado para cada estado usando a cláusula PARTITION BY.

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    "data",
    valor,
    row_number() over (partition by estado order by data) as num_venda_por_estado
from
    public.vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	Nº Venda/Estado
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750,32	1
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1.215,99	2
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1.230,67	3
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980,76	4
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90,75	5
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315,99	6
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640,55	7
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850,34	8
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85,99	1
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912,88	2
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890,34	3
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1.342,88	4
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810,45	5
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760,32	6
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1.150	7
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750,88	8
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1.450,99	9
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980,65	10
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654,77	1
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340,45	2
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720,5	3
11	SC	marcos.lima	André	Teclado	02/05/2024	135,78	4
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670,99	5
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1.620,45	6
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720,33	7
1	SP	valeria.sacks	José	Teclado	10/03/2024	120,45	1
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1.450,75	2
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590,2	3
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1.045,65	4
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1.340,20	5

Explicação:

PARTITION BY estado: Divide as vendas por estado, criando partições.
ORDER BY data: Ordena as vendas dentro de cada partição (estado) pela data.
ROW_NUMBER(): Gera uma numeração sequencial dentro de cada partição.

RANK

A função RANK() é utilizada em cenários onde você deseja classificar as linhas dentro de grupos específicos, com base em uma determinada ordem, e lidar com empates na classificação. Ao contrário de ROW_NUMBER(), que atribui números sequenciais únicos, RANK() atribui a mesma classificação a linhas com valores idênticos, deixando lacunas na sequência para as próximas classificações. Vamos explorar algumas utilidades da função RANK():

Classificação com Empates: A função RANK() é útil quando você precisa atribuir classificações às linhas dentro de grupos, levando em conta empates. Por exemplo, se duas vendas em um estado possuem o mesmo valor, ambas receberão a mesma classificação e a próxima venda receberá a classificação correspondente com uma lacuna.
Análise de Desempenho: Em relatórios de vendas, RANK() pode ser utilizado para analisar o desempenho relativo de produtos ou vendedores, especialmente quando há múltiplas vendas com valores semelhantes. Com isso, é possível identificar facilmente quais vendas se destacam e quais estão em posições intermediárias.
Identificação de Posições: Ao utilizar RANK() em subconsultas, você pode identificar as posições relativas de elementos em um conjunto de dados, o que pode ser útil para filtrar ou comparar dados em junções ou em análises temporais.
Relatórios de Liderança: Em rankings ou relatórios de liderança, onde você precisa mostrar a posição de um cliente, produto ou vendedor em relação a outros dentro de um grupo, RANK() é uma escolha ideal. Se dois ou mais itens estão empatados, eles aparecem na mesma posição, refletindo de forma precisa a igualdade entre eles.

Vamos considerar um exemplo onde você deseja classificar as vendas por estado e valor, utilizando a função RANK() para gerar uma classificação das vendas em cada estado:

select
    id,
    estado,
    cliente,
    produto,
    data,
    valor,
    rank() over (partition by estado order by valor desc) as rank_venda
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	Rank
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	1
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	2
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	3
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	4
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	5
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	6
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	7
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	8
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	1
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	2
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	3
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	4
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	5
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	6
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	7
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	8
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	9
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	10
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	1
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	2
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	3
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	4
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	5
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	6
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	7
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	1
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	2
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	3
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	4
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	5

Explicação:

Nesse exemplo, o PARTITION BY estado divide as vendas por estado, e o ORDER BY valor DESC classifica as vendas dentro de cada estado do maior para o menor valor. A função RANK() atribui um número de classificação a cada venda dentro do grupo.

NTILE

A função NTILE() é usada para dividir um conjunto de resultados em um número especificado de “buckets” ou “grupos”, distribuindo as linhas o mais igualmente possível entre esses grupos. Diferente de RANK(), NTILE() atribui um número sequencial para as linhas, correspondendo ao bucket no qual a linha está. Isso pode ser útil para criar distribuições percentuais ou segmentar dados em partes iguais.

Aqui está uma versão do exemplo utilizando a função NTILE():

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    ntile(3) over (partition by estado order by valor desc) as ntile_venda
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	NTILE
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	1
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	1
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	1
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	2
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	2
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	2
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	3
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	3
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	1
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	1
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	1
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	1
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	2
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	2
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	2
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	3
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	3
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	3
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	1
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	1
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	1
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	2
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	2
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	3
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	3
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	1
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	1
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	2
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	2
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	3

Explicação:

A função NTILE(3) divide as vendas dentro de cada estado em 3 grupos.
PARTITION BY estado agrupa as vendas por estado.
ORDER BY valor DESC garante que as vendas com maior valor estejam nos primeiros grupos.

Essa abordagem é útil para dividir as vendas de cada estado em partes iguais, permitindo ver, por exemplo, o “terço superior”, “terço intermediário” e “terço inferior” de vendas.

LAG & LEAD

A função LAG() permite acessar os valores de linhas anteriores à linha atual dentro de uma janela, enquanto a função LEAD() faz o mesmo para as linhas posteriores. Ambas são úteis quando você precisa comparar valores anteriores ou seguintes em uma série de dados sem usar subconsultas complexas.

Aqui está a versão do exemplo utilizando as funções LAG() e LEAD():

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    lag(valor, 1) over (partition by estado order by valor desc) as valor_anterior,
    lead(valor, 1) over (partition by estado order by valor desc) as valor_proximo
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	Anterior	Próximo
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	NULL	1215.99
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	1230.67	980.76
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	1215.99	850.34
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	980.76	750.32
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	850.34	640.55
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	750.32	315.99
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	640.55	90.75
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	315.99	NULL
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	NULL	1342.88
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	1450.99	1150.00
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	1342.88	980.65
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	1150.00	912.88
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	980.65	890.34
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	912.88	810.45
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	890.34	760.32
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	810.45	750.88
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	760.32	85.99
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	750.88	NULL
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	NULL	720.50
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	1620.45	720.33
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	720.50	670.99
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	720.33	654.77
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	670.99	340.45
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	654.77	135.78
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	340.45	NULL
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	NULL	1340.20
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	1450.75	1045.65
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	1340.20	590.20
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	1045.65	120.45
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	590.20	NULL

Explicação:

A função LAG() retorna o valor da linha anterior dentro da partição de acordo com a ordenação. Neste exemplo, LAG(valor, 1) traz o valor da venda anterior para cada estado, ordenado por valor.
A função LEAD() retorna o valor da próxima linha. Aqui, LEAD(valor, 1) traz o valor da próxima venda.
PARTITION BY estado agrupa as vendas por estado, e ORDER BY valor DESC garante a ordem decrescente dos valores de vendas.

Essas funções podem ser úteis para comparar os valores das vendas com as vendas imediatamente anteriores ou seguintes no mesmo estado, facilitando a análise de mudanças ou tendências.

FIRST_VALUE & LAST_VALUE

A função FIRST_VALUE() retorna o primeiro valor de uma janela de resultados com base na ordenação especificada, enquanto a função LAST_VALUE() retorna o último valor da janela de resultados. Ambas são úteis para capturar valores de referência no início ou no final de um conjunto de dados particionado.

Aqui está a versão do exemplo utilizando as funções FIRST_VALUE() e LAST_VALUE():

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    first_value(valor) over (partition by estado order by valor desc) as primeira_venda,
    last_value(valor) over (partition by estado order by valor desc rows between unbounded preceding and unbounded following) as ultima_venda
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	P. Venda	U. Venda
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	1230.67	90.75
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	1230.67	90.75
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	1230.67	90.75
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	1230.67	90.75
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	1230.67	90.75
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	1230.67	90.75
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	1230.67	90.75
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	1230.67	90.75
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	1450.99	85.99
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	1450.99	85.99
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	1450.99	85.99
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	1450.99	85.99
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	1450.99	85.99
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	1450.99	85.99
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	1450.99	85.99
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	1450.99	85.99
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	1450.99	85.99
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	1450.99	85.99
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	1620.45	135.78
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	1620.45	135.78
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	1620.45	135.78
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	1620.45	135.78
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	1620.45	135.78
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	1620.45	135.78
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	1620.45	135.78
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	1450.75	120.45
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	1450.75	120.45
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	1450.75	120.45
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	1450.75	120.45
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	1450.75	120.45

Explicação:

A função FIRST_VALUE(valor) retorna o maior valor (primeira venda) dentro da partição estado, ordenada por valor DESC.
A função LAST_VALUE(valor) retorna o menor valor (última venda) dentro da mesma partição.
PARTITION BY estado agrupa as vendas por estado.
ORDER BY valor DESC ordena as vendas por valor decrescente, de modo que FIRST_VALUE() traga o maior valor e LAST_VALUE() o menor valor.
O intervalo de linhas ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING é necessário para garantir que LAST_VALUE() retorne o valor da última linha da janela e não o último valor da janela atual, que por padrão se refere à linha atual.

Essas funções são úteis para capturar os valores extremos em cada grupo de dados, como a primeira e a última venda de um estado, facilitando análises como identificar o maior e o menor valor de venda em um conjunto.

CUME_DIST

A função CUME_DIST() calcula a “distribuição cumulativa” de um valor em um conjunto de dados. Ela retorna a proporção de linhas com valores menores ou iguais ao valor da linha atual, variando entre 0 e 1. Isso é útil quando você quer entender a posição relativa de uma linha em um conjunto de dados.

Aqui está a versão do exemplo utilizando a função CUME_DIST():

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    cume_dist() over (partition by estado order by valor desc) as cume_dist_venda
from
    vendas

Resultado:

#ID	UF	Vendedor	Cliente	Produto	Data	Valor	Cume
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	0,125
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	0,250
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	0,375
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	0,500
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	0,625
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	0,750
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	0,875
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	1
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	0,100
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	0,200
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	0,300
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	0,400
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	0,500
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	0,600
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	0,700
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	0,800
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	0,900
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	1
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	0,143
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	0,286
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	0,429
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	0,571
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	0,714
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	0,857
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	1
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	0,200
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	0,400
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	0,600
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	0,800
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	1

Explicação:

A função FIRST_VALUE(valor) retorna o maior valor (primeira venda) dentro da partição estado, ordenada por valor DESC.
A função LAST_VALUE(valor) retorna o menor valor (última venda) dentro da mesma partição.
PARTITION BY estado agrupa as vendas por estado.
ORDER BY valor DESC ordena as vendas por valor decrescente, de modo que FIRST_VALUE() traga o maior valor e LAST_VALUE() o menor valor.
O intervalo de linhas ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING é necessário para garantir que LAST_VALUE() retorne o valor da última linha da janela e não o último valor da janela atual, que por padrão se refere à linha atual.

PERCENT_RANK

A função PERCENT_RANK() calcula a posição relativa de uma linha em relação ao conjunto de dados, expressa como um valor percentual entre 0 e 1. Ao contrário de CUME_DIST(), a PERCENT_RANK() distribui as linhas de forma que a primeira linha sempre tenha valor 0 e a última linha tenha valor 1 (ou próxima de 1, dependendo do número de linhas).

Aqui está a versão do exemplo utilizando a função PERCENT_RANK():

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    percent_rank() over (partition by estado order by valor desc) as percent_rank_venda
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	% Rank
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	0
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	0,143
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	0,286
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	0,429
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	0,571
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	0,714
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	0,857
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	1
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	0
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	0,111
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	0,222
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	0,333
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	0,444
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	0,556
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	0,667
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	0,778
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	0,889
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	1
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	0
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	0,167
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	0,333
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	0,5
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	0,667
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	0,833
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	1
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	0
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	0,25
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	0,5
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	0,75
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	1

Explicação:

A função PERCENT_RANK() retorna a posição percentual de uma linha em relação ao conjunto de dados dentro de uma partição.
PARTITION BY estado agrupa as vendas por estado.
ORDER BY valor DESC organiza as vendas por valor decrescente dentro de cada estado.
O cálculo é feito considerando o número total de linhas na partição. A primeira linha de cada partição tem o valor 0, e a última linha se aproxima de 1 (ou é 1 se houver mais de uma linha).

Essa função é útil para determinar a posição percentual de uma venda em relação às outras dentro de um estado, proporcionando uma visão da classificação relativa dentro do grupo de vendas.

NTH_VALUE

A função NTH_VALUE() retorna o valor da n-ésima linha de uma janela de resultados, onde o número n é especificado pelo usuário. Ela é útil quando você deseja capturar um valor específico em uma sequência ordenada de linhas dentro de um grupo.

Aqui está a versão do exemplo utilizando a função NTH_VALUE() para obter o terceiro maior valor de cada grupo de vendas por estado:

select
    id,
    estado,
    vendedor,
    cliente,
    produto,
    data,
    valor,
    nth_value(valor, 3) over (partition by estado order by valor desc rows between unbounded preceding and unbounded following) as terceira_venda
from
    vendas

Resultado:

#Id	UF	Vendedor	Cliente	Produto	Data	Valor	T. Venda
25	PR	fernanda.costa	Gustavo	Smartphone	08/04/2024	1230.67	980.76
16	PR	fernando.santos	Diego	Câmera	25/03/2024	1215.99	980.76
5	PR	roberto.ferreira	Marcelo	Processador	24/04/2024	980.76	980.76
18	PR	fernando.santos	Felipe	Placa Mãe	27/06/2024	850.34	980.76
4	PR	roberto.ferreira	Eduardo	Monitor	12/03/2024	750.32	980.76
6	PR	roberto.ferreira	Rodrigo	HD Externo	11/06/2024	640.55	980.76
26	PR	fernanda.costa	João	Caixa de Som	26/05/2024	315.99	980.76
17	PR	fernando.santos	Fernanda	Mouse	10/05/2024	90.75	980.76
9	RS	aline.souza	Simone	Mini PC	15/06/2024	1450.99	1150.00
29	RS	jose.mendes	Felipe	Mini PC	16/04/2024	1342.88	1150.00
24	RS	paulo.silva	Carla	Câmera	22/05/2024	1150.00	1150.00
15	RS	carla.rodrigues	Juliana	Processador	23/06/2024	980.65	1150.00
13	RS	carla.rodrigues	Beatriz	Projetor	21/03/2024	912.88	1150.00
23	RS	paulo.silva	Vanessa	Tablet	04/04/2024	890.34	1150.00
8	RS	aline.souza	Mariana	Placa Mãe	28/04/2024	810.45	1150.00
14	RS	carla.rodrigues	Rafael	Monitor	06/05/2024	760.32	1150.00
30	RS	jose.mendes	Pedro	Tablet	03/06/2024	750.88	1150.00
7	RS	aline.souza	Claudia	Mouse	15/03/2024	85.99	1150.00
28	SC	renata.souza	Lucas	Tv LED	30/05/2024	1620.45	720.33
27	SC	renata.souza	Helena	HD Externo	12/04/2024	720.50	720.33
12	SC	marcos.lima	Bruno	Memoria RAM	19/06/2024	720.33	720.33
20	SC	juliana.almeida	Silvia	Impressora	14/05/2024	670.99	720.33
10	SC	marcos.lima	Leonardo	Impressora	18/03/2024	654.77	720.33
19	SC	juliana.almeida	Tatiana	Caixa de Som	28/03/2024	340.45	720.33
11	SC	marcos.lima	André	Teclado	02/05/2024	135.78	720.33
21	SP	ana.martins	Roberto	Tv LED	01/04/2024	1450.75	1045.65
3	SP	valeria.sacks	Camila	Smartphone	07/06/2024	1340.20	1045.65
22	SP	ana.martins	Bruno	Projetor	18/05/2024	1045.65	1045.65
2	SP	valeria.sacks	Larissa	Memoria RAM	20/04/2024	590.20	1045.65
1	SP	valeria.sacks	José	Teclado	10/03/2024	120.45	1045.65

Explicação:

A função NTH_VALUE(valor, 3) retorna o valor da terceira venda em cada grupo de estados, conforme ordenado pelo valor.
PARTITION BY estado agrupa as vendas por estado.
ORDER BY valor DESC organiza as vendas de cada estado por valor decrescente.
O intervalo ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING garante que a função olhe para toda a janela de valores dentro da partição.

Essa função é útil quando você deseja capturar o valor da n-ésima venda dentro de um grupo de vendas, possibilitando a análise de posições específicas em um conjunto de dados.

Window Functions ⇨ São comandos que permitem realizar cálculos em um grupo de dados, sem precisar agrupar ou resumir esses dados. Pense nelas como uma maneira de adicionar “camadas” de informações extras, como uma contagem, soma ou média, a cada linha de uma tabela, enquanto mantém todos os detalhes originais dessa linha. É como ter uma visão mais ampla de cada linha dentro de um contexto maior. ↩︎
n-ésima ⇨ Refere-se à posição de número n em uma sequência, onde “n” pode ser qualquer número inteiro. Por exemplo, a terceira posição em uma lista é a terceira “n-ésima” ↩︎

Referências

Documentação PostgreSQL