Storytelling com Dados - Box Plots

  

Transformar dados em histórias não é uma tarefa fácil. Adequar os achados que as ferramentas estatísticas proporcionam com uma linguagem que o público alvo entenda, muitas vezes com espaço limitado é um desafio daqueles! Este texto é para você ver como funciona uma análise estatística de box plots transformada num texto de compreensão geral com os dados das finais olímpicas dos 100m rasos para homens. 

Usei o Tableau Public (gratuito) para fazer os gráficos que você vai ver neste post. Os dados foram coletados da Wikipedia e abrangem todas as edições das Olimpíadas, de Atenas (1896) a Tokyo (2021). Embora não sejam de fontes oficiais, servem perfeitamente para o propósito deste exercício. Na base final temos os nomes dos atletas, sua nacionalidade, o tempo que fizeram na final, a colocação e um campo de observação, que sinaliza principalmente se o resultado foi válido ou não, além do campo contendo o ano de realização dos jogos olímpicos. O print do excel com alguns registros vai te dar uma ideia de como a base está:

Visão do todo

Começamos com um box plot mostrando o panorama geral com os resultados desses 124 anos de história do atletismo nos jogos olímpicos: 


Este é o mais simples para um box plot com esses dados. As linhas verticais mostram as cinco medidas que resumem a distribuição dos tempos dos atletas. A mediana é 10.28. Como ela divide a distribuição ao meio, tudo que estiver abaixo deste valor é melhor, mais rápido, pois caminha na direção dos menores tempos, e tudo aquilo que estiver acima, claro, será pior. A caixa é delimitada por Q1 = 10s e Q3 = 10.79s, ou seja, 50% dos tempos válidos estão separados por 79 centésimos de segundo. À esquerda de Q1, até o mínimo, estão os 25% que representam os melhores tempos já registrado. O mínimo é o recorde olímpico (9.63s), estabelecido por Usain Bolt em 2012. À direita de Q3, até o máximo (11.20), os 25% que correspondem aos piores tempos, mas que não são outliers. Estes estão bem à direita, com tempos iguais ou maiores que 12 segundos. Pode-se dizer que o que está dentro da caixa está bem distribuído pelos quartis delimitados pelo resumo que as cinco medidas do box plot proporcionam. Contudo, a mediana se apresenta ligeiramente à esquerda em relação ao meio da caixa, revelando uma leve assimetria à direita. Concluída a investigação dos outliers, decido retirá-los do gráfico para ver se isso influencia nas medidas:


A mediana mudou muito pouco, menos um centésimo, mas o limite superior da caixa diminuiu cerca de 9 centésimos (isso é muito em uma corrida de 100m). Isso significa que mais tempos acabam sendo classificados como 25% piores (de 40 no cenário anterior para 45 agora). Como a tendência é a disputa aumentar com o tempo, daqui a algumas edições pode ser que mais tempos estejam no último quartil ou sejam até mesmo outliers, pois a caixa se "movimentará" para a esquerda, deixando os piores tempos literalmente para trás. Podemos, aliás, "abrir" este gráfico ao longo do tempo, obtendo informações sobre a variabilidade ao longo dos anos enquanto aproveitamos os insights que um gráfico de linha proporcionaria, com a vantagem de termos tudo numa única visão.

Evolução dos resultados ao longo do tempo

Já antecipo, porém, que seria muita presunção apresentar de forma clara e objetiva 124 anos de história em um único box plot. O espaço limitado com muitos pontos para serem mostrados acaba prejudicando a legibilidade. No entanto. mantendo tudo o mais simples possível, somente com as caixas e os outliers, conseguimos iniciar a análise para encontrar padrões gerais. O gráfico fica assim: 

Atletismo - Resultados das finais dos 100m rasos para homens - 1896 a 2021

Se você precisar aumentar o gráfico abaixo, clique na imagem

É interessante notar que embora o gráfico acima conte uma história geral, cada box plot oferece dentro de si possibilidades de novas histórias. Quem conta essa história é a variabilidade contida dentro de cada edição. É ela que permitirá extrair os pontos altos e baixos para a história final com os feitos inacreditáveis e os dramas que os atletas viveram em cada Olimpíada. Pode ser que a história final foque num determinado período, ou num determinado atleta. Tudo é uma questão de objetivo, audiência, canal e acesso a dados e fatos documentados pela História.

Padrões em Box Plots

Lado a lado, ao longo do tempo, Box Plots mostram o que se veria num gráfico de linha, mas com cinco medidas ao mesmo tempo! É claro que geralmente a mais importante delas será a mediana, mas dependendo do contexto isso pode mudar, ou ser necessário analisar outras para se completar um panorama. É o caso aqui, já que o mínimo é a medida mais importante no atletismo. É esta medida que puxa os tempos para baixo ao longo do tempo, no padrão mais óbvio do gráfico, semelhante ao que veríamos num gráfico de linha se plotássemos somente o tempo dos primeiros colocados. No entanto, há outros padrões, um deles o do desempenho mediano dos atletas, que destaquei no gráfico:

Atletismo - Resultados das finais dos 100m rasos para homens - 1896 a 2020

Gráfico inicial com padrões


Caso você não tenha lido, talvez seja interessante dar uma olhada neste post onde falo sobre o Atletismo Olímpico e descrevo cada um desses períodos de forma mais detalhada.

Outliers

No caso do atletismo, outliers na parte de cima significam tempos muito elevados, ou seja, ruins. Geralmente o foco é nos outliers que ocorrem na parte de baixo, que representam os menores tempos em uma determinada edição. Exatamente isso: numa determinada edição. Quando comparamos vários boxplots lado a lado, não necessariamente o outlier mais acima ou abaixo representará - no caso do atletismo - o recorde olímpico (que é o menor tempo de todos, o mínimo de toda a série). E vemos este fato na nossa frente, mesmo nesta imagem. O outlier inferior mais abaixo é em 2008 (veja a imagem aumentada), já que naquela edição o vencedor, Usain Bolt, fez um tempo muito abaixo dos demais. Contudo, este não foi o recorde olímpico. Este foi alcançado na Olimpíada seguinte, e nesta edição este tempo não foi um outlier! A informação que o box plot desta edição nos mostra é que o nível de competição foi altíssimo. Bolt chegou na frente e fez o melhor tempo, mas quem veio atrás chegou praticamente junto. Fica melhor se for ilustrado:

Tyson Gay não aparece na tabela pois foi desclassificado devido a mais um caso de doping

Inclusive nesta olimpíada de 2012 temos um outro outlier também na parte de cima, mostrando que o tempo de Asafa Powell foi muito superior aos demais. Ele fez 11.99s após de machucar a poucos metros da linha de chegada. É por isso que não aparece na foto. Tempo pior que esse só mesmo Stewart em 1988, com 12.26, pelo mesmo motivo. Ainda sobre os outliers, complemento com os da parte de baixo: Maurice Greene em 2000 (9.87s), Carl Lewis em 1984 (9.99s, primeiro abaixo dos 10s ) e Bobby Morrow em 1956 (10.62s). 

Comparabilidade Prejudicada

Como já dito, nem sempre precisamos manter todos os dados disponíveis em nossa análise final. Se identificamos que existem pontos ou períodos que prejudicam a comparabilidade dos dados, principalmente ao longo do tempo, podemos retirá-los. No caso do atletismo, até 1956 o formato de competição e o arredondamento dos tempos prejudica muito a comparação com as edições posteriores. Para se ter uma ideia, a tomada automática dos tempos só se deu em 1964, no Japão. Portanto, retirando estes anos, o gráfico passa a ficar assim:

Atletismo - Resultados das finais dos 100m rasos para homens - 1964 a 2020


Opa! Agora sim, temos um gráfico legível, com 60 anos de história. Os outliers que interessam ficam bem marcados, as variabilidades aparecem e chega-se próximo de uma versão final. Para analisar com mais detalhes, podemos fazer algumas modificações: incluir os pontos e os nomes dos principais atletas (atribuindo uma cor diferente para cada um) e removendo a cor da caixa para que os mesmos se destaquem e sejam mais fáceis de identificar. Também removi os dois primeiros dígitos de cada ano para poder reduzir a largura sem prejudicar a clareza.Vejam como fica:

Atletismo - Resultados das finais dos 100m rasos para homens - 1960 a 2020

Análise Estatística dos Box Plots

Os padrões representam eras, pois são agrupamentos de várias edições, e o que posso me perguntar agora é se ao longo dessas eras os box plots mudam. Contudo - e este é o ponto onde o box plot brilha - acompanhando pela figura acima a inspeção visual já mostra que o padrão de gráfico para esses anos é praticamente o mesmo: o gráfico se apresenta bem espaçado, em praticamente todos temos os whiskers presentes e a mediana (sejamos razoáveis aqui) divide Q2 (em cinza escuro) de Q3 (cinza claro) no meio da caixa. As exceções a este padrão no gráfico acima estão selecionadas na figura abaixo para facilitar a identificação das diferenças. São diferentes padrões de box plot que aparecem cuja interpretação também nos ajuda a contar histórias:



1960 e 1964 - A caixa fica toda cinza escuro, sem mostrar a linha da mediana. Isso acontece porque tanto a mediana quanto Q3 possuem o mesmo valor, numa mistura de diversos motivos que ocorrem simultaneamente e que já foram mencionados anteriormente: poucos atletas na final (tamanho de amostra pequeno), sistema de medição manual e metodologia de arredondamento dos resultados. Nestas duas edições os tempos medianos ficaram mais próximos dos tempos ruins. 

1960 e 1988 - Esses dois anos não possuem um dos whiskers. Na edição de 1960, é o inferior, e na de 1988, a superior. Isso acontece porque o valor de Q1 é igual ao mínimo, no primeiro caso, e Q3 igual ao máximo, no segundo. Portanto, complementando a análise da edição de 1960, os dois primeiros colocados empatados geram este padrão de boxplot, ou seja, em termos de box plot, visualmente não há um mínimo, mesmo havendo um vencedor. No lado oposto desta interpretação está a edição de Seul em 1988: Os seis atletas que fecharam a prova tiveram um bom nível de disputa, mas com um mínimo. 

2004 - Gatlin venceu, e o nível de competição aumentou mais ainda. Já faz sentido inclusive incluir uma linha de referência nos 10 segundos, já que temos cada vez mais corredores abaixo da marca. Com tamanha competitividade, a mediana se direciona para os tempos mais baixos, e a caixa fica toda quase cinza claro. Mínimo, Q1 e Mediana (metade dos corredores) estão muito próximos, e o tempo de Thompson fica muito para trás.

2012 e 2020 - Já ilustramos bem a edição de 2012 no tópico de outliers, mas vale a pena reforçar que foi a primeira vez que todos os corredores finalizaram a prova em menos de 10 segundos. Não só os recordes foram sendo batidos de forma consistente a partir de 1984, como o nível de competitividade cresceu absurdamente. Depois observe 1988, 2004 e 2012 e veja como os box plots mostram isso com diversos padrões. Não há uma fórmula mágica, mas analisando cada um conseguimos sintetizar o que querem dizer: é o ser humano em busca da superação de seus limites. Em 2020 novamente todos correndo abaixo dos 10s, mas sem uma performance tão boa quando nos tempos de Bolt e Gatlin. Cai o nível de disputa, temos uma nova safra de corredores e Jacobs vencendo o primeiro ouro da Itália na prova.

Insights com Box Plots para o Storytelling

Chegamos num gráfico final, o analisamos de forma estatística e agora, unindo os achados desta análise com os insights das observações provenientes das cinco medidas de resumo que compõem o box plot e o que foi aprendido na pesquisa de aprofundamento sobre o tema, podemos nos preparar para o texto final: Veja que procura-se explorar os conceitos de primeiro e último, as tendências, os padrões, o que foi único, o que se repetiu e assim por diante:

Hines, primeiro abaixo dos 10s;
Lewis, o primeiro bicampeão;
Bolt, o primeiro tricampeão, o primeiro a baixar dos 9.7s, o recordista olímpico;
Lewis e Bolt, os únicos a baixarem o tempo da prova de forma consecutiva;
Marcell Jacobs, o primeiro italiano a vencer os 100m;
Robson Caetano, único brasileiro em finais;

A tendência de tempos cada vez menores ao longo do tempo é fortíssima no período 1984-2012, a linha diagonal que liga os pontos mínimos do box plot de cada edição é uma diagonal quase perfeita. Fica evidente a superação dos atletas em busca do menor tempo;

Nas últimas duas edições os tempos aumentam, mas todos os corredores ficam abaixo dos 10 segundos, mostrando também um alto nível dos atletas. A safra se renova, talvez seja o ínício de uma nova era;

Storytelling com dados - traduzindo box plots para o português

Chegamos ao final da missão, agora é só juntar o gráfico com o que foi encontrado na análise estatística, os insights e transformar num texto que permita ao público acompanhar a história:


De 1960 para cá, a prova dos 100 metros rasos para homens nos Jogos Olímpicos se tornou um exemplo da incansável busca do ser humano pela superação dos seus limites. Após Hines se tornar o primeiro homem a correr abaixo dos 10 segundos em 1968, os tempos retrocederam e durante quatro Olimpíadas nenhum atleta repetiu o feito. Até 1980 (Moscou), marcada pelo boicote americano durante a Guerra Fria foram edições com muita oscilação nos resultados, e pode-se perceber que existia uma certa apatia, ou até mesmo incapacidade de se correr abaixo da marca novamente.

Contudo, a edição seguinte dos jogos em Los Angeles foi palco da performance fora da curva do americano Carl Lewis, com um tempo que finalmente foi abaixo de 10 segundos novamente e estabeleceu uma nova era no esporte. Lewis se superaria na Olimpíada seguinte, tornando-se o primeiro bicampeão da prova - após a confirmação de doping de Ben Johnson - com o tempo de 9.92s estabelecendo então novo recorde olímpico. Foi a primeira vez também que um atleta conseguiu baixar duas vezes seguidas o tempo da prova. Embora Donovan Bailey (quebrando o recorde de Lewis com 9.84s) e Maurice Greene (com 9.87s) tenham terminado este período com tempos bem abaixo dos 10s, o limite parecia ter sido atingido.

Até que em 2008 o mundo, que já conhecia Asafa Powell, também conheceria seu compatriota Usain Bolt. O fenômeno jamaicano correu abaixo dos 9.7s, e com 9.69s pulverizou o recorde olímpico. Na Olimpíada seguinte, baixou mais, vencendo a prova com 9.63s e igualando o feito de Lewis, com o bicampeonato olímpico. Em 2016, no Rio, Bolt terminou de escrever seu nome de vez na história do atletismo - e do esporte - ao se tornar o primeiro tricampeão dos 100m rasos. Seu recorde dura até hoje. 

Na última edição dos jogos, sem Bolt e Gatlin, pela primeira vez venceu um italiano, Marcell Jacbos, com 9.8s. Será que estamos diante dos novos corredores que irão superar a marca de Bolt? Os jogos de Paris dirão. 

Até lá!

Postagens mais visitadas deste blog

Um futebol de emoções: wordclouds em python mostram o que disseram os torcedores dos times do campeonato brasileiro de 2021

Anatomia de um Tweet e as transmissões de partidas de futebol pelo Twitter: o supra sumo da emoção