Making off - Storytelling com Dados

Este texto é um "rascunho" (quase que um making off) de um post menor e bem mais didático sobre contar histórias com dados. Se você quer algo mais direto, clique aqui. Senão, continue lento. Este é um texto bem mais completo e ilustrado dos insights que tive quando precisei estudar para fazer o post menor.


Transformar dados em histórias não é uma tarefa fácil. Adequar os achados que as ferramentas estatísticas proporcionam com uma linguagem que o público alvo entenda, muitas vezes com espaço limitado é um desafio daqueles! Este texto é para você, analista de dados, que quer ver como funciona uma análise estatística de box plots transformadas num texto de compreensão geral.

No entanto, como exercício e seguimento dos posts sobre box plots, resolvi analisar alguns dados e comunicá-los da melhor forma possível, compartilhando com a rede o meu processo de análise desse tipo de gráfico para ajudar quem precisa e aprender com os comentários de quem puder (e quiser!) interagir. O desafio que proponho é o de criar uma história com os dados das finais olímpicas dos 100m rasos para homens. As únicas exigências/restrições são as seguintes:

  • A história deve exercitar a minha capacidade de resumir, então só posso utilizar um gráfico ( box plot );
  • Os dados foram coletados da Wikipedia. Embora não oficiais, os dados servem perfeitamente para o propósito deste exercício;
  • Como a história será contada (texto, imagem, etc.), onde (meio físico ou digital) e para quem (público alvo) são livres, mas já que é um exercício o legal é dar uma boa explorada, não é mesmo?

Usei o Tableau Public (gratuito) para fazer os gráficos que você vai ver neste post. Os dados foram coletados da Wikipedia e abrangem todas as edições das Olimpíadas, de 1896 a 2020. Embora não oficiais, servem perfeitamente para o propósito deste exercício. Na base final temos os nomes dos atletas, sua nacionalidade, o tempo que fizeram na final, a colocação e um campo de observação, que sinaliza principalmente se o resultado foi válido ou não, além do campo contendo o ano de realização dos jogos olímpicos. O print do excel com alguns registros vai te dar uma ideia de como a base está:


 Simbora!

O início de tudo: uma visão do todo

O que sempre faço ao começar qualquer análise, além de dar uma olhada na base. De forma bastante breve, já que não é o intuito aqui o tratamento da base em si, os pontos mais importantes foram relativos à precisão na hora de reportar os tempos, já que na transição da tomada de tempo manual para a automática dois campos de registros de tempos são fornecidos, especialmente em 1968, para reportar no gráfico o tempo do Hines e, em 1988, para não contabilizar o tempo do Ben Johnson, que foi anulado por doping mas aparece como um resultado na tabela final. Dito isso, começamos pelo início, com um box plot mostrando o panorama geral com os resultados desses 124 anos de história do atletismo nos jogos olímpicos: 


Esta é a proposta mais simples para um box plot. As linhas verticais mostram as cinco medidas que resumem a distribuição dos tempos dos atletas. A mediana é 10.28. Como ela divide a distribuição ao meio, tudo que estiver abaixo deste valor é melhor, porque caminha na direção dos menores tempos, e tudo aquilo que estiver acima, claro, será pior. A caixa é delimitada por Q1 = 10s e Q3 = 10.79s, ou seja, 50% dos tempos válidos estão separados por 79 centésimos de segundo. À esquerda de Q1, até o mínimo, estão os 25% que representam os melhores tempos já registrado. O mínimo, aliás, é o recorde olímpico (9.63s ), estabelecido por Usain Bolt em 2012. À direita de Q3, até o máximo (11.20), os 25% que correspondem aos piores tempos, mas que não são outliers. Estes estão bem à direita, com tempos iguais ou maiores que 12 segundos. Pode-se dizer que o que está dentro da caixa está bem distribuído pelos quartis delimitados pelo resumo que as cinco medidas do box plot proporcionam. Contudo, a mediana se apresenta ligeiramente à esquerda em relação ao meio da caixa, revelando uma leve assimetria à direita. Possivelmente são os outliers que estão "espremendo" a caixa.

Decido então fazer a famosa investigação dos outliers, para saber se realmente eles devem continuar na análise ou se devem ser retirados. Precisei  utilizar dois recursos visuais neste box plot inicial para evidenciar de forma resumida o que achei. Vejam a figura:


    • Dei uma espaçada vertical nos pontos do gráfico para evidenciar o tempo exatamente igual que três atletas obtiveram na primeira final, em 1986: 12.6s. Se não utilizo esse recurso, os pontos se sobrepõem e é difícil mostrar que temos 7 outliers, e não 4 como a primeira figura sugere.
    • Colori os outliers pela variável ano, para mostrar que a maioria desses outliers (5) são de 1896. É normal que isso aconteça, afinal de contas foi a primeira edição deste evento. Se o objetivo na época era determinar o mais rápido, a partir dali o objetivo seria até onde é possível chegar. Os outros dois pontos são das edições de 1988 e 2012, com a investigação mostrando que estes pontos de referem a atletas que se machucaram durante suas respectivas finais, mas mesmo assim conseguiram concluir a prova. Os dois fatos já são histórias em si, mas talvez não sejam os mais relevantes, não é mesmo? 
Concluída a investigação dos outliers, decido retirar os pontos do gráfico para ver se isso influencia nas medidas, voltando ao aspecto do primeiro gráfico:


A mediana mudou muito pouco, menos um centésimo, mas o limite superior da caixa diminuiu bastante, cerca de 9 centésimos (de novo, isso é muito em uma corrida de 100m). Isso significa que mais tempos acabam sendo classificados como 25% piores (de 40 no cenário anterior para 45 agora). Como a tendência é a disputa aumentar com o tempo, daqui a algumas edições pode ser que mais tempos estejam no último quartil ou sejam até mesmo outliers, pois a caixa se "movimentará" para a esquerda, deixando os piores tempos literalmente para trás. 

Vale dizer que eu poderia ter passado por essa parte da investigação afirmando que era normal a mediana ligeiramente à esquerda já que se trata de uma disputa pelos menores tempos, mas eu perderia a chance de ilustrar esse processo investigativo que é tão importante.

Voltando. Essa investigação me deu um insight (e você deveria tê-lo também):

💡 Todos os pontos de 1896 são os outliers e os pontos das Olimpíadas de 1988 e 2012 estavam bem próximos dos 25% melhores. Houve uma evolução temporal dos tempos, então, certo

Então o que precisamos é de um box plot para cada edição, certo? Ordenados ao longo dos anos será possível analisar e trazer, possivelmente, fatos mais interessantes que esses encontrados no box plot único. 

Box Plots e a evolução dos resultados ao longo do tempo

Eu já antecipo que seria muita presunção apresentar de forma clara e objetiva 124 anos de história em 29 edições de jogos olímpicos. Ao desdobrar o box plot anterior ao longo do tempo, o intuito é uma visão geral mesmo do comportamento ao longo do tempo, de novo uma visão geral, "de cima", o mais simples possível. Tanto é que há o mínimo de informação: somente as caixas e os outliers. 

Atletismo - Resultados das finais dos 100m rasos para homens - 1896 a 2020

Se você precisar aumentar o gráfico abaixo, clique na imagem

Esse tipo de visão nos permite identificar, caso existam, padrões gerais, outliers e vão gerar insights e hipóteses cujas respostas vão levar a um aprofundamento na direção da história que se quer contar.

Contudo, não é porque o gráfico é simples que a história também será. Lembre-se, é um box plot. Trata-se de um gráfico complexo, e ao se deparar com um desses, você já deve ter em mente que o objetivo não é dizer que ao longo do tempo os tempos diminuíram, que em 1896 o primeiro colocado fez os 100m em 12s e o recorde olímpico é do Bolt, batido em 2012. Esse é um subtexto que poderia ser interpretado apenas com um gráfico de linha, muito mais simples que esse. 

Box plots apontarão outliers e vão permitir a comparação das distribuições dos resultados entre as edições dos jogos olímpicos. E dentro do box plot de cada edição existem outras histórias. O que eu quero dizer com isso? Que este gráfico traz uma história completa, mas explorando as diversas possibilidades que ele apresenta, pode ser que a estória final não necessite de todo o gráfico. O meu (nosso) dever como analista é explorar esse gráfico, seus padrões para trazer o que vai funcionar para a audiência (público alvo) no formato escolhido. Vamos ponto a ponto.

Padrões em Box Plots

O que é interessante notar, e acho importante dar uma treinada no olho para reconhecer rápido são os padrões que se apresentam no gráfico. O tempos diminuíram, claro, mas como se deu esse desenvolvimento? Seria fácil pelo gráfico de linha identificá-los? Dê uma olhada na figura abaixo, circulei os padrões que encontrei para ficar mais fácil a visualização:

Atletismo - Resultados das finais dos 100m rasos para homens - 1896 a 2020

Gráfico inicial com padrões


1896 - a primeira olímpiada foi um evento único em termos de resultados, e como tal também teve seus resultados únicos, com o campeão marcando 12s. Depois dela tudo seria muito diferente. 

1900 a 1928 - Com uma queda de 1s (sim, isso é muita coisa!), o melhor tempo de 1900 inicia o primeiro padrão duradouro que vejo, que dura 7 Olimpíadas. Nesta fase a pouca diversidade na participação dos atletas aliada a um sistema de medição arcaico manteve os melhores tempos iguais em quatro edições (10.8s). Somente perto do fim deste período tivemos o tempo de 10.6s alcançado, em 1924.

1932 a 1948 - Neste período que envolve as edições anterior e posterior à Segunda Guerra, os tempos baixaram e se mantiveram mais ou menos estáveis, estabelecendo um novo patamar mediano. Os box plots ficam bem espaçados, as medianas ficam bem marcadas, mas nenhuma performance se destaca...

1952 e 1956 - ... até chegarmos nestas duas edições nas quais os tempos pareceram retroceder ao primeiro padrão. Podemos falar em retroceder ("piorar") porquê já tínhamos tempos muito abaixo desses que se apresentam. Tanto é que ao ser o único a correr neste patamar Bobby Morrow se tornou o primeiro outlier da série. Sua performance foi de destaque, mas porque a dos demais decepcionou. Se ele tivesse corrido em 1948, por exemplo, não teria vencido.

1960 a 1984 - A edição da Itália inicia o quarto conjunto de edições que giram em torno de uma performance semelhante. Estabelecendo um novo patamar nos tempos, os corredores agora correm em tempos muito menores, e em 1968 é batida a barreira dos 10s, com Jim Hines marcando 9.9s. O período ainda é marcado por oscilações nos resultados, mas fecha em tendência de queda com Carl Lewis aparecendo como campeão em 1984 e voltando a bater a barreira dos 10s em jogos olímpicos.

1988 a 2000 - Após a confirmação do doping de Ben Johnson, Carl Lewis, segundo colocado, é o primeiro bicampeão da história dos 100m. Ele baixa o próprio tempo em 7 centésimos de segundo (com 9.92s) e inicia-se um período de quedas sucessivas, com uma busca incansável pelo recorde. Em 1996 Donovan Bailey diminui o melhor tempo da prova em mais 8 centésimos de segundo, marcando 9.84s em Atlanta.

2000 a 2020 - O último padrão observado é o atual. Com Gatlin em 2004 baixando em 2 centésimos o tempo anterior, surge o americano que poderia ter feito história nas edições seguintes. Não fosse seu banimento por quatro anos justamente durante a segunda metade os anos 2000, teríamos visto o maior duelo de corredores dos jogos olímpicos entre ele e o fenômeno Bolt, que detém o recorde olímpico com impressionantes 9.69 em 2012 e que dura até hoje. Bolt foi tão espetacular que na edição anterior ele foi um legítimo outlier, tendo corrido 20 centésimos abaixo do segundo colocado! Para você ter uma ideia melhor do que isso representa, trago aqui o box plot isolado desta edição:


Sacou o tamanho do feito? E aí, a título de ilustração, finalizo mostrando a tabela com as medianas de cada período, para você poder ver como a tendência de queda é nítida nos padrões destacados mas se deu de forma muito diferente em cada período:


É nesse ponto que eu aproveito para chamar atenção, portanto, que poderíamos ter chegado no mesmo resultado com um simples gráfico de linhas das medianas. Contudo, perde-se todos os detalhes que os gráficos box plot trazem e que eu detalhei ao descrever os períodos acima. Dessa forma, quando você contrasta o gráfico de linha com as medianas (ou a tabela) e os box plots, vê que com os primeiros temos uma estória de uma linha, enquanto que com os box plots você começa a escrever estórias com vários parágrafos. 

É importante se notar também que os box plots aumentam a quantidade de perguntas que podemos fazer sobre os dados, e além do conhecimento analítico, ainda proporcionam um conhecimento aprofundado sobre o "negócio", na medida em que vamos pesquisando em fontes secundárias o que aconteceu em cada ponto de interesse. Veja que descobrimos sobre diferentes formatos de competições, formas de medições, dopings, atletas que se machucaram durante a prova...tudo isso traz para o analista um conhecimento extra de bastante profundidade, tudo devido aos box plots.A análise é feita explorando-se a visão montada ao mesmo tempo em que os insights vão surgindo e as perguntas levam às respostas que vão dando forma à história.

Outliers

No caso do atletismo, outliers na parte de cima significam tempos muito elevados, ou seja, ruins. Geralmente o foco é nos outliers que ocorrem na parte de baixo, que representam os menores tempos em uma determinada edição. Exatamente isso: numa determinada edição. Quando comparamos vários boxplots lado a lado, não necessariamente o outlier mais acima ou abaixo representará - no caso do atletismo - o recorde olímpico (que é o menor tempo de todos, o mínimo). E vemos este fato na nossa frente, mesmo nesta imagem. O outlier inferior mais abaixo é em 2008, já que naquela edição o vencedor, Usain Bolt, fez um tempo muito abaixo dos demais. Contudo, este não foi o recorde olímpico. Este foi alcançado na Olimpíada seguinte, e nesta edição este tempo não foi um outlier! A informação que o box plot desta edição nos mostra é que o nível de competição foi altíssimo. Bolt chegou na frente e fez o melhor tempo, mas quem veio atrás chegou praticamente junto. Fica melhor se for ilustrado:

Tyson Gay não aparece na tabela pois foi desclassificado devido a mais um caso de doping

Inclusive nesta olimpíada de 2012 temos um outro outlier também na parte de cima, mostrando que o tempo de Asafa Powell foi muito superior aos demais. Ele fez 11.99s após de machucar a poucos metros da linha de chegada. É por isso que não aparece na foto. Tempo pior que esse só mesmo Stewart em 1988, com 12.26, pelo mesmo motivo.

Ainda sobre os outliers, complemento com os da parte de baixo: Maurice Greene em 2000 (9.87s), Carl Lewis em 1984 (9.99s, primeiro abaixo dos 10s ) e Bobby Morrow em 1956 (10.62s). 

Comparabilidade Prejudicada

Eu havia decidido retirar os outliers já no primeiro box plot. Esse segundo, aberto pelos anos, só reforça a necessidade desse posicionamento, mostrando que esta Olimpíada inteira está no mesmo patamar desses outliers na parte de cima que acabamos de falar. Explorando os artigos das primeiras edições ( ao passo que preciso adquirir conhecimento adicional sobre o "negócio"), foi possível compilar uma série de inconsistências que me fizeram repensar sobre o período que eu deveria manter na análise. Não era mais só uma questão de uma edição muito antiga cujos tempos equivaliam aos de outliers de quem se machucou no meio da prova. Eram variações que comprometeriam a comparabilidade por mais algumas edições. Veja se concorda: 
  • Não havia o sistema de premiação com ouro, prata e bronze. Para os jogos de 1896 é o COI que reconhece os atletas dessa forma;
  • O formato mudava sempre devido ao número de participantes em cada edição. Na maioria das primeiras edições o número de corredores na final não chegava a 8, como é hoje;
  • O mais problemático: até 1960 vigorou um sistema de medição no qual os tempos eram medidos manualmente com cronômetros por três juízes diferentes, e a mediana era o tempo registrado. Caso necessário o tempo ainda sofria alguns ajustes; veja este link e este também para mais detalhes. Esta medição arcaica favorecia os empates e por isso as edições de 1908/12/20/28 possuem o mesmo melhor tempo: 10.8s. Veja no "zoom", com o gráfico contendo apenas essas edições:

Atletismo - Resultados das finais dos 100m rasos para homens - 1896 a 1928

"Zoom", com foco nas edições até 1928. 
  • A medição dos tempos só foi automatizada em 1964, no Japão. Esta também foi a primeira edição com 8 corredores na final. Em termos de comparabilidade com o que vemos hoje ela representa um divisor de águas
  • Em 1916, e também 1940 e 1944 não aconteceram Jogos Olímpicos devido à Primeira e Segunda Guerras Mundiais, respectivamente. Esses anos causam intervalos no gráfico e como não trazem nada sobre os resultados em si, podem ser retirados também para poupar espaço.
Portanto, retirando estes anos, as edições até 1956 devido à alta inconsistência nos formatos de competição e medição (para favorecer a comparabilidade), o gráfico passa a ficar assim:

Atletismo - Resultados das finais dos 100m rasos para homens - 1964 a 2020


Opa! Agora sim, temos um gráfico legível, com 60 anos de história. Os outliers que interessam ficam bem marcados, as variabilidades aparecem e acho que estou próximo de chegar a uma versão final. Para analisar com mais detalhes, podemos fazer algumas modificações: incluir os pontos e os nomes dos principais atletas (atribuindo uma cor diferente para cada um) e removendo a cor da caixa para que os mesmos se destaquem e sejam mais fáceis de identificar. Também removi os dois primeiros dígitos de cada ano para poder reduzir a largura sem prejudicar a clareza.Vejam como fica:

Atletismo - Resultados das finais dos 100m rasos para homens - 1960 a 2020


Agora que temos um gráfico com dados e legibilidade satisfatória, posso analisá-lo.

Análise Estatística dos Box Plots

Os padrões representam eras, pois são agrupamentos de várias edições, e o que posso me perguntar agora é se ao longo dessas eras os box plots mudam. Contudo - e este é o ponto onde o box plot brilha - a inspeção visual já mostra que o padrão para esses anos é praticamente o mesmo: o gráfico se apresenta bem espaçado, em praticamente todos temos os whiskers presentes e a mediana (sejamos razoáveis aqui) divide Q2 (em cinza escuro) de Q3 (cinza claro) no meio da caixa. As exceções estão selecionadas na figura abaixo para facilitar a identificação desses padrões diferentes:



1960 e 1964 - A caixa fica toda cinza escuro, sem mostrar a linha da mediana. Isso acontece porque tanto a mediana quanto Q3 possuem o mesmo valor, numa mistura de diversos motivos que ocorrem simultaneamente e que já foram mencionados anteriormente: poucos atletas na final (tamanho de amostra pequeno), sistema de medição manual e metodologia de arredondamento dos resultados. A interpretação dos box plots nestes casos é que para estas duas edições os tempos medianos ficaram mais próximos dos tempos ruins. 

Fica difícil diferenciar a boa performance de uma performance ruim, assim como a confiabilidade nos resultados fica prejudicada devido à alta ocorrência de empates. A metodologia de arredondamento dos tempos provavelmente influencia muito mais nestes tempos do que o nível de competitividade, pois com a medição automática sabemos que uma prova pode ser altamente competitiva sem empates (veremos isso mais à frente no texto). 

Aproveito aqui para ilustrar o "cálculo" da mediana nos dois anos: em 1960 a mediana é a média dos dois corredores centrais (10.30s), pois o número de observações é par; em 1964 o quarto colocado divide igualmente a distribuição em duas partes (10.40s). Acompanhe nas tabelas abaixo:


1960 e 1988 - Esses dois anos não possuem um dos whiskers. Na edição de 1960, é o inferior, e na de 1988, a superior. Isso acontece porque o valor de Q1 é igual ao mínimo, no primeiro caso, e Q3 igual ao máximo, no segundo. Portanto, complementando a análise da edição de 1960, os dois primeiros colocados empatados geram este padrão de boxplot, ou seja, em termos de box plot, visualmente não há um mínimo, mesmo havendo um vencedor. No lado oposto desta interpretação está a edição de Seul em 1988: Os seis atletas que fecharam a prova tiveram um bom nível de disputa, mas com um mínimo. Robson Caetano e Desai Williams são os dois pontos empatados em 5º e 6º lugares (o outlier de Stewart já eliminamos, não esqueça). Como a tomada dos tempos já era automatizada há muito tempo, se os tempos foram exatamente iguais é porque chegaram juntos ou este era o limite do aparelho medidor. Neste caso temos mais razões para acreditar que o nível de competição foi maior, até porque desta vez tivemos 3 corredores abaixo dos 10s. Veja:


2004 - Gatlin venceu, e o nível de competição aumentou mais ainda. Já faz sentido inclusive incluir uma linha de referência nos 10 segundos, já que temos cada vez mais corredores abaixo da marca. Com tamanha competitividade, a mediana se direciona para os tempos mais baixos, e a caixa fica toda quase cinza claro. Mínimo, Q1 e Mediana (metade dos corredores) estão muito próximos, e o tempo de Thompson fica muito para trás:


2012 e 2020 - Já ilustramos bem a edição de 2012 no tópico de outliers, mas vale a pena reforçar que foi a primeira vez que todos os corredores finalizaram a prova em menos de 10 segundos. Não só os recordes foram sendo batidos de forma consistente a partir de 1984, como o nível de competitividade cresceu absurdamente. Depois observe 1988, 2004 e 2012 e veja como os box plots mostram isso com diversos padrões. Não há uma fórmula mágica, mas analisando cada um conseguimos sintetizar o que querem dizer: é o ser humando em busca da superação de seus limites. Em 2020 novamente todos correndo abaixo dos 10s, mas sem uma performance tão boa quando nos tempos de Bolt e Gatlin. Cai o nível de disputa, temos uma nova safra de corredores e Jacobs vencendo o primeiro ouro da Itália na prova.

Insights com Box Plots para o Storytelling

Chegamos num gráfico final, o analisamos de forma estatística e agora, unindo os achados desta análise com os insights das observações provenientes das cinco medidas de resumo que compõem o box plot e o que foi aprendido na pesquisa de aprofundamento sobre o tema, podemos nos preparar para o texto final: Veja que procuro explorar os conceitos de primeiro e último, as tendências, os padrões, o que foi único, o que se repetiu e assim por diante:

Hines, primeiro abaixo dos 10s;
Lewis, o primeiro bicampeão;
Bolt, o primeiro tricampeão, o primeiro a baixar dos 9.7s, o recordista olímpico;
Lewis e Bolt, os únicos a baixarem o tempo da prova de forma consecutiva;
Marcell Jacobs, o primeiro italiano a vencer os 100m;
Robson Caetano, único brasileiro em finais;

A tendência de tempos cada vez menores ao longo do tempo é fortíssima no período 1984-2012, a linha diagonal que liga os pontos mínimos do box plot de cada edição é uma diagonal quase perfeita. Fica evidente a superação dos atletas em busca do menor tempo;

Nas últimas duas edições os tempos aumentam, mas todos os corredores ficam abaixo dos 10 segundos, mostrando também um alto nível dos atletas. A safra se renova, talvez seja o ínício de uma nova era;

Storytelling com dados - traduzindo box plots para o português

Chegamos ao final da missão, agora é só juntar o gráfico com o que foi encontrado na análise estatística, os insights e transformar num texto que permita ao público acompanhar a história:


De 1960 para cá, a prova dos 100 metros rasos para homens nos Jogos Olímpicos se tornou um exemplo da incansável busca do ser humano pela superação dos seus limites. Após Hines se tornar o primeiro homem a correr abaixo dos 10 segundos em 1968, os tempos retrocederam e durante quatro Olimpíadas nenhum atleta repetiu o feito. Até 1980* Moscou, marcada pelo boicote americano durante a Guerra Fria foram edições com muita oscilação nos resultados, e pode-se perceber que existia até mesmo uma certa apatia, ou até mesmo incapacidade de se correr abaixo da marca novamente.

Contudo, a edição seguinte dos jogos em Los Angeles foi palco da performance fora da curva do americano Carl Lewis, com um tempo que finalmente foi abaixo de 10 segundos novamente e estabeleceu uma nova era no esporte. Lewis se superaria na Olimpíada seguinte, tornando-se o primeiro bicampeão da prova - após a confirmação de doping de Ben Johnson - com o tempo de 9.92s (então novo recorde olímpico). Foi a primeira vez também que um atleta conseguiu baixar duas vezes seguidas o tempo da prova. Embora Donovan Bailey (quebrando o recorde de Lewis com 9.84s) e Maurice Greene (com 9.87s) tenham terminado este período com tempos bem abaixo dos 10s, o limite parecia ter sido atingido.

Até que em 2008 o mundo, que já conhecia Asafa Powell, também conheceria seu compatriota Usain Bolt. O fenômeno jamaicano correu abaixo dos 9.7s, e com 9.69s pulverizou o recorde olímpico. Na Olimpíada seguinte, baixou mais, vencendo a prova com 9.63s e igualando o feito de Lewis, com o bicampeonato olímpico. Em 2016, no Rio, Bolt terminou de escrever seu nome de vez na história do atletismo - e do esporte - ao se tornar o primeiro tricampeão dos 100m rasos. Seu recorde dura até hoje. 

Na última edição dos jogos, sem Bolt e Gatlin, pela primeira vez venceu um italiano, Marcell Jacbos, com 9.8s. Será que estamos diante dos novos corredores que irão superar a marca de Bolt? Os jogos de Paris dirão. Até lá!

Contexto, Subtexto e Design

A paleta de cores para representar os atletas foi escolhida de acordo com as cores de seus respectivos países e na legenda os atletas foram agrupados para reforçar essa ideia de forma subjetiva, já que escolhi não fazer referência às nacionalidades no gráfico para não adicionar mais uma camada de informação e deixá-lo poluído. Se a pessoa percebeu que as cores dos atletas refletem as cores das bandeiras dos países que representam, a mesma pode sacar que a safra de corredores jamaicanos que começou com Asafa Powell e terminou com Bolt tirou a hegemonia dos EUA na prova (que vinha com Hines, Lewis, Greene e Gatlin). Ainda sobre nacionalidades, tratava-se de um domínio de atletas de língua inglesa, já que Bailey é canadense e Christie, inglês. Mas e história sobre dominância e rivalidade é papo para uma outra conversa.

Até mais!


* Não está no gráfico, mas em 1980 - o mundo ainda vivia a Guerra Fria - os EUA boicotaram os jogos de Moscou. O vencedor da prova foi um inglês; em 1984, Los Angeles, os americanos voltam muito fortes na prova com Carl Lewis, desta vez com a edição marcada pela ausência da antiga URSS. Certamente o contexto histórico ajuda a entender e a se justificar alguns resultados.

Postagens mais visitadas deste blog

Um futebol de emoções: wordclouds em python mostram o que disseram os torcedores dos times do campeonato brasileiro de 2021

Anatomia de um Tweet e as transmissões de partidas de futebol pelo Twitter: o supra sumo da emoção

Storytelling com Dados - Box Plots