A Interação e as Diferenças entre Análise Exploratória de Dados (EDA) e Análise Confirmatória de Dados (CDA)
E atenção: jamais confunda Análise Exploratória de Dados com análise inicial de dados.
E atenção: jamais confunda Análise Exploratória de Dados com análise inicial de dados.
"A diferença entre Análise Exploratória de Dados (EDA) e Análise Confirmatória de Dados (CDA) é mais proeminente no início de uma análise. A EDA começa com os dados. Lendo o texto clássico de Tukey, encontra-se repleto do puro prazer de simplesmente 'rabiscar números' (hoje os dados são mais do que números). Essa é a essência da EDA, uma essência que se perdeu na maior parte do que hoje é chamado de EDA. O que a maioria das pessoas chama de EDA hoje (resumido em Staniak & Biecek, 2019) deve ser considerado como análise inicial de dados (IDA), que emerge da escola britânica de análise de dados, com o termo cunhado por Chatfield (1985). Chatfield enfatiza "a necessidade de ver a IDA e a inferência clássica como complementares e não como rivais" [...]. Para Chatfield, a IDA é o quarto passo no processo de análise, após clarificar os objetivos, coletar dados de forma apropriada, investigar a estrutura e a qualidade dos dados, sendo seguida pela realização de uma análise estatística formal, comparando os resultados com descobertas anteriores e, por fim, comunicando os resultados. Assim, a IDA é preliminar à análise estatística formal, embora Chatfield argumente que às vezes a IDA é tudo o que é necessário. Isso é muito diferente da EDA de Tukey, que é mais a do descobridor, que recebe uma criatura exótica e tem a tarefa de nos informar sobre sua magia, ou a falta dela.
Quando você começa com os dados, o primeiro passo é a abstração (que pode parecer um passo para trás) para definir quais tipos de variáveis estão presentes, como os dados foram coletados. Os tipos de variáveis informarão os tipos de gráficos que são apropriados, os tipos de agregações ou modelos que podem ser ajustados para entender os padrões dentro de uma variável e entre variáveis. (Isso é o que Tukey poderia chamar de ‘rabiscar números’.) Também é um bom momento para sentar e ponderar, e delinear explicitamente o que se pode esperar ver quando aplicarmos as técnicas aos dados. Porque isso ajuda a explicitar o que seria interessante (hipótese alternativa) e não interessante (hipótese nula ou conjuntos de referência). Na realidade, a taxonomia fornecida pela Figura 1 não reflete que na prática as linhas entre EDA e CDA podem ser muito mais borradas. Muitas vezes, pode-se começar com CDA, fazer um desvio ortogonal ao objetivo e encontrar padrões inesperados nas medições. Inversamente, alguém começando com EDA pode usar a riqueza das ferramentas computacionais de hoje para calcular a probabilidade de se ver um determinado padrão. A introdução de Cook e Swayne (2007) fornece um exemplo claro e simples de EDA e CDA lado a lado, e uma discussão sobre a interação entre os dois, e sobre questões de investigação de dados, descoberta falsa versus a tragédia da não descoberta. Deve-se notar que a construção de modelos não é sinônimo de CDA e é frequentemente um empreendimento da EDA. Todas as críticas de investigação de dados direcionadas aos gráficos de dados são adequadamente direcionadas também à construção de modelos.
Um exemplo da estreita conexão entre modelagem e EDA pode ser encontrado em Hand et al. (2000), descrevendo uma análise de transações de cartões de crédito para compras em postos de gasolina no Reino Unido. Um padrão interessante de modos em £10, £15, £20, ... é visto a partir de um histograma, e isso é seguido pela construção de um modelo de mistura para capturar esse padrão, que se espera possa ser usado no futuro com novos dados.
O estreito acoplamento de modelagem e gráficos interativos tem sido o objetivo da pesquisa em gráficos estatísticos desde o início. Isso se reflete no trabalho mais antigo de Tukey e pode ser visto repetidamente em vídeos históricos disponíveis na biblioteca de vídeos da ASA (ASA Statistical Graphics Section, 2021). Os padrões de ouro são XLispStat (Tierney, 1991) e DataDesk (Velleman, 2012). O surgimento do R (R Core Team, 2018) como o próximo nível a partir do S (Becker et al., 1988), na verdade, reflete o estreito acoplamento de modelagem e gráficos. O que falta no R são os gráficos interativos de alto nível — uma área de esforço muito ativa agora por vários pesquisadores.
Além disso, formalismos recentes, incluindo dados organizados (Wickham, 2014) e a gramática dos gráficos (Wickham, 2016; L. Wilkinson, 2005), fortalecem a inferência a partir da EDA usando gráficos.
COOK, Dianne; REID, Nancy; TANAKA, Emi. The foundation is available for thinking about data visualization inferentially. Harvard Data Science Review, n. 3.3, 2021. Available at:
https://hdsr.mitpress.mit.edu/pub/mpdasaqt/release/2
O Brasil precisa de uma opinião pública melhor informada, atenta e democrática.
As manifestações presentes neste blog são de caráter estritamente pessoal.
Para seguir o blog e receber postagens atualizadas, use a opção "seguir", ao lado.