AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Correlação de Saída Anotada da Stata Esta página mostra um exemplo de correlação com notas de rodapé explicando o resultado. Utilizamos o conjunto de dados hsb2 para este exemplo. As variáveis são lidas. Escrita, matemática e ciência são pontuações que 200 alunos receberam nesses testes. A variável feminina é uma variável 01 codificada 1 se o aluno fosse feminino e 0 de outra forma. Usamos essa variável 01 para mostrar que é válido usar essa variável em uma correlação quotregular. Quando você usa o comando de correlação no Stata, a exclusão de dados faltantes é feita por padrão. Quando você faz uma exclusão de lista, se um caso tiver um valor faltando para qualquer uma das variáveis listadas no comando, esse caso é eliminado de todas as correlações, mesmo que haja valores válidos para as duas variáveis na correlação atual. Por exemplo, se houvesse um valor faltando para a leitura variável. O caso ainda seria excluído do cálculo da correlação entre escrita e matemática. É por isso que o número de observações é o mesmo para todas as correlações e pode ser impresso no topo da saída. uma. Isso indica o número de observações que foram utilizadas nas correlações. Neste conjunto de dados, não temos valores faltantes, então todas as correlações são baseadas em todas as 200 observações. B. Esta é a correlação entre ler e ler. A correlação entre qualquer variável e ela mesma é sempre 1. c. Esta é a correlação entre escrever e ler. É positivo, indicando que a medida que uma pontuação aumenta, assim como a outra. As correlações medem a força ea direção da relação linear entre as duas variáveis. O coeficiente de correlação pode variar de -1 a 1, com -1 indicando uma correlação negativa perfeita, 1 indicando uma correlação positiva perfeita e 0 indicando nenhuma correlação. (Uma variável correlacionada consigo sempre terá um coeficiente de correlação de 1.) Você pode considerar o coeficiente de correlação como dizendo o grau em que você pode adivinhar o valor de uma variável dado o valor da outra variável. A partir do diagrama de dispersão das variáveis lidas e escritas abaixo, podemos ver que os pontos tendem ao longo de uma linha que vai da parte inferior esquerda para a parte superior direita, o que é o mesmo que dizer que a correlação é positiva. O 597 é a descrição numérica de quão forte em torno da linha imaginária são os pontos. Se a correlação fosse maior, os pontos tendem a estar mais próximos da linha se fosse menor, tenderiam a estar mais longe da linha. Observe também que, por definição, qualquer variável correlacionada com ela própria possui uma correlação de 1. d. Esta é a correlação entre leitura e sexo feminino. É negativo, indicando que à medida que uma pontuação diminui, a outra aumenta. Parcelamento de exclusão de dados ausentes As correlações na tabela abaixo são interpretadas da mesma forma que as acima. A única diferença é a forma como os valores em falta são tratados. Quando você faz a exclusão em dois pontos, como fazemos neste exemplo, um par de pontos de dados são excluídos do cálculo da correlação somente se um (ou ambos) dos pontos de dados desse par estiver faltando. Na verdade, não há regras que definam quando você deve usar a exclusão em pênsil ou em lista. Depende do seu propósito e se é importante que exatamente os mesmos casos sejam usados em todas as correlações. Se você tiver muitos dados faltantes, algumas correlações podem ser baseadas em muitos casos que não estão incluídos em outras correlações. Por outro lado, se você usar uma exclusão de lista, talvez você não tenha muitos casos a serem usados no cálculo. uma. Esta é a correlação entre leitura e escrita. É positivo, indicando que, à medida que a pontuação de leitura aumenta, esperamos que a pontuação de escrita também aumente. B. Este é o número de observações utilizadas no cálculo da correlação. ScatterplotNOTICE: O grupo de consultoria IDRE Statistical estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Módulo de Aprendizado STATA Dados perdidos 1. Introdução Este módulo explorará os dados faltantes no STATA, com foco em dados faltantes numéricos. Ele irá descrever como indicar a falta de dados em seus arquivos de dados brutos, bem como como dados faltantes são tratados nos comandos lógicos STATA e instruções de atribuição. Vamos ilustrar algumas das propriedades dos dados perdidos no STATA usando dados de um estudo de tempo de reação com oito assuntos indicados pelo ID da variável. E os tempos de reação dos sujeitos foram medidos em três pontos de tempo (trial1 trial2 trial3). O arquivo de dados de entrada é mostrado abaixo. Você pode notar que alguns dos tempos de reação são codificados usando um único. Como é o caso do assunto 2. A pessoa que mede o tempo para esse teste não mediu o tempo de resposta adequadamente, portanto, os dados para o segundo julgamento estão faltando. 2. Como o STATA lida com dados faltantes nos procedimentos STATA Como regra geral, os comandos STATA que executam cálculos de qualquer tipo manipulam dados ausentes, omitiendo os valores faltantes. No entanto, a forma como os valores em falta são omitidos nem sempre é consistente em todos os comandos, então, diga-nos alguns exemplos. Primeiro, let39s resumem nossas variáveis de tempo de reação e veja como o STATA lida com os valores que faltam. Como você vê na saída abaixo, resuma os meios calculados usando 4 observações para trial1 e trial2 e 6 observações para trial3. Em resumo, o comando de resumo executou os cálculos em todos os dados disponíveis. Um segundo exemplo, mostra como o comando tabulação ou tab1 lida com dados faltantes. Como resumir, tab1 usa apenas dados disponíveis. Observe que as porcentagens são calculadas com base no número total de casos não faltantes. É possível que você possa querer que as porcentagens sejam calculadas a partir do número total de observações, e a porcentagem em falta para cada variável mostrada na tabela. Isso pode ser alcançado incluindo a opção em falta após a tabulação. Comando, Let39s veja como o comando correlate lida com dados faltantes. Esperamos que ele execute os cálculos com base nos dados disponíveis e omita os valores em falta. Aqui está um exemplo de comando. A saída é mostrada abaixo. Observe como os valores em falta foram excluídos. O Stata executará a exclusão da lista e exibirá apenas correlação para as observações que tenham valores não faltantes em todas as variáveis listadas. A Stata também permite a eliminação em pares. As correlações são exibidas para as observações que possuem valores não faltantes para cada par de variáveis. Isso pode ser feito usando o comando pwcorr. Usamos a opção obs para exibir o número de observação usado para cada par, como você pode ver, eles diferem dependendo da quantidade de falta. 3. Resumo de como os valores faltantes são tratados nos procedimentos STATA resumem. Para cada variável, o número de valores não faltantes é usado. Tabulação Por padrão, os valores em falta são excluídos e as porcentagens são baseadas no número de valores não faltantes. Se você usar a opção perdida no comando tab, as porcentagens são baseadas no número total de observações (não faltando e faltando) e a porcentagem de valores faltantes é relatada na tabela. Corrente Por padrão, as correlações são calculadas com base no número de pares com dados não faltantes (emparelhamento de dados faltantes). O comando pwcorr pode ser usado para solicitar que as correlações sejam computadas apenas para observações que tenham dados não faltantes para todas as variáveis listadas após o comando pwcorr (eliminação de dados faltantes). Reg Se alguma das variáveis listadas após o comando reg estiver faltando, as observações que faltam esse (s) valor (es) são excluídas da análise (ou seja, a eliminação de dados faltantes). Para outros procedimentos, consulte o manual STATA para obter informações sobre como os dados faltantes são tratados. 4. Valores faltantes nas declarações de atribuição É importante entender como os valores em falta são tratados nas declarações de atribuição. Considere o exemplo mostrado abaixo. O comando da lista a seguir ilustra como valores faltantes são tratados nas instruções de atribuição. A variável sum1 é baseada nas variáveis trial1 trial2 e trial3. Se alguma dessas variáveis estivesse faltando, o valor para sum1 estava configurado como ausente. Portanto, o sum1 está faltando para as observações 2, 3 e 4, como é o caso da observação 7. Como regra geral, os cálculos envolvendo valores faltantes produzem valores faltantes. Por exemplo, 2 2 produz 4 2. rendimentos . 2 2 produz 1. 2 rendimentos. 2 3 produz 6 2. rendimentos . Sempre que você adicionar, subtrair, multiplicar, dividir, etc. valores que envolvem dados em falta, o resultado está faltando. Em nosso experimento de tempo de reação, o tempo de reação total sum1 está faltando para quatro dos sete casos. Poderíamos tentar totalizar os dados para os testes não faltantes, usando a função rowtotal como mostrado no exemplo abaixo. Os resultados abaixo mostram que sum2 agora contém a soma dos ensaios não faltantes. Observe que a função rowtotal trata faltando como um valor zero. Ao somar várias variáveis, pode não ser razoável tratar falta como zero se faltarem observações em todas as variáveis a serem somadas. A função rowtotal com a opção ausente retornará um valor faltante se falta uma observação em todas as variáveis. Outras declarações funcionam de forma semelhante. Por exemplo, observou o que aconteceu quando tentamos criar uma variável média sem usar uma função (como no exemplo abaixo). Se alguma das variáveis trial1, trial2 ou trial3 estiver faltando, o valor para avg1 está definido como ausente. Alternativamente, a função rowmean calcula a média dos dados para os testes que não faltam da mesma maneira que a função rowtotal. Nota: Houve um grande número de testes, digamos 50 tentativas, então seria irritante ter que digitar avgrowmean (trial1 trial2 trial3 trial4.). Aqui está um atalho que você pode usar neste tipo de situação: Finalmente, você pode usar as funções rowmiss e rownomiss para determinar o número de falta e o número de valores não faltantes, respectivamente, em uma lista de variáveis. Isso é ilustrado abaixo. Para variável nomiss. As observações 1, 5 e 6 tinham três valores válidos, as observações 2 e 3 tinham dois valores válidos, a observação 4 tinha apenas um valor válido e a observação 7 não tinha valores válidos. A variável miss mostra o contrário, fornece uma contagem do número de valores em falta. 5. Valores em falta em declarações lógicas É importante entender como os valores faltantes são tratados em declarações lógicas. Por exemplo, diga que deseja criar uma variável 01 para trial1 que seja 1 se for 1.5 ou menos e 0 se for superior a 1.5. Mostramos isso abaixo (incorretamente, como você verá). Parece que algo deu errado com a nossa nova variável new-new1 recentemente criada. As observações com valores faltantes para trial2 receberam um zero para newvar1. Vamos explorar por que isso aconteceu olhando a tabela de freqüência do teste2. Como você pode ver na saída, os valores em falta estão listados após o valor mais alto 2.1. Isso ocorre porque STATA trata um valor faltante como o maior valor possível (por exemplo, infinito positivo) e esse valor é maior do que 2.1, então os valores para Newvar1 torna-se 0. Agora que entendemos como o STATA trata os valores faltantes, excluiremos explicitamente os valores em falta para garantir que eles sejam tratados corretamente, conforme mostrado abaixo. Como você pode ver na saída STATA abaixo, a nova variável newvar2 tem valores faltantes para observações que também estão faltando para trial2. 6. Valores em falta em declarações lógicas Ao criar ou recodificar variáveis que envolvem valores em falta, sempre preste atenção se a variável inclui valores faltantes. 7. Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.
No comments:
Post a Comment