Thursday 5 April 2018

Multiple lags in stata forex


Bem-vindo ao Instituto de Pesquisa e Educação Digital SAS FAQ: Como criar variáveis ​​de atraso e lead em dados longitudinais Ao analisar dados em unidades de tempo consistentes (anos, trimestres, meses), muitas vezes há interesse em criar variáveis ​​com base em como os dados para um determinado período de tempo se comparam aos períodos antes e depois. Se você tiver dados longitudinais, você deseja examinar as unidades de tempo em um único assunto. Quando seus dados estão em formato longo (uma observação por ponto de tempo por assunto), isso pode ser facilmente manipulado em Stata com etapas de criação de variável padrão devido à maneira como Stata processa conjuntos de dados: armazena todo o conjunto de dados e pode facilmente se referir a qualquer ponto no conjunto de dados ao gerar variáveis. O SAS funciona de maneira diferente. Variáveis ​​SAS são tipicamente criadas através de uma etapa de dados na qual o SAS se move através do conjunto de dados, observação por observação, realizando os cálculos para a observação dada e acessando apenas uma observação de cada vez. Esse sistema de armazenamento e acesso a dados possibilita que o SAS analise grandes conjuntos de dados, mas também é muito difícil criar variáveis ​​de séries temporais no SAS usando uma etapa de dados. No entanto, a expansão de proc fornece uma alternativa fácil de usar para a etapa de dados. Vamos começar com um exemplo de conjunto de dados contendo apenas um assunto. O conjunto de dados abaixo contém as taxas de desemprego nos EUA de setembro de 2006 a agosto de 2008. Para cada mês, desejamos saber a diferença entre sua taxa e a taxa do mês anterior (r (i) - r (i-1)), sua taxa e a taxa do próximo mês (r (i1) - r (i)), e essas duas diferenças ((r (i1) - r (i)) - (r (i) - r (i-1) Para isso, usaremos proc expand para gerar um novo dataset incluindo estas variáveis. Na linha de expansão proc, nomearemos o novo dataset desempregado. Nós indicamos que não queremos transformar os valores (usando uma spline, por exemplo), mas simplesmente para pegar os dados não transformados do registro especificado. Nós indicamos que nossa série temporal é definida por data na linha id e nas três linhas convertidas, criamos os três valores que desejamos ter para cada ponto de tempo em nossos dados: a taxa, a taxa anterior (ratelag1) e a próxima taxa (ratelead1). Em cada linha, dizemos ao SAS o nome da variável em nosso novo conjunto de dados, o tipo de transformação (lag. lead) e o nu mais de pontos de tempo para olhar para trás ou para a frente para a transformação (1 neste exemplo). Podemos ver o conjunto de dados resultante. Com base neste conjunto de dados, podemos agora calcular facilmente as três variáveis ​​de séries temporais descritas anteriormente. Mas e se tivéssemos dados para vários países? O conjunto de dados abaixo contém dados de desemprego de 2000-2005 para três países. Desejamos criar variáveis ​​de atraso e lead dentro de cada país. Para fazer isso, podemos usar proc expand com uma declaração por após a classificação no país. Com proc expandir. Você também pode gerar médias móveis, splines e valores interpolados. Para obter mais detalhes, consulte as páginas de expansão de proc da documentação on-line do SAS. A resposta depende do que você deseja fazer. Minimizar o AIC ou o BIC é um critério para selecionar um comprimento de atraso. Você tem múltiplas variáveis ​​tentando ajustar modelos separados a cada variável ou uma única autorregressão de vetor No caso posterior, você deve usar o comando Statas varsoc com múltiplas variáveis ​​e escolher o lag dessa maneira. Por exemplo, calcularemos um comprimento ótimo de atraso (de acordo com AIC, BIC, etc.) para uma autorregressão vetorial com variáveis ​​x. y. e z. Suponha que a resposta seja de 3 lags de acordo com o BIC (recomendado para VAR). Em seguida, o modelo pode ser ajustado usando: Se você precisar restringir determinados atrasos a zero para certos coeficientes, use o comando de restrição. Por exemplo, você precisa do terceiro atraso em x na equação para que y seja zero (talvez haja razões teóricas para isso). Os seguintes irão funcionar: Respondido Nov 22 13 at 16: 30Bem-vindo ao Instituto para Pesquisa Digital e Regressão da Educação com o Stata Capítulo 1 - Regressão Simples e Múltipla Capítulo Outline 1.0 Introdução 1.1 Uma Primeira Análise de Regressão 1.2 Dados de Exame 1.3 Regressão Linear Simples 1.4 Regressão múltipla 1.5 Transformando variáveis ​​1.6 Resumo 1.7 Autoavaliação 1.8 Para mais informações Este livro é composto de quatro capítulos cobrindo uma variedade de tópicos sobre o uso de Stata para regressão. Devemos enfatizar que este livro é sobre análise de dados e que ele demonstra como o Stata pode ser usado para análise de regressão, em oposição a um livro que cobre a base estatística de regressão múltipla. Assumimos que você teve pelo menos um curso de estatística cobrindo a análise de regressão e que você tem um livro de regressão que pode ser usado como referência (consulte a página Regressão com Stata e nossa página Livros estatísticos para empréstimo para os livros de análise de regressão recomendados). Este livro é projetado para aplicar seu conhecimento de regressão, combiná-lo com instruções sobre o Stata, para executar, compreender e interpretar análises de regressão. Este primeiro capítulo abordará tópicos em regressão simples e múltipla, bem como as tarefas de suporte que são importantes na preparação para analisar seus dados, por ex. verificação de dados, familiarizando-se com seu arquivo de dados e examinando a distribuição de suas variáveis. Vamos ilustrar os fundamentos da regressão simples e múltipla e demonstrar a importância de inspecionar, verificar e verificar seus dados antes de aceitar os resultados de sua análise. Em geral, esperamos mostrar que os resultados de sua análise de regressão podem ser enganosos sem mais investigações sobre seus dados, o que poderia revelar relacionamentos que uma análise casual poderia ignorar. Neste capítulo e em capítulos subseqüentes, usaremos um arquivo de dados criado por amostragem aleatória de 400 escolas primárias do conjunto de dados da API do Departamento de Educação da Califórnia em 2000. Este arquivo de dados contém uma medida do desempenho acadêmico da escola, bem como outros atributos das escolas de ensino fundamental, como tamanho da classe, matrícula, pobreza, etc. Você pode acessar esse arquivo de dados pela Web a partir do Stata com o comando stata use como mostrado abaixo. Nota: Não digite o ponto inicial no comando - o ponto é uma convenção para indicar que a instrução é um comando Stata. Depois de ler o arquivo, você provavelmente desejará armazenar uma cópia dele em seu computador (para que você não precise lê-lo na Web sempre). Vamos dizer que você está usando o Windows e quer armazenar o arquivo em uma pasta chamada c: regstata (você pode escolher um nome diferente, se quiser). Primeiro, você pode criar essa pasta no Stata usando o comando mkdir. Podemos então mudar para esse diretório usando o comando cd. E então, se você salvar o arquivo, ele será salvo na pasta c: regstata. Vamos salvar o arquivo como elemapi. Agora o arquivo de dados é salvo como c: regstataelemapi. dta e você pode sair do Stata e o arquivo de dados ainda estará lá. Quando você quiser usar o arquivo no futuro, você usaria apenas o comando cd para mudar para o diretório c: regstata (ou o que quer que você o chamou) e então usar o arquivo elemapi. 1.1 Uma primeira análise de regressão Permite mergulhar para a direita e realizar uma análise de regressão usando as variáveis ​​api00. acsk3. refeições e completo. Estes medem o desempenho acadêmico da escola (api00), o tamanho médio das turmas do jardim de infância até a 3ª série (acsk3), o percentual de alunos que recebem refeições gratuitas (refeições) - que é um indicador de pobreza ea porcentagem de professores que têm credenciais de ensino completo (completo). Esperamos que um melhor desempenho acadêmico esteja associado a um tamanho menor de classe, menos alunos recebendo refeições gratuitas e uma porcentagem maior de professores com credenciais de ensino completas. Abaixo, mostramos o comando Stata para testar este modelo de regressão seguido pela saída Stata. Vamos nos concentrar nos três preditores, se eles são estatisticamente significativos e, em caso afirmativo, a direção do relacionamento. O tamanho médio da turma (acsk3. B-2.68), não é estatisticamente significante no nível 0,05 (p0,055), mas apenas isso. O coeficiente é negativo, o que indica que um tamanho de classe maior está relacionado a um desempenho acadêmico mais baixo - que é o que esperamos. Em seguida, o efeito das refeições (b-3.70, p. 000) é significativo e seu coeficiente é negativo, indicando que quanto maior a proporção de alunos que recebem refeições gratuitas, menor o desempenho acadêmico. Por favor, note que não estamos dizendo que as refeições gratuitas estão causando menor desempenho acadêmico. A variável comida é altamente relacionada ao nível de renda e funciona mais como um proxy para a pobreza. Assim, níveis mais elevados de pobreza estão associados a um menor desempenho acadêmico. Esse resultado também faz sentido. Finalmente, a porcentagem de professores com credenciais completas (completo. B0.11, p.232) parece não estar relacionada ao desempenho acadêmico. Isso parece indicar que a porcentagem de professores com credenciais completas não é um fator importante na previsão do desempenho acadêmico - esse resultado foi um tanto inesperado. Devemos pegar esses resultados e escrevê-los para publicação. A partir desses resultados, concluiríamos que as turmas menores estão relacionadas ao desempenho mais alto, que menos alunos que recebem refeições gratuitas estão associados a melhor desempenho e que a porcentagem de professores com credenciais completas foi não relacionado ao desempenho acadêmico nas escolas. Antes de escrevermos isto para publicação, devemos fazer várias verificações para nos certificarmos de que podemos apoiar firmemente esses resultados. Começamos ficando mais familiarizados com o arquivo de dados, fazendo a verificação preliminar de dados, procurando por erros nos dados. 1.2 Examinando dados Primeiro, vamos usar o comando describe para aprender mais sobre esse arquivo de dados. Podemos verificar quantas observações ela possui e ver os nomes das variáveis ​​que ela contém. Para fazer isso, simplesmente digitamos Não entraremos em todos os detalhes dessa saída. Note que existem 400 observações e 21 variáveis. Temos variáveis ​​sobre o desempenho acadêmico em 2000 e 1999 e a mudança no desempenho, api00. api99 e crescimento respectivamente. Também temos várias características das escolas, por ex. tamanho da turma, educação dos pais, porcentagem de professores com credenciais completas e de emergência e número de alunos. Observe que, quando fizemos nossa análise de regressão original, disseram que havia 313 observações, mas o comando describe indica que temos 400 observações no arquivo de dados. Se você quiser saber mais sobre o arquivo de dados, você pode listar todas ou algumas das observações. Por exemplo, abaixo listamos as cinco primeiras observações. Isso ocupa muito espaço na página, mas não nos fornece muitas informações. Listar nossos dados pode ser muito útil, mas é mais útil se você listar apenas as variáveis ​​nas quais está interessado. Vamos listar as 10 primeiras observações para as variáveis ​​que analisamos em nossa primeira análise de regressão. Vemos que entre as 10 primeiras observações, temos quatro valores omissos para as refeições. É provável que os dados que faltam para as refeições tenham algo a ver com o fato de que o número de observações em nossa primeira análise de regressão foi de 313 e não 400. Outra ferramenta útil para aprender sobre suas variáveis ​​é o comando do livro de códigos. Vamos fazer o codebook para as variáveis ​​que incluímos na análise de regressão, bem como a variável yrrnd. Nós intercalamos alguns comentários sobre essa saída entre colchetes e em negrito. O comando do livro de códigos descobriu várias peculiaridades dignas de um exame mais aprofundado. Vamos usar o comando resumir para aprender mais sobre essas variáveis. Como mostrado abaixo, o comando resume também revela o grande número de valores omissos para refeições (400 - 315 85) e vemos o mínimo incomum para acsk3 de -21. Vamos obter um resumo mais detalhado para o acsk3. No Stata, a vírgula após a lista de variáveis ​​indica que as opções seguem, neste caso, a opção é detail. Como você pode ver abaixo, a opção detail fornece os percentis, os quatro maiores e menores valores, medidas de tendência central e variância, etc. Observe que resumir. e outros comandos, podem ser abreviados: poderíamos ter digitado sum acsk3, d. Parece que algumas das turmas de alguma forma se tornaram negativas, como se um sinal negativo fosse digitado incorretamente na frente delas. Vamos fazer um resumo do tamanho da turma para ver se isso parece plausível. De fato, parece que alguns dos tamanhos de classe de alguma forma colocaram sinais negativos na frente deles. Vamos ver o número da escola e do distrito para essas observações para ver se elas vêm do mesmo distrito. De fato, todos eles vêm do distrito 140. Vamos ver todas as observações para o distrito 140. Todas as observações do distrito 140 parecem ter esse problema. Quando você encontrar esse problema, você quer voltar para a fonte original dos dados para verificar os valores. Temos que revelar que fabricamos esse erro para fins de ilustração e que os dados reais não apresentavam esse problema. Vamos fingir que checamos com o distrito 140 e houve um problema com os dados lá, um hífen foi acidentalmente colocado na frente das turmas, tornando-os negativos. Faremos uma anotação para corrigir isso Vamos continuar verificando nossos dados. Vamos dar uma olhada em alguns métodos gráficos para inspecionar dados. Para cada variável, é útil inspecioná-los usando um histograma, um boxplot e um gráfico stem-and-leaf. Esses gráficos podem mostrar informações sobre a forma de suas variáveis ​​melhor do que as estatísticas numéricas simples. Nós já sabemos sobre o problema com o acsk3. mas vamos ver como esses métodos gráficos teriam revelado o problema com essa variável. Primeiro, mostramos um histograma para o acsk3. Isso nos mostra as observações em que o tamanho médio da turma é negativo. Da mesma forma, um boxplot também teria chamado essas observações para nossa atenção. Você pode ver o modo de observações negativas periféricas na parte inferior do boxplot. Finalmente, um gráfico de folhas e caules também teria ajudado a identificar essas observações. Este gráfico mostra os valores exatos das observações, indicando que havia três -21s, dois -20s e um -19. Recomendamos a plotagem de todos esses gráficos para as variáveis ​​que você analisará. Vamos omitir, devido a considerações de espaço, mostrando esses gráficos para todas as variáveis. No entanto, ao examinar as variáveis, o gráfico de folhas e caules para o total parecia bastante incomum. Até agora, não vimos nada de problemático com esta variável, mas olhe para o diagrama de caules e folhas para completo abaixo. Ele mostra 104 observações em que o percentual com uma credencial completa é menor que um. Isso é mais de 25 das escolas e parece muito incomum. Vamos olhar para a distribuição de frequência completa para ver se podemos entender isso melhor. Os valores vão de 0,42 a 1,0, depois saltam para 37 e sobem a partir daí. Parece que algumas das percentagens são realmente inseridas como proporções, por ex. 0,42 foi inserido em vez de 42 ou 0,96, o que realmente deveria ter sido 96. Vamos ver de que distrito (s) esses dados vieram. Notamos que todas as 104 observações em que o total era menor ou igual a um vieram do distrito 401. Vamos contar quantas observações existem no distrito 401 usando o comando count e vemos o distrito 401 ter 104 observações. Todas as observações deste distrito parecem ser registradas como proporções em vez de porcentagens. Novamente, vamos afirmar que isso é um problema fingido que inserimos nos dados para fins ilustrativos. Se isso fosse um problema da vida real, verificaríamos a origem dos dados e verificá-los. Faremos uma anotação para corrigir esse problema nos dados também. Outra técnica gráfica útil para triar seus dados é uma matriz de gráfico de dispersão. Embora isso seja provavelmente mais relevante como uma ferramenta de diagnóstico procurando por não-linearidades e outliers em seus dados, ela também pode ser uma ferramenta útil de triagem de dados, possivelmente revelando informações nas distribuições conjuntas de suas variáveis ​​que não seriam aparentes ao examinar distribuições univariadas . Vamos olhar a matriz do gráfico de dispersão para as variáveis ​​em nosso modelo de regressão. Isso revela os problemas que já identificamos, ou seja, os tamanhos de classe negativos e a porcentagem de credencial total inseridos como proporções. Nós identificamos três problemas em nossos dados. Existem numerosos valores em falta para as refeições. havia negativos inseridos acidentalmente antes de alguns tamanhos de turma (acsk3) e mais de um quarto dos valores de preenchimento completo eram proporções em vez de porcentagens. A versão corrigida dos dados é chamada elemapi2. Vamos usar esse arquivo de dados e repetir nossa análise e ver se os resultados são os mesmos da nossa análise original. Primeiro, vamos repetir nossa análise de regressão original abaixo. Agora, vamos usar o arquivo de dados corrigido e repetir a análise de regressão. Vemos uma grande diferença nos resultados Na análise original (acima), o acsk3 foi quase significativo, mas na análise corrigida (abaixo) os resultados mostram que essa variável não é significativa, talvez devido aos casos em que o tamanho da classe foi dado valor negativo. Da mesma forma, a porcentagem de professores com credenciais completas não foi significativa na análise original, mas é significativa na análise corrigida, talvez devido aos casos em que o valor foi dado como a proporção com credenciais completas em vez da porcentagem. Além disso, observe que a análise corrigida é baseada em 398 observações, em vez de 313 observações, devido à obtenção dos dados completos para a variável refeições, que tinham muitos valores omissos. Deste ponto em diante, usaremos o elemapi2 corrigido. arquivo de dados. Você pode querer salvar isso no seu computador para que você possa usá-lo em futuras análises. Até agora, cobrimos alguns tópicos na verificação / verificação de dados, mas não discutimos a análise de regressão em si. Vamos agora falar mais sobre como realizar a análise de regressão no Stata. 1.3 Regressão Linear Simples Vamos começar mostrando alguns exemplos de regressão linear simples usando o Stata. Nesse tipo de regressão, temos apenas uma variável preditora. Essa variável pode ser contínua, significando que ela pode assumir todos os valores dentro de um intervalo, por exemplo, idade ou altura, ou pode ser dicotômica, significando que a variável pode assumir apenas um de dois valores, por exemplo, 0 ou 1. o uso de variáveis ​​categóricas com mais de dois níveis será abordado no Capítulo 3. Há apenas uma resposta ou variável dependente e é contínua. No Stata, a variável dependente é listada imediatamente após o comando regress, seguido por uma ou mais variáveis ​​preditoras. Vamos examinar a relação entre o tamanho da escola e o desempenho acadêmico para ver se o tamanho da escola está relacionado ao desempenho acadêmico. Para este exemplo, api00 é a variável dependente e o registro é o preditor. Vamos rever esta saída com um pouco mais de cuidado. Primeiro, vemos que o teste F é estatisticamente significativo, o que significa que o modelo é estatisticamente significativo. O R-quadrado de 0,1012 significa que aproximadamente 10 da variância de api00 é contabilizada pelo modelo, neste caso, registrar. O teste t para matrícula é igual a -6,70 e é estatisticamente significativo, significando que o coeficiente de regressão para matrícula é significativamente diferente de zero. Observe que (-6,70) 2 44,89, que é o mesmo que a estatística F (com algum erro de arredondamento). O coeficiente de inscrição é -.1998674, ou aproximadamente -.2, significando que para um aumento de uma unidade na inscrição. seria de esperar uma diminuição de 0,2 unidades na API. Em outras palavras, uma escola com 1100 alunos seria esperada para ter uma pontuação de api 20 unidades menor do que uma escola com 1000 alunos. A constante é 744,2514 e esse é o valor previsto quando o registro é igual a zero. Na maioria dos casos, a constante não é muito interessante. Preparamos uma saída anotada que mostra a saída dessa regressão junto com uma explicação de cada um dos itens nela. Além de obter a tabela de regressão, pode ser útil ver um gráfico de dispersão das variáveis ​​previstas e de resultado com a linha de regressão plotada. Depois de executar uma regressão, você pode criar uma variável que contenha os valores previstos usando o comando predit. Você pode obter esses valores a qualquer momento depois de executar um comando regress, mas lembre-se de que, depois de executar uma nova regressão, os valores previstos serão baseados na regressão mais recente. Para criar valores previstos, basta digitar predict e o nome de uma nova variável Stata fornecerá os valores ajustados. Para este exemplo, nosso novo nome de variável será fv. então vamos digitar Se usarmos o comando list, vemos que um valor ajustado foi gerado para cada observação. Abaixo, podemos mostrar um gráfico de dispersão da variável de resultado, api00 e o preditor, inscrever-se. Podemos combinar scatter com lfit para mostrar um gráfico de dispersão com valores ajustados. Como você vê, alguns dos pontos parecem ser outliers. Se você usar a opção mlabel (snum) no comando scatter, poderá ver o número da escola para cada ponto. Isso nos permite ver, por exemplo, que um dos outliers é a escola 2910. Como vimos anteriormente, o comando predict pode ser usado para gerar valores preditos (ajustados) depois de executar o regresso. Você também pode obter resíduos usando o comando predict seguido de um nome de variável, neste caso e. com a opção residual. Este comando pode ser encurtado para prever e, resid ou até predizer e, r. A tabela abaixo mostra alguns dos outros valores que podem ser criados com a opção de previsão. 1.4 Regressão Múltipla Agora, vamos olhar para um exemplo de regressão múltipla, em que temos uma variável de desfecho (dependente) e múltiplos preditores. Antes de começarmos com nosso próximo exemplo, precisamos tomar uma decisão em relação às variáveis ​​que criamos, porque estaremos criando variáveis ​​semelhantes com nossa regressão múltipla, e não queremos que as variáveis ​​sejam confundidas. Por exemplo, na regressão simples, criamos uma variável fv para nossos valores previstos (ajustados) e e para os resíduos. Se quisermos criar valores previstos para o nosso próximo exemplo, podemos chamar o valor previsto de outra coisa, por exemplo, fvmr. mas isso pode começar a ficar confuso. Nós poderíamos eliminar as variáveis ​​que criamos usando drop fv e. Em vez disso, vamos limpar os dados na memória e usar o arquivo de dados elemapi2 novamente. Quando começarmos novos exemplos em capítulos futuros, vamos limpar o arquivo de dados existente e usar o arquivo novamente para começar de novo. Para este exemplo de regressão múltipla, vamos regredir a variável dependente, api00. em todas as variáveis ​​preditoras no conjunto de dados. Vamos examinar o resultado dessa análise de regressão. Assim como na regressão simples, olhamos para o valor p do teste F para ver se o modelo geral é significativo. Com um valor p de zero a quatro casas decimais, o modelo é estatisticamente significativo. O R-quadrado é 0,8446, significando que aproximadamente 84 da variabilidade de api00 é explicada pelas variáveis ​​no modelo. Neste caso, o R-quadrado ajustado indica que cerca de 84 da variabilidade de api00 é contabilizada pelo modelo, mesmo depois de levar em conta o número de variáveis ​​preditoras no modelo. Os coeficientes para cada uma das variáveis ​​indicam a quantidade de mudança que se poderia esperar em api00 dada uma mudança de uma unidade no valor daquela variável, dado que todas as outras variáveis ​​no modelo são mantidas constantes. Por exemplo, considere a variável ell. Esperamos uma diminuição de 0,86 na pontuação api00 para cada aumento de uma unidade em ell. assumindo que todas as outras variáveis ​​no modelo são mantidas constantes. A interpretação de grande parte da saída da regressão múltipla é a mesma que foi para a regressão simples. Preparamos uma saída anotada que explica mais detalhadamente a saída dessa análise de regressão múltipla. Você pode estar se perguntando o que realmente significa uma mudança de 0,86 em ell e como você pode comparar a força desse coeficiente com o coeficiente de outra variável, digamos refeições. Para resolver este problema, podemos adicionar uma opção ao comando regress chamado beta. o que nos dará os coeficientes de regressão padronizados. Os coeficientes beta são usados ​​por alguns pesquisadores para comparar a força relativa dos vários preditores dentro do modelo. Como os coeficientes beta são todos medidos em desvios-padrão, em vez das unidades das variáveis, eles podem ser comparados entre si. Em outras palavras, os coeficientes beta são os coeficientes que você obteria se as variáveis ​​de resultado e preditor fossem todas as pontuações padrão transformadas, também chamadas de escores z, antes de executar a regressão. Como os coeficientes na coluna Beta estão todos nas mesmas unidades padronizadas, você pode comparar esses coeficientes para avaliar a força relativa de cada um dos preditores. Neste exemplo, as refeições têm o maior coeficiente Beta, -0,66 (em valor absoluto), e o acsk3 tem o menor Beta, 0,013. Assim, um aumento de um desvio padrão nas refeições leva a uma redução de desvio padrão de 0,66 na api00 predita. com as outras variáveis ​​mantidas constantes. E, um aumento de desvio padrão em acsk3. por sua vez, leva a um aumento do desvio padrão de 0,013 na api00 predita com as outras variáveis ​​no modelo mantidas constantes. Ao interpretar essa saída, lembre-se de que a diferença entre os números listados na Coef. coluna e a coluna Beta está nas unidades de medida. Por exemplo, para descrever o coeficiente bruto para ell, você diria: “Uma diminuição de uma unidade em ell produziria um aumento de 0,86 unidade na api00 prevista”. Entretanto, para o coeficiente padronizado (Beta), você diria: “Um padrão o decréscimo do desvio em ell produziria um aumento de desvio padrão de 0,15 no api00 previsto. O comando listcoef fornece resultados mais extensos em relação aos coeficientes padronizados. Não faz parte do Stata, mas você pode baixá-lo pela internet assim. e siga as instruções (consulte também Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar o findit). Agora que baixamos o listcoef. podemos rodá-lo assim. Vamos comparar a saída de regress com a saída listcoef. Você notará que os valores listados na Coef. Os valores t e Pgtt são os mesmos nas duas saídas. Os valores listados na coluna Beta da saída de regressão são os mesmos que os valores na coluna bStadXY de listcoef. A coluna bStdX fornece a mudança de unidade em Y esperada com uma mudança de desvio padrão em X. A coluna bStdY fornece a mudança de desvio padrão em Y esperada com uma mudança de uma unidade em X. A coluna SDofX fornece esse desvio padrão de cada variável preditora em o modelo. Por exemplo, o bStdX para ell é -21.3, significando que um aumento de um desvio padrão em ell levaria a uma diminuição esperada de 21.3 unidades em api00. O valor bStdY para ell de -0,0060 significa que, para uma unidade, um por cento, aumento de aprendizes de inglês, esperamos uma redução de 0,006 desvio padrão em api00. Como os valores bStdX estão em unidades padrão para as variáveis ​​preditoras, você pode usar esses coeficientes para comparar a força relativa dos preditores, como você compararia os coeficientes Beta. A diferença é que os coeficientes BStdX são interpretados como alterações nas unidades da variável de resultado, em vez de em unidades padronizadas da variável de resultado. Por exemplo, o BStdX para refeições versus ell é -94 versus -21, ou cerca de 4 vezes maior, a mesma proporção que a razão dos coeficientes Beta. Criamos uma saída anotada que explica mais detalhadamente a saída do listcoef. Até agora, nos preocupamos em testar uma única variável de cada vez, por exemplo, examinando o coeficiente de ell e determinando se isso é significativo. Também podemos testar conjuntos de variáveis, usando o comando test, para ver se o conjunto de variáveis ​​é significativo. Primeiro, vamos começar testando uma única variável, ell. usando o comando test. Se você comparar esta saída com a saída da última regressão, verá que o resultado do teste F, 16.67, é o mesmo que o quadrado do resultado do teste t na regressão (-4.0832 16,67). Observe que você pode obter os mesmos resultados se digitar o seguinte, pois o Stata usa como padrão comparar o (s) termo (s) listado (s) para 0. Talvez um teste mais interessante seria verificar se a contribuição do tamanho da classe é significativa. Como as informações referentes ao tamanho da classe estão contidas em duas variáveis, acsk3 e acs46. nós incluímos ambos com o comando test. O teste F significativo, 3,95, significa que a contribuição coletiva dessas duas variáveis ​​é significativa. Uma maneira de pensar sobre isso é que há uma diferença significativa entre um modelo com acsk3 e acs46 em comparação com um modelo sem eles, ou seja, há uma diferença significativa entre o modelo quotfull e os modelos de cotação reduzida. Finalmente, como parte de uma análise de regressão múltipla, você pode estar interessado em ver as correlações entre as variáveis ​​no modelo de regressão. Você pode fazer isso com o comando correlate como mostrado abaixo. Se olharmos para as correlações com api00. vemos as refeições e temos as duas correlações mais fortes com api00. Essas correlações são negativas, ou seja, à medida que o valor de uma variável diminui, o valor da outra variável tende a subir. Sabendo que essas variáveis ​​estão fortemente associadas à api00. poderíamos prever que seriam variáveis ​​preditoras estatisticamente significativas no modelo de regressão. Também podemos usar o comando pwcorr para fazer correlações pareadas. A diferença mais importante entre correlate e pwcorr é a maneira como os dados perdidos são manipulados. Com correlacionado. uma observação ou caso é descartado se alguma variável tiver um valor ausente, em outras palavras, correlacionar usos listwise. também chamado casamente, deleção. pwcorr usa deleção de pares, significando que a observação é descartada apenas se houver um valor ausente para o par de variáveis ​​que estão sendo correlacionadas. Duas opções que você pode usar com o pwcorr. mas não com correlato. são a opção sig, que dará os níveis de significância para as correlações e a opção obs, que dará o número de observações usadas na correlação. Tal opção não é necessária com corr como Stata lista o número de observações no topo da saída. 1.5 Transformando variáveis ​​Anteriormente, nos concentramos em rastrear seus dados em busca de possíveis erros. No próximo capítulo, vamos nos concentrar nos diagnósticos de regressão para verificar se os seus dados atendem aos pressupostos da regressão linear. Aqui, nos concentraremos na questão da normalidade. Alguns pesquisadores acreditam que a regressão linear requer que o resultado (dependente) e as variáveis ​​preditoras sejam normalmente distribuídas. Precisamos esclarecer esse problema. Na verdade, são os resíduos que precisam ser distribuídos normalmente. De fato, os resíduos precisam ser normais apenas para os testes-t serem válidos. A estimativa dos coeficientes de regressão não requer resíduos normalmente distribuídos. Como estamos interessados ​​em ter testes t válidos, investigaremos questões relativas à normalidade. Uma causa comum de resíduos não normalmente distribuídos é o resultado distribuído de forma não normal e / ou variáveis ​​preditoras. So, let us explore the distribution of our variables and how we might transform them to a more normal shape. Lets start by making a histogram of the variable enroll . which we looked at earlier in the simple regression. We can use the normal option to superimpose a normal curve on this graph and the bin(20 ) option to use 20 bins. The distribution looks skewed to the right. You may also want to modify labels of the axes. For example, we use the xlabel() option for labeling the x-axis below, labeling it from 0 to 1600 incrementing by 100. Histograms are sensitive to the number of bins or columns that are used in the display. An alternative to histograms is the kernel density plot, which approximates the probability density of the variable. Kernel density plots have the advantage of being smooth and of being independent of the choice of origin, unlike histograms. Stata implements kernel density plots with the kdensity command. Not surprisingly, the kdensity plot also indicates that the variable enroll does not look normal. Now lets make a boxplot for enroll . using graph box command. Note the dots at the top of the boxplot which indicate possible outliers, that is, these data points are more than 1.5(interquartile range) above the 75th percentile. This boxplot also confirms that enroll is skewed to the right. There are three other types of graphs that are often used to examine the distribution of variables symmetry plots, normal quantile plots and normal probability plots. A symmetry plot graphs the distance above the median for the i-th value against the distance below the median for the i-th value. A variable that is symmetric would have points that lie on the diagonal line. As we would expect, this distribution is not symmetric. A normal quantile plot graphs the quantiles of a variable against the quantiles of a normal (Gaussian) distribution. qnorm is sensitive to non-normality near the tails, and indeed we see considerable deviations from normal, the diagonal line, in the tails. This plot is typical of variables that are strongly skewed to the right. Finally, the normal probability plot is also useful for examining the distribution of variables. pnorm is sensitive to deviations from normality nearer to the center of the distribution. Again, we see indications of non-normality in enroll . Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

No comments:

Post a Comment