Bem-vindo ao Instituto de Pesquisas Digitais e Educação Stata Data Análise Exemplos Tobit Analysis Versão info: O código para esta página foi testado em Stata 12. O modelo tobot, também chamado de modelo de regressão censurada, é projetado para estimar relações lineares entre variáveis quando há Quer a censura à esquerda ou à direita na variável dependente (também conhecida como censura por baixo e acima, respectivamente). O Censar de cima ocorre em casos com um valor igual ou superior a um limite, assumindo o valor desse limite, de modo que o valor real possa ser igual ao limiar, mas também pode ser maior. No caso de censura de baixo, os valores que caem em ou abaixo de algum limite são censurados. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, a verificação de premissas, o diagnóstico de modelo e as possíveis análises de acompanhamento. Exemplos de regressão do cofre Exemplo 1. Na década de 1980, havia uma lei federal que restringia as leituras do velocímetro a não mais de 85 mph. Então, se você quisesse tentar prever uma velocidade máxima de veículos de uma combinação de potência de cavalo e tamanho do motor, você obteria uma leitura não superior a 85, independentemente de quão rápido o veículo realmente viajasse. Este é um caso clássico de censura à direita (censura de cima) dos dados. A única coisa a que estamos certos é que esses veículos estavam viajando pelo menos 85 mph. Exemplo 2. Um projeto de pesquisa está estudando o nível de liderança em água potável doméstica em função da idade de uma renda familiar e familiar. O kit de teste de água não pode detectar concentrações de chumbo abaixo de 5 partes por bilhão (ppb). A EPA considera que os níveis acima de 15 ppb são perigosos. Esses dados são um exemplo de censura à esquerda (censura de baixo). Exemplo 3. Considere a situação em que temos uma medida de aptidão acadêmica (escalada 200-800) que queremos modelar usando pontuação de leitura e de teste de matemática, bem como, o tipo de programa em que o aluno está matriculado (acadêmico, geral , Ou vocacional). O problema aqui é que os alunos que respondem todas as perguntas no teste de aptidão acadêmica recebem corretamente uma pontuação de 800, embora seja provável que esses alunos não sejam verdadeiramente iguais em aptidão. O mesmo é verdade para os alunos que respondem incorretamente a todas as perguntas. Todos esses estudantes teriam uma pontuação de 200, embora eles não sejam todos de mesma aptidão. Descrição dos dados Leve o exemplo 3 acima. Temos um arquivo de dados hipotético, tob. dta com 200 observações. A variável de aptidão acadêmica é apt, os resultados dos testes de leitura e matemática são lidos e matemática, respectivamente. A variável prog é o tipo de programa no qual o aluno está, é uma variável categórica (nominal) que assume três valores, acadêmico (prog 1), geral (prog 2) e vocacional (prog 3). Vamos ver os dados. Note-se que neste conjunto de dados, o valor mais baixo do apt é 352. Nenhum aluno recebeu uma pontuação de 200 (ou seja, a pontuação mais baixa possível), o que significa que mesmo que a censura de baixo fosse possível, não ocorre no conjunto de dados. Olhando para o histograma acima, mostrando a distribuição do apt. Podemos ver a censura nos dados, ou seja, há muito mais casos com pontuações de 750 a 800 do que se esperaria olhar para o resto da distribuição. Abaixo está um histograma alternativo que destaca o excesso de casos em que 800 apt. No histograma abaixo, a opção discreta produz um histograma onde cada valor exclusivo de apt possui sua própria barra. A opção freq faz com que o eixo y seja marcado com a frequência para cada valor, em vez da densidade. Como o apt é contínuo, a maioria dos valores de apt são únicos no conjunto de dados, embora próximo ao centro da distribuição existam alguns valores de apt que tenham dois ou três casos. O pico na extrema direita do histograma é a barra para casos em que 800, a altura desta barra em relação a todos os outros mostra claramente o número excessivo de casos com esse valor. Em seguida, explore as relações bivariadas em nosso conjunto de dados. Na última linha da matriz de dispersão mostrada acima, vemos os diagramas de dispersão mostrando leitura e apt. Bem como matemática e apt. Observe a coleta de casos no topo de cada ponto de dispersão devido à censura na distribuição do apt. Os métodos de análise que você pode considerar abaixo são uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão de Tobit, o foco desta página. Regressão OLS - Você poderia analisar esses dados usando a regressão OLS. A regressão OLS tratará os 800 como os valores reais e não como o limite superior da aptidão acadêmica superior. Uma limitação desta abordagem é que quando a variável é censurada, o OLS fornece estimativas inconsistentes dos parâmetros, o que significa que os coeficientes da análise não abordarão necessariamente os parâmetros da população quottruequot à medida que o tamanho da amostra aumenta. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de utilização da regressão OLS com dados censurados. Regressão Truncada - Às vezes, há confusão sobre a diferença entre dados truncados e dados censurados. Com variáveis censuradas, todas as observações estão no conjunto de dados, mas não conhecemos os valores quottruequot de alguns deles. Com o truncamento, algumas das observações não estão incluídas na análise por causa do valor da variável. Quando uma variável é censurada, modelos de regressão para dados truncados fornecem estimativas inconsistentes dos parâmetros. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de usar modelos de regressão para dados truncados para analisar dados censurados. Regressão de Tobit Abaixo, executamos o modelo de bala, usando a leitura. Matemática. E prog para prever apt. A opção ul () no comando tobita indica o valor no qual a censura direita começa (ou seja, o limite superior). Há também uma opção ll () para indicar o valor da censura à esquerda (o limite inferior) que não era necessário neste exemplo. O eu. Antes de prog indicar que prog é uma variável de fatores (ou seja, variável categórica) e que deve ser incluída no modelo como uma série de variáveis falsas. Note que esta sintaxe foi introduzida no Stata 11. A probabilidade de log final (-1041.0629) é mostrada no topo da saída, ela pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 200 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis tivesse valores faltantes). O coeficiente de verossimilhança do qui-quadrado de 188.97 (df4) com um valor p de 0.0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística t, os p-valores associados e o intervalo de confiança 95 dos coeficientes. Os coeficientes de leitura e matemática são estatisticamente significativos, assim como o coeficiente para o prog. 3. Os coeficientes de regressão de Tobit são interpretados de forma semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é a variável latente não censurada e não o resultado observado. Veja McDonald e Moffitt (1980) para mais detalhes. Para um aumento de uma unidade na leitura. Há um aumento de 2,7 pontos no valor previsto do apt. Um aumento de uma unidade em matemática está associado a um aumento de unidade de 5,91 no valor previsto de apt. Os termos para prog têm uma interpretação ligeiramente diferente. O valor previsto de apt é 46.14 pontos menor para estudantes em um programa vocacional (prog 3) do que para estudantes em um programa acadêmico (prog 1). O sigma estatístico auxiliar é análogo à raiz quadrada da variância residual na regressão OLS. O valor de 65,67 pode ser comparado ao desvio padrão da aptidão acadêmica, que foi de 99,21, uma redução substancial. A saída também contém uma estimativa do erro padrão do sigma, bem como o intervalo de confiança 95. Finalmente, a saída fornece um resumo do número de valores censurados à esquerda, sem censura e censurados à direita. Podemos testar um efeito geral de prog usando o comando de teste. Abaixo, vemos que o efeito geral do prog é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de prog. Abaixo, nós testamos que o coeficiente para prog 2 é igual ao coeficiente para prog 3. Na saída abaixo, vemos que o coeficiente para prog 2 é significativamente diferente do coeficiente para prog 3. Podemos também querer ver medidas de quão bem Nosso modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. Um método para fazer isso é comparar os valores previstos com base no modelo tobito para os valores observados no conjunto de dados. Abaixo, usamos prever para gerar valores preditos de apt com base no modelo. Em seguida, correlacionamos os valores observados de apt com os valores previstos (yhat). A correlação entre os valores preditos e observados de apt é 0.7825. Se dimensionarmos esse valor, obtemos a correlação quadrada múltipla, isso indica que valores preditos compartilham cerca de 61 (0.78252 0.6123) de sua variância com o apt. Além disso, podemos usar o comando de comando escrito pelo usuário para produzir uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre como usar findit). O Manual de Stata Online toca os Comandos de Stata relacionados cnreg - censura normal censurada, na qual os valores de censura podem mudar de observação para observação. Regressão intra-intervalo, em que as observações podem ser dados pontuais, dados de intervalo, dados censurados à esquerda ou dados censurados à direita. Referências longas, J. S. (1997). Modelos de regressão para variáveis categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. McDonald, J. F. e Moffitt, R. A. 1980. Os usos da análise de Tobit. The Review of Economics and Statistics Vol. 62 (2): 318-321. Tobin, J. (1958). Estimativa de relacionamentos para variáveis dependentes limitadas. Econometrica 26: 24-36. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Anunciamento 01 novembro 2015, 12:44 A sintaxe é pantob depvar indepvar nome da variável indexando sua cruz - unidade estrutural (presumivelmente empresas) se (formato usual para subconjunto se - por exemplo, se você quisesse excluir as empresas onde a variável dummy, o que faz o valor de zero, incluindo as que dummy, diria se o que for 1). Então uma vírgula, separando as opções. O padrão é o estimador Honore desenvolvido usando uma função de perda quadrática. Se você deseja que seu outro estimador (usando uma função de perda de valor absoluto) digite absloss. A outra opção está em erros padrão - se você digitar bootstrap, ele será calculado pelo bootstraps. Finalmente, há uma opção de detalhes que não usei. Observe que pode demorar muito tempo para executar isso, especialmente com o bootstrap.
No comments:
Post a Comment