Monday 14 August 2017

Moving Average Sas Proc Expand


Engineer Physics C. S. Como faço para criar facilmente variáveis ​​de atraso e dupla Pergunta: Como criar variável de atraso por função de atraso Existe alguma função de liderança Resposta: Introduzimos dois métodos para criar variáveis ​​de atraso e chumbo. Newvarlag1 (oldvar) move a variável oldvar para baixo por um registro newcarlag2 (oldvar) move a variável oldvar para baixo por dois registros. Nbsp nbsp nbsp nbsp nbsp nbsp dados exemplo0 nbsp nbsp nbsp nbsp entrada x nbsp para ler vários registros na mesma linha nbsp nbsp nbsp nbsp datalines nbsp nbsp nbsp nbsp 1 2 3 4 5 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbspnot para colocar no anterior Linha, não está funcionando nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp exemplo de dados1 conjunto de exemplo0 nbsp nbsp nbsp nbsp lagxlag (x) lag2xlag2 (x) executar nbsp nbsp Método (II): Proc Expandir com declaração de conversão Podemos usar proc expandir com Declaração de conversão para obter variáveis ​​de leads, o aviso só funciona com variáveis ​​numéricas. Nbsp nbsp nbsp nbsp nbsp nbsp proc expand dataexample0 outexample3 método none nbsp nbsp nbsp nbsp converter x lag1x transformout (lag 1) nbsp nbsp nbsp nbsp converter x lead1x transformout (lead 1) nbsp nbsp nbsp nbsp pela empresa run nbsp nbsp Método (III). No caso da Netezza ou de outro banco de dados SQL, podemos usar o seguinte SQl para obter lead, lag values ​​e a média de rollingmoving (linhas de trás e linhas de folheamento). Nbsp nbsp nbsp nbsp nbsp nbsp proc sql stimer conecte-se a netezza (serverervername nbsp nbsp nbsp nbsp databasedatabase1 user pwd connectionglobal) execute (create table example3 como select a., Lag (value, 1) over (partição por ordem da empresa por empresa, departamento) Como lagval, lag (value, 2) over (partição por ordem da empresa por empresa, departamento) como lag2value, lead (value, 1) over (partição por ordem da empresa por empresa, dept) como leadval do exemplo 0 como uma distribuição em execução aleatória (Selecione o exemplo da tabela4 como empresa selecionada, departamento, valor, valor médio (valor) sobre (partição por ordem da empresa por empresa, departamento, linhas entre 2 anteriores e 2 seguintes) como RollingAvgwithincompany, do exemplo 0 como distribuir aleatoriamente) por netezza quit This A Web LittleDumbDoctor é principalmente para fins educacionais. Se você tiver dúvidas sobre qualquer material aqui, entre em contato conosco aqui e nós o responderemos o mais rápido possível. Modelos mistos para dados perdidos com medidas repetidas Parte 1 David C. Howell Este é um documento de duas partes. F Ou a segunda parte, vá para Mixed-Models-for-Repeated-Measures2.html Quando temos um design em que temos variáveis ​​aleatórias e fixas, temos o que é frequentemente chamado de modelo misto. Os modelos mistos começaram a desempenhar um papel importante na análise estatística e oferecem muitas vantagens em relação a análises mais tradicionais. Ao mesmo tempo, eles são mais complexos e a sintaxe para a análise de software nem sempre é fácil de configurar. Vou dividir este documento em dois artigos, porque há uma série de projetos e problemas de design a serem considerados. Este documento tratará o uso dos chamados modelos mistos (ou modelos mistos lineares, ou modelos lineares hierárquicos, ou muitas outras coisas) para a análise do que normalmente pensamos como uma simples análise de variância de medidas repetidas. Os documentos futuros tratam de modelos mistos para lidar com design de assunto único (particularmente projetos de linha de base múltiplos) e projetos aninhados. Uma grande parte deste documento se beneficiou do Capítulo 15 em Maxwell Delaney (2004) Projetando Experiências e Analisando Dados. Eles têm uma das discussões mais claras que eu conheço. Estou indo um passo além do seu exemplo, incluindo um fator entre grupos, bem como um fator dentro dos assuntos (medidas repetidas). Por enquanto, meu objetivo é mostrar a relação entre modelos mistos e análise de variância. A relação está longe de ser perfeita, mas nos dá um lugar conhecido para começar. Mais importante ainda, isso nos permite ver o que ganhamos e o que perdemos em modelos mistos. De certa forma, estou passando pelo capítulo Maxwell Delaney para trás, porque vou me concentrar principalmente no uso do comando repetido no SAS Proc Mixed. Estou fazendo isso porque se adapta melhor com a transição da ANOVA para modelos mistos. Minha motivação para este documento veio de uma pergunta feita por Rikard Wicksell na Universidade Karolinska na Suécia. Ele teve um ensaio clínico randomizado com dois grupos de tratamento e medidas em pré, pós, 3 meses e 6 meses. Seu problema é que alguns de seus dados estavam faltando. Ele considerou uma ampla gama de soluções possíveis, incluindo o último teste realizado, substituição média e exclusão de lista. De certa forma, a eliminação da lista apelou mais, mas isso significaria a perda de dados demais. Uma das coisas boas sobre modelos mistos é que podemos usar todos os dados que temos. Se faltar uma pontuação, está faltando. Não tem efeito sobre outras pontuações desse mesmo paciente. Outra vantagem de modelos mistos é que não precisamos ser consistentes sobre o tempo. Por exemplo, e não se aplica neste exemplo particular, se um sujeito tiveram um teste de seguimento aos 4 meses, enquanto outro teve seu teste de seguimento aos 6 meses, simplesmente inserimos 4 (ou 6) como o tempo de seguimento - acima. Não precisamos nos preocupar que não possam ser testados nos mesmos intervalos. Uma terceira vantagem desses modelos é que não temos que assumir a esfericidade ou simetria composta no modelo. Podemos fazê-lo se quisermos, mas também podemos permitir que o modelo selecione seu próprio conjunto de covariâncias ou use padrões de covariância que fornecemos. Começarei assumindo a esfericidade porque eu quero mostrar os paralelos entre o resultado dos modelos mistos e a saída de uma análise padrão de variância de medidas repetidas. Em seguida, eliminarei alguns escores e mostrará o efeito que tem sobre a análise. Compararei o modelo padrão de análise de variância com um modelo misto. Finalmente, usarei a Maximização de Expectativa (EM) e a Imputação Múltipla (IM) para imputar valores faltantes e, em seguida, alimentar os dados recém-completos de volta em uma ANOVA de medidas repetidas para ver como esses resultados se comparam. (Se quiser ler sobre esses procedimentos, tenho uma página da Web em Missing. html). Criei dados para ter uma série de características. Existem dois grupos - um grupo Controle e um grupo Tratamento, medido em 4 vezes. Esses tempos são rotulados como 1 (pré teste), 2 (um mês pós-teste), 3 (3 meses de seguimento) e 4 (6 meses de acompanhamento). Eu criei o grupo de tratamento para mostrar uma queda acentuada no pós-teste e, em seguida, sustentar essa queda (com regressão leve) aos 3 e 6 meses. O grupo Controle declina lentamente nos 4 intervalos, mas não atinge o nível baixo do grupo Tratamento. Existem diferenças individuais visíveis no grupo Controle, e alguns assuntos mostram uma inclinação mais acentuada do que outras. No grupo Tratamento, há diferenças individuais no nível, mas as inclinações não são tão diferentes entre si. Você pode pensar nisso como um estudo de depressão, onde a variável dependente é um índice de depressão (por exemplo, o Inventário de Depressão de Beck) e o tratamento é droga versus nenhum medicamento. Se a droga funcionasse bem para todos os assuntos, as encostas seriam comparáveis ​​e negativas ao longo do tempo. Para o grupo de controle, esperamos que alguns assuntos melhorem por conta própria e alguns permaneçam deprimidos, o que levaria a diferenças de inclinação para esse grupo. Esses fatos são importantes porque, quando chegamos ao modelo misturado com coeficiente aleatório, as diferenças individuais aparecerão como variâncias na interceptação, e as diferenças de inclinação aparecerão como uma variância significativa nas encostas. Para a ANOVA padrão e para modelos mistos usando o comando repetido, as diferenças de nível aparecem como um efeito de Assunto e assumimos que as inclinações são comparáveis ​​em todos os assuntos. O programa e os dados usados ​​abaixo estão disponíveis nos seguintes links. Explico abaixo as diferenças entre os arquivos de dados. Os resultados de uma análise de variância de medidas repetidas padrão com dados ausentes e usando o SAS Proc GLM seguem. Você obteria os mesmos resultados usando o procedimento Univariante SPSS. Porque eu vou pedir uma análise de tendência polinomial, eu disse para recodificar os níveis como 0, 1, 3, 6 em vez de 1, 2, 3, 4. Eu não precisava fazer isso, mas parecia mais verdadeiro para o design experimental. Não afeta a tabela de resumo padrão. (Eu dou todas as partes de entrada de dados do programa aqui, mas deixarei isso em breve no código.) Aqui vemos que cada um dos efeitos na análise geral é significativo. Não nos importa muito com o efeito do grupo porque esperávamos que ambos os grupos começassem a ser iguais no pré-teste. O importante é a interação, e é significativo na p .0001. Claramente, o tratamento medicamentoso está tendo um efeito diferencial nos dois grupos, o que é o que queríamos ver. O fato de o grupo de Controle parecer estar caindo no número de sintomas ao longo do tempo é esperado e não emocionante, embora possamos analisar esses efeitos simples se quisermos. Gostaríamos de executar duas análises, uma em cada grupo. Eu não sugeriria juntar as variações para calcular F. Embora isso fosse possível. Na impressão acima, incluí testes de tendência linear, quadrática e cúbica que serão importantes mais tarde. No entanto, você deve ler isso de forma diferente do que você pode esperar. O primeiro teste para o componente linear mostra um F de 54,27 para a média e um F de 0,59 para o grupo. Qualquer outro software que eu usei substituiria por tempo e grupo com horários de grupo Time. Em outras palavras, temos uma tendência linear significativa ao longo do tempo, mas o contraste do grupo de tempos lineares não é significativo. Não sei por que eles rotulam desse jeito. (Bem, acho que sim, mas não é o jeito que eu faria). Também devo notar que minha sintaxe especificou os intervalos de tempo, de modo que a SAS não está assumindo intervalos igualmente espaçados. O fato de que a tendência linear não foi significativa para a interação significa que ambos os grupos estão se mostrando sobre a mesma tendência linear. Mas note que há uma interação significativa para o quadrático. Modelo misto O uso de modelos mistos representa uma diferença substancial em relação à análise tradicional de variância. Para projetos equilibrados (que se traduz grosso modo em tamanhos de células iguais), os resultados serão os mesmos, assumindo que nós estabelecemos a análise adequadamente. Mas a abordagem estatística atual é bastante diferente e ANOVA e modelos mistos levam a resultados diferentes sempre que os dados não são equilibrados ou sempre que tentamos usar estruturas de covariância diferentes, e muitas vezes mais lógicas. Primeiro um pouco da teoria. Within Proc Mixed, o comando repetido desempenha um papel muito importante, pois permite que você especifique diferentes estruturas de covariância, o que é algo que você não pode fazer no Proc GLM. Você deve lembrar que no Proc GLM nós assumimos que a matriz de covariância atende a nossa suposição de esfericidade e nós vamos daqui. Em outras palavras, os cálculos são realizados com a matriz de covariância forçada a esfericidade. Se essa não for uma suposição válida, estamos com problemas. Claro que existem correções devido a Estufa e Geisser e Hyunh e Feldt, mas não são soluções ideais. Mas o que a simetria composta, ou a esfericidade, realmente representam (A suposição é realmente sobre a esfericidade, mas quando se fala de modelos mistos, a maioria dos escritores se refere à simetria composta, que é realmente um pouco mais restritiva.) A maioria das pessoas sabe que simetria composta significa que a O padrão de covariâncias ou correlações é constante durante os ensaios. Por outras palavras, a correlação entre o ensaio 1 e o ensaio 2 é igual à correlação entre o ensaio 1 e o ensaio 4 ou o ensaio 3 e o ensaio 4, etc. Mas uma maneira mais direta de pensar simetria composta é dizer que exige que todos Os sujeitos em cada grupo mudam da mesma forma em relação aos ensaios. Em outras palavras, as inclinações das linhas que regredem a variável dependente no tempo são as mesmas para todos os assuntos. Dessa forma, é fácil ver que a simetria composta pode realmente ser uma hipótese pouco realista. Se alguns dos seus assuntos melhorarem, mas outros não, você não possui simetria composta e comete um erro se você usar uma solução que assume que você faz. Felizmente, Proc Mixed permite que você especifique algum outro padrão para essas covariâncias. Também podemos contornar a hipótese de esfericidade usando o resultado MANOVA do Proc GLM. Mas isso também tem seus problemas. Tanto o GLM univariante padrão como o MANOVA GLM insistem em dados completos. Se um assunto está faltando, mesmo um pedaço de dados, esse assunto é descartado. Isso é um problema porque, com algumas observações perdidas, podemos perder uma grande quantidade de dados e graus de liberdade. Proc misturado com repetido é diferente. Em vez de usar uma solução de mínimos quadrados, que requer dados completos, ele usa uma solução de máxima verossimilhança, que não faz essa suposição. (Nós realmente usaremos uma solução de Verdade Máxima Restrita (REML).) Quando tivermos dados equilibrados, os dois mínimos quadrados e REML produzirão a mesma solução se especificarmos uma matriz de covariância com simetria composta. Mas mesmo com dados balanceados se especificarmos alguma outra matriz de covariância, as soluções serão diferentes. No começo, vou forçar a esfericidade adicionando tipo cs (que significa simetria composta) à declaração repetida. Depois, relaxarei essa estrutura. A primeira análise abaixo usa exatamente os mesmos dados que o Proc GLM. Embora sejam inseridos de forma diferente. Aqui os dados são inseridos no que é chamado de forma longa, em oposição à forma ampla usada para o Proc GLM. Isso significa que em vez de ter uma linha de dados para cada assunto, temos uma linha de dados para cada observação. Então, com quatro tempos de medição, teremos quatro linhas de dados para esse assunto. Uma vez que temos um design completamente equilibrado (tamanho de amostra igual e sem dados faltantes) e porque os intervalos de tempo são constantes, os resultados dessa análise serão exatamente os mesmos para o Proc GLM, desde que eu especifique o tipo cs. Os dados seguem. Eu usei o cartão de entrada ao invés de ler um arquivo apenas para dar uma abordagem alternativa. Coloquei os dados em três colunas para economizar espaço, mas as declarações de sintaxe reais teriam 48 linhas de dados. O primeiro conjunto de comandos traça os resultados de cada assunto individual dividido por grupos. Mais cedo vimos o grupo significa ao longo do tempo. Agora, podemos ver como cada um dos assuntos se relaciona com os meios do seu grupo. No mundo ideal, as linhas começariam no mesmo ponto do eixo Y (isto é, têm uma intercepção comum) e se movem em paralelo (isto é, têm uma inclinação comum). Isso não é exatamente o que acontece aqui, mas se essas são variações ocasionais ou sistemáticas é algo que vamos olhar mais tarde. Podemos ver no grupo Controle que alguns indivíduos diminuem de forma linear ao longo do tempo e alguns outros assuntos, especialmente aqueles com menores escores diminuem ao primeiro e depois aumentam durante o acompanhamento. Parcelas (Controle do Grupo 1, Tratamento do Grupo 2) Para Proc Mixed precisamos especificar que o grupo, o tempo e o assunto são variáveis ​​de classe. (Veja a sintaxe acima.) Isso fará com que o SAS os trate como fatores (variáveis ​​nominais ou ordinais) em vez de como variáveis ​​contínuas. A declaração do modelo diz ao programa que queremos tratar o grupo e o tempo como um projeto fatorial e gerar os principais efeitos e a interação. (Eu não adicionei uma solução para o final da declaração do modelo porque eu não quero falar sobre as estimativas de parâmetros dos efeitos do tratamento neste momento, mas a maioria das pessoas colocaria lá.) O comando repetido diz ao SAS tratar isso como um Design de medidas repetidas, que a variável sujeita é denominada subj e que queremos tratar a matriz de covariância como exibindo simetria composta, mesmo que nos dados que criei não parecemos chegar perto de atender a essa hipótese. A especificação rcorr irá solicitar a matriz de correlação estimada. (Nós poderíamos usar r em vez de rcorr, mas isso produziria uma matriz de covariância, que é mais difícil de interpretar.) Os resultados dessa análise seguem e você pode ver que eles se assemelham muito à nossa abordagem de análise de variância usando Proc GLM. Nesta impressão, vemos as correlações estimadas entre os tempos. Estas não são as correlações reais, que aparecem abaixo, mas as estimativas provenientes de uma suposição de simetria composta. Essa suposição diz que as correlações devem ser iguais, e o que temos aqui são basicamente correlações médias. As correlações reais, calculadas em média sobre os dois grupos que usam a transformação de Fishers, são: Observe que são bastante diferentes das que assumem a simetria composta e que elas não se parecem como se correspondessem com essa hipótese. Vamos resolver esse problema mais tarde. (Eu não tenho a menor idéia de por que o título se refere ao assunto 1. Ele apenas faz) Existem também dois parâmetros de covariância. Lembre-se de que existem duas fontes de efeitos aleatórios neste design. Existe o nosso sigma normal 2 e. Que reflete o barulho aleatório. Além disso, estamos tratando nossos assuntos como uma amostra aleatória, e existe, portanto, variação aleatória entre os indivíduos. Aqui eu toco um pouco com os quadrados médios esperados. Você pode lembrar que os quadrados médios esperados para o termo de erro para o efeito entre os sujeitos são E (MS win subj) sigma e 2 asigma pi 2 e nossa estimativa de sigma e 2. retirada da análise GLM, é MS residual. Que é 2760.6218. A letra a representa o número de tempos de medição 4 e MS subj win grps 12918.0663, novamente a partir da análise GLM. Portanto, nossa estimativa de sigma pi 2 (12918.0663 2760.6218) 4 2539.36. Estas duas estimativas são a nossa parte aleatória do modelo e são dadas na seção intitulada Covariance Parameter Estimates. Não vejo uma situação neste exemplo em que desejamos fazer uso desses valores, mas em outros projetos mistos eles são úteis. Você pode notar uma coisa estranha nos dados. Em vez de entrar no tempo como 1,2, 3, 4, entrei como 0, 1, 3 e 6. Se essa fosse uma ANOVA padrão, não faria qualquer diferença, e de fato não faz diferença aqui, mas quando Chegamos a olhar para interceptações e encostas, será muito importante como designamos o ponto 0. Poderíamos ter centrado o tempo, subtraindo o tempo médio de cada entrada, o que significaria que a interceptação estava no tempo médio. Eu optei por fazer 0 representar o pré-teste, o que parece um lugar lógico para encontrar a interceptação. Vou dizer mais sobre isso mais tarde. Dados faltantes Acabei de passar bastante tempo discutindo um design equilibrado onde todos os dados estão disponíveis. Agora eu quero excluir alguns dos dados e refazer a análise. Esta é uma das áreas onde projetos mistos têm uma vantagem importante. Vou excluir partidas muito ao acaso, exceto que eu quero mostrar um padrão de observações diferentes ao longo do tempo. É mais fácil ver o que fiz se analisarmos os dados na forma ampla, então a tabela anterior é apresentada abaixo. Representando observações faltantes. É importante notar que os dados estão faltando completamente ao acaso, e não com base em outras observações. Se tratarmos isso como uma análise padrão de variância de medidas repetidas, usando o Proc GLM. nós temos um problema. Dos 24 casos, apenas 17 deles possuem dados completos. Isso significa que nossa análise será baseada apenas em 17 casos. Além de uma séria perda de poder, existem outros problemas com esse estado de coisas. Suponha que eu suspeitei que as pessoas menos deprimidas são menos propensas a retornar para uma sessão de acompanhamento e, portanto, têm dados faltantes. Para construir isso no exemplo, eu poderia deliberadamente ter excluído os dados daqueles que obtiveram pontuação baixa na depressão para começar, embora eu mantivesse seus resultados pré-teste. (Na verdade, não fiz isso aqui.) Suponha ainda que as pessoas com baixa depressão respondam ao tratamento (ou não tratamento) de maneiras diferentes daqueles que estão mais deprimidos. Ao excluir casos inteiros, terei excluído assuntos de baixa depressão e isso resultará em estimativas tendenciosas do que teríamos encontrado se esses pontos de dados originais não estivessem faltando. Este não é certamente um resultado desejável. Para aumentar ligeiramente o parágrafo anterior, se usarmos o Proc GLM. Ou um procedimento comparável em outro software, temos que assumir que os dados estão faltando completamente ao acaso, normalmente abreviado MCAR. (Veja Howell, 2008.) Se os dados não estão faltando completamente ao acaso, os resultados serão tendenciosos. Mas se eu conseguir encontrar uma maneira de manter a maior quantidade de dados possível e se as pessoas com baixos índices de pré-teste faltam em um ou mais tempos de medição, o resultado do pré-teste servirá essencialmente como covariável para prever falta. Isso significa que eu só tenho que assumir que os dados estão ausentes aleatoriamente (MAR) em vez de MCAR. Esse é um ganho que vale a pena ter. O MCAR é bastante raro na pesquisa experimental, mas MAR é muito mais comum. Usar uma abordagem de modelo misto requer apenas que os dados sejam MAR e me permita reter graus consideráveis ​​de liberdade. (Esse argumento foi desafiado por Overall Tonidandel (2007), mas neste exemplo particular, os dados realmente são essencialmente MCAR. Voltarei a esse problema mais tarde.) Resultados Proc GLM A saída da análise desses dados usando o Proc GLM segue. Eu dou esses resultados apenas para fins de comparação, e eu omitei grande parte da impressão. Observe que ainda temos um efeito de grupo e um efeito de tempo, mas o F para a nossa interação foi reduzido em cerca de metade, e é isso que nos interessa mais. (Em uma versão anterior eu fiz isso cair para não significativo, mas eu calei aqui.) Observe também a grande queda nos graus de liberdade devido ao fato de agora ter apenas 17 assuntos. Proc Mixed Agora, nos movemos para os resultados usando Proc Mixed. Preciso modificar o arquivo de dados, colocando-o em sua forma longa e substituindo as observações perdidas por um período, mas isso significa que eu apenas alterei 9 linhas de 96 (10 dos dados) em vez de 7 de 24 (29) . A sintaxe seria exatamente a mesma coisa que antes. A presença de tempo na declaração repetida não é necessária se eu inclua dados perdidos usando um período, mas é necessário se eu simplesmente remover a observação completamente. (Pelo menos, é assim que leio o manual). Os resultados seguem, novamente com grande parte da impressão apagada: Esta é uma solução muito mais agradável, não só porque mantivemos nossos níveis de significância, mas porque se baseia em consideravelmente mais Dados e não dependem de uma suposição de que os dados estão faltando completamente ao acaso. Novamente, você vê um padrão fixo de correlações entre os ensaios que resultam da simetria de compostos especificada para a análise. Outras estruturas de covariância Para este ponto, todas as nossas análises foram baseadas em uma suposição de simetria composta. (O pressuposto é realmente sobre a esfericidade, mas os dois são próximos e Proc Mixed refere-se à solução como tipo cs.) Mas se você olha a matriz de correlação dada anteriormente, é bastante claro que as correlações mais separadas no tempo são claramente menores do que as correlações Próximo ao tempo, que parece um resultado razoável. Além disso, se você olhou o teste de Mauchlys de esfericidade (não mostrado) é significativo com p .012. Embora este não seja um ótimo teste, isso deve nos dar uma pausa. Realmente devemos fazer algo sobre esfericidade. A primeira coisa que podemos fazer sobre a esfericidade é especificar que o modelo não fará nenhum pressuposto sobre a forma da matriz de covariância. Para fazer isso, eu pedirei uma matriz desestruturada. Isso é realizado incluindo o tipo un na declaração repetida. Isso forçará a SAS a estimar todas as variâncias e covariâncias e usá-las em sua solução. O problema com isso é que há 10 coisas a serem estimadas e, portanto, perderemos graus de liberdade para nossos testes. Mas eu continuarei de qualquer maneira. Para essa análise, continuarei a usar o conjunto de dados com dados perdidos, embora eu possa ter usado os dados completos que eu desejava. Incluirei um pedido de que o SAS use procedimentos devido a Hotelling-Lawley-McKeon (hlm) e Hotelling-Lawley-Pillai-Samson (hlps) que melhorem os graus de liberdade para nossos denominadores. Isso é recomendado para um modelo não estruturado. Os resultados são mostrados abaixo. Resultados usando matriz não estruturada Observe a matriz de correlações. Do pré-teste ao seguimento de 6 meses, a correlação com os resultados do pré-teste caiu de 0,46 a -3,0, e esse padrão é consistente. Isso certamente não inspira confiança na simetria composta. As F s não mudaram muito do modelo anterior, mas os graus de liberdade para os termos dentro do assunto caíram de 57 para 22, o que é uma enorme queda. Isso resulta do fato de que o modelo teve que fazer estimativas adicionais de covariâncias. Finalmente, as estatísticas hlm e hlps reduzem ainda mais os graus de liberdade para 20, mas os efeitos ainda são significativos. Isso me faria muito bem no estudo se os dados fossem dados reais. Mas nós passamos de um extremo a outro. Nós estimamos dois parâmetros de covariância quando usamos o tipo cs e 10 parâmetros de covariância quando usamos o tipo un. (Dito de outra forma, com a solução desestruturada, jogamos as mãos e dissemos ao programa. Você descobriu que não sabemos o que está acontecendo. Existe um meio termo (na verdade, há muitos). Provavelmente, sabemos, pelo menos, algo Sobre o que essas correlações devem ser parecidas. Muitas vezes, esperamos que as correlações diminuam à medida que os ensaios em questão são mais removidos uns dos outros. Eles podem não diminuir tão rápido quanto os nossos dados sugerem, mas eles provavelmente deveriam diminuir. Um modelo autorregressivo, que nós Verá em seguida, assume que as correlações entre duas vezes dependem tanto da correlação no tempo anterior quanto de um componente de erro. Para colocar isso de forma diferente, sua pontuação no tempo 3 depende da sua pontuação no tempo 2 e erro. (Esta é uma primeira Modelo de autoregressão de ordem. Um modelo de segunda ordem teria uma pontuação dependente dos dois tempos anteriores mais erro.) De fato, um modelo AR (1) assume que, se a correlação entre o Tempo 1 e o Tempo 2 for .51, então a correlação entre o Tempo 1 e D O tempo 3 tem um valor esperado de .512 2 .26 e entre o Tempo 1 e o Tempo 4 tem um valor esperado de .513 3 .13. Nossos dados parecem razoavelmente próximos disso. (Lembre-se de que estes são valores esperados de r. Não as correlações obtidas reais.) A solução usando um modelo autoregressivo de primeira ordem segue. Observe o padrão de correlações. O .6182 como a correlação entre ensaios adjacentes é essencialmente uma média das correlações entre ensaios adjacentes no caso não estruturado. O .3822 é apenas .61822 2 e .2363 .61823 3. Observe que os testes em efeitos dentro do assunto retornam até 57 df, o que certamente é agradável e nossos resultados ainda são significativos. Esta é uma solução muito melhor do que nós tivemos usando o Proc GLM. Agora, temos três soluções, mas que devemos escolher Um auxílio na escolha é olhar para as Estatísticas de Ajuste impressas com cada solução. Essas estatísticas levam em consideração o quão bem o modelo se ajusta aos dados e as estimativas necessárias para chegar lá. Colocamos vagamente, provavelmente seríamos mais felizes com um ajuste muito bom, com base em estimativas de alguns parâmetros, do que com um ajuste ligeiramente melhor baseado em muitas estimativas de parâmetros. Se você olha para os três modelos que cabemos para o design desequilibrado, você verá que o critério AIC para o modelo tipo cs foi de 909,4, que caiu para 903,7 quando relaxamos a hipótese de simetria composta. Um valor menor de AIC é melhor, então devemos preferir o segundo modelo. Então, quando buscamos um meio termo, ao especificar o padrão ou as correlações, mas não fazendo a SAS estimar 10 correlações separadas, a AIC caiu novamente para 899,1. Esse modelo se encaixa melhor e o fato de que ele fez apenas estimando uma variância e uma correlação nos leva a preferir esse modelo. SPSS Mixed Você pode realizar a mesma coisa usando o SPSS se preferir. Não vou discutir a sintaxe aqui, mas os comandos são apresentados abaixo. Você pode modificar esta sintaxe substituindo o CS por UN ou AR (1) se desejar. (Uma palavra de advertência. Por alguma razão, o SPSS mudou a maneira como ele lida com dados perdidos. No passado, você poderia apenas colocar um período e o SPSS sabia que estava faltando. Já não o faz. Você precisa colocar algo como - 99 e diga-lhe que -99 é o código de falta. Enquanto Im, mudaram outra coisa. No passado, ele distinguia um valor de outro procurando espaço em branco. Assim, se houvesse uma aba, um espaço, 3 espaços , Um espaço e uma guia, ou o que fosse, sabia que tinha lido uma variável e estava passando para o próximo. NÃO QUALQUER MENTE, eu não consigo imaginar por que eles fizeram isso, mas para algumas maneiras de ler os dados, se você colocar dois espaços No seu arquivo de dados para manter os números alinhados verticalmente, assume que você pulou uma variável. Muito irritante. Basta usar um espaço ou uma guia entre as entradas.) Analises Usando R Os seguintes comandos executarão a mesma análise usando o programa R (Ou usando S-PLUS). Os resultados não serão exatamente os mesmos, mas eles são muito próximos. Linhas que começam com são comentários. Ao revisar esta versão, encontrei a seguinte referência apenas presa no meio do nada. Não lembro porque fiz isso, mas Bodo Winter tem uma excelente página que eu recomendo que você olhe. O link é bodowintertutorialbwLMEtutorial2.pdf. Para onde vamos agora Este documento é suficientemente longo para que eu crie um novo para lidar com esta próxima pergunta. Nesse documento, examinaremos outras formas de fazer a mesma coisa. A razão pela qual eu mudei para modelos alternativos, mesmo que eles façam o mesmo, é que a lógica desses modelos tornará mais fácil para você se mover para o que geralmente são chamados de projetos de um único caso ou vários projetos de linha de base quando terminamos com O que é muito parecido com uma abordagem tradicional de análise de variância ao que muitas vezes pensamos como análise tradicional de modelos de variância. Referências Guerin, L. e W. W. Stroup. 2000. Um estudo de simulação para avaliar a análise PROC MIXED de dados de medidas repetidas. P. 170-203. Em Proc. 12º Kansas State Univ. Conf. Em Estatística Aplicada na Agricultura. Kansas State Univ. Manhattan. Howell, D. C. (2008) A análise de variância. Em Osborne, J. I. Melhores práticas em Métodos Quantitativos. Sábio. Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006). SAS para modelos mistos. Cary. NC. SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004) Projetando Experiências e Analisando Dados: Uma Abordagem de Comparação de Modelos, 2ª edição. Belmont, CA. Wadsworth. Em geral, J. E. Ahn, C. Shivakumar, C. Kalburgi, Y. (1999). Formulações problemáticas de modelos SAS Proc. Mixed para medições repetidas. Journal of Biopharmaceutical Statistics, 9, 189-216. Em geral, J. E. Tonindandel, S. (2002) Medição da mudança em estudos longitudinais controlados. British Journal of Mathematical and Statistical Psychology, 55, 109-124. Em geral, J. E. Tonindandel, S. (2007) Análise de dados de um projeto de medidas repetidas controladas com abandono dependente da linha de base. Metodologia, 3, 58-66. Pinheiro, J. C. Bates, D. M. (2000). Modelos de efeitos mistos em S e S-Plus. Springer. Some good references on the web are: The following is a good reference for people with questions about using SAS in general. Downloadable Papers on Multilevel Models Good coverage of alternative covariance structures The main reference for SAS Proc Mixed is Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006) SAS for mixed models, Cary, NC SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004). Designing Experiments and Analyzing Data (2nd edition). Lawrence Erlbaum Associates. The classic reference for R is Penheiro, J. C. Bates, D. M. (2000) Mixed-effects models in S and S-Plus. New York: Springer. Last revised 6282015 When we have a design in which we have both random and fixed variables, we have what is often called a mixed model. Mixed models have begun to play an important role in statistical analysis and offer many advantages over more traditional analyses. At the same time they are more complex and the syntax for software analysis is not always easy to set up. I will break this paper up into two papers because there are a number of designs and design issues to consider. This document will deal with the use of what are called mixed models (or linear mixed models, or hierarchical linear models, or many other things) for the analysis of what we normally think of as a simple repeated measures analysis of variance. Future documents will deal with mixed models to handle single-subject design (particularly multiple baseline designs) and nested designs. A large portion of this document has benefited from Chapter 15 in Maxwell Delaney (2004) Designing Experiments and Analyzing Data. They have one of the clearest discussions that I know. I am going a step beyond their example by including a between-groups factor as well as a within-subjects (repeated measures) factor. For now my purpose is to show the relationship between mixed models and the analysis of variance. The relationship is far from perfect, but it gives us a known place to start. More importantly, it allows us to see what we gain and what we lose by going to mixed models. In some ways I am going through the Maxwell Delaney chapter backwards, because I am going to focus primarily on the use of the repeated command in SAS Proc Mixed . I am doing that because it fits better with the transition from ANOVA to mixed models. My motivation for this document came from a question asked by Rikard Wicksell at Karolinska University in Sweden. He had a randomized clinical trial with two treatment groups and measurements at pre, post, 3 months, and 6 months. His problem is that some of his data were missing. He considered a wide range of possible solutions, including last trial carried forward, mean substitution, and listwise deletion. In some ways listwise deletion appealed most, but it would mean the loss of too much data. One of the nice things about mixed models is that we can use all of the data we have. If a score is missing, it is just missing. It has no effect on other scores from that same patient. Another advantage of mixed models is that we dont have to be consistent about time. For example, and it does not apply in this particular example, if one subject had a follow-up test at 4 months while another had their follow-up test at 6 months, we simply enter 4 (or 6) as the time of follow-up. We dont have to worry that they couldnt be tested at the same intervals. A third advantage of these models is that we do not have to assume sphericity or compound symmetry in the model. We can do so if we want, but we can also allow the model to select its own set of covariances or use covariance patterns that we supply. I will start by assuming sphericity because I want to show the parallels between the output from mixed models and the output from a standard repeated measures analysis of variance. I will then delete a few scores and show what effect that has on the analysis. I will compare the standard analysis of variance model with a mixed model. Finally I will use Expectation Maximization (EM) and Multiple Imputation (MI) to impute missing values and then feed the newly complete data back into a repeated measures ANOVA to see how those results compare. (If you want to read about those procedures, I have a web page on them at Missing. html ). I have created data to have a number of characteristics. There are two groups - a Control group and a Treatment group, measured at 4 times. These times are labeled as 1 (pretest), 2 (one month posttest), 3 (3 months follow-up), and 4 (6 months follow-up). I created the treatment group to show a sharp drop at post-test and then sustain that drop (with slight regression) at 3 and 6 months. The Control group declines slowly over the 4 intervals but does not reach the low level of the Treatment group. There are noticeable individual differences in the Control group, and some subjects show a steeper slope than others. In the Treatment group there are individual differences in level but the slopes are not all that much different from one another. You might think of this as a study of depression, where the dependent variable is a depression score (e. g. Beck Depression Inventory) and the treatment is drug versus no drug. If the drug worked about as well for all subjects the slopes would be comparable and negative across time. For the control group we would expect some subjects to get better on their own and some to stay depressed, which would lead to differences in slope for that group. These facts are important because when we get to the random coefficient mixed model the individual differences will show up as variances in intercept, and any slope differences will show up as a significant variance in the slopes. For the standard ANOVA, and for mixed models using the Repeated command, the differences in level show up as a Subject effect and we assume that the slopes are comparable across subjects. The program and data used below are available at the following links. I explain below the differences between the data files. The results of a standard repeated measures analysis of variance with no missing data and using SAS Proc GLM follow. You would obtain the same results using the SPSS Univariate procedure. Because I will ask for a polynomial trend analysis, I have told it to recode the levels as 0, 1, 3, 6 instead of 1, 2, 3, 4. I did not need to do this, but it seemed truer to the experimental design. It does not affect the standard summary table. (I give the entire data entry parts of the program here, but will leave it out in future code.) Here we see that each of the effects in the overall analysis is significant. We dont care very much about the group effect because we expected both groups to start off equal at pre-test. What is important is the interaction, and it is significant at p .0001. Clearly the drug treatment is having a differential effect on the two groups, which is what we wanted to see. The fact that the Control group seems to be dropping in the number of symptoms over time is to be expected and not exciting, although we could look at these simple effects if we wanted to. We would just run two analyses, one on each group. I would not suggest pooling the variances to calculate F . though that would be possible. In the printout above I have included tests on linear, quadratic, and cubic trend that will be important later. However you have to read this differently than you might otherwise expect. The first test for the linear component shows an F of 54.27 for mean and an F of 0.59 for group. Any other software that I have used would replace mean with Time and group with Group times Time. In other words we have a significant linear trend over time, but the linear times group contrast is not significant. I dont know why they label them that way. (Well, I guess I do, but its not the way that I would do it.) I should also note that my syntax specified the intervals for time, so that SAS is not assuming equally spaced intervals. The fact that the linear trend was not significant for the interaction means that both groups are showing about the same linear trend. But notice that there is a significant interaction for the quadratic. Mixed Model The use of mixed models represents a substantial difference from the traditional analysis of variance. For balanced designs (which roughly translates to equal cell sizes) the results will come out to be the same, assuming that we set the analysis up appropriately. But the actual statistical approach is quite different and ANOVA and mixed models will lead to different results whenever the data are not balanced or whenever we try to use different, and often more logical, covariance structures. First a bit of theory. Within Proc Mixed the repeated command plays a very important role in that it allows you to specify different covariance structures, which is something that you cannot do under Proc GLM . You should recall that in Proc GLM we assume that the covariance matrix meets our sphericity assumption and we go from there. In other words the calculations are carried out with the covariance matrix forced to sphericity. If that is not a valid assumption we are in trouble. Of course there are corrections due to Greenhouse and Geisser and Hyunh and Feldt, but they are not optimal solutions. But what does compound symmetry, or sphericity, really represent (The assumption is really about sphericity, but when speaking of mixed models most writers refer to compound symmetry, which is actually a bit more restrictive.) Most people know that compound symmetry means that the pattern of covariances or correlations is constant across trials. In other words, the correlation between trial 1 and trial 2 is equal to the correlation between trial 1 and trial 4 or trial 3 and trial 4, etc. But a more direct way to think about compound symmetry is to say that it requires that all subjects in each group change in the same way over trials. In other words the slopes of the lines regressing the dependent variable on time are the same for all subjects. Put that way it is easy to see that compound symmetry can really be an unrealistic assumption. If some of your subjects improve but others dont, you do not have compound symmetry and you make an error if you use a solution that assumes that you do. Fortunately Proc Mixed allows you to specify some other pattern for those covariances. We can also get around the sphericity assumption using the MANOVA output from Proc GLM . but that too has its problems. Both standard univariate GLM and MANOVA GLM will insist on complete data. If a subject is missing even one piece of data, that subject is discarded. That is a problem because with a few missing observations we can lose a great deal of data and degrees of freedom. Proc Mixed with repeated is different. Instead of using a least squares solution, which requires complete data, it uses a maximum likelihood solution, which does not make that assumption. (We will actually use a Restricted Maximum Likelihood (REML) solution.) When we have balanced data both least squares and REML will produce the same solution if we specify a covariance matrix with compound symmetry. But even with balanced data if we specify some other covariance matrix the solutions will differ. At first I am going to force sphericity by adding type cs (which stands for compound symmetry) to the repeated statement. I will later relax that structure. The first analysis below uses exactly the same data as for Proc GLM . though they are entered differently. Here data are entered in what is called long form, as opposed to the wide form used for Proc GLM . This means that instead of having one line of data for each subject, we have one line of data for each observation. So with four measurement times we will have four lines of data for that subject. Because we have a completely balanced design (equal sample sizes and no missing data) and because the time intervals are constant, the results of this analysis will come out exactly the same as those for Proc GLM so long as I specify type cs. The data follow. I have used card input rather than reading a file just to give an alternative approach. I have put the data in three columns to save space, but the real syntax statements would have 48 lines of data. The first set of commands plots the results of each individual subject broken down by groups. Earlier we saw the group means over time. Now we can see how each of the subjects stands relative to the means of his or her group. In the ideal world the lines would start out at the same point on the Y axis (i. e. have a common intercept) and move in parallel (i. e. have a common slope). That isnt quite what happens here, but whether those are chance variations or systematic ones is something that we will look at later. We can see in the Control group that a few subjects decline linearly over time and a few other subjects, especially those with lower scores decline at first and then increase during follow-up. Plots (Group 1 Control, Group 2 Treatment) For Proc Mixed we need to specify that group, time, and subject are class variables. (See the syntax above.) This will cause SAS to treat them as factors (nominal or ordinal variables) instead of as continuous variables. The model statement tells the program that we want to treat group and time as a factorial design and generate the main effects and the interaction. (I have not appended a solution to the end of the model statement because I dont want to talk about the parameter estimates of treatment effects at this point, but most people would put it there.) The repeated command tells SAS to treat this as a repeated measures design, that the subject variable is named subj, and that we want to treat the covariance matrix as exhibiting compound symmetry, even though in the data that I created we dont appear to come close to meeting that assumption. The specification rcorr will ask for the estimated correlation matrix. (we could use r instead of rcorr, but that would produce a covariance matrix, which is harder to interpret.) The results of this analysis follow, and you can see that they very much resemble our analysis of variance approach using Proc GLM . On this printout we see the estimated correlations between times. These are not the actual correlations, which appear below, but the estimates that come from an assumption of compound symmetry. That assumption says that the correlations have to be equal, and what we have here are basically average correlations. The actual correlations, averaged over the two groups using Fishers transformation, are: Notice that they are quite different from the ones assuming compound symmetry, and that they dont look at all as if they fit that assumption. We will deal with this problem later. (I dont have a clue why the heading refers to subject 1. It just does) There are also two covariance parameters. Remember that there are two sources of random effects in this design. There is our normal sigma 2 e . which reflects random noise. In addition we are treating our subjects as a random sample, and there is thus random variance among subjects. Here I get to play a bit with expected mean squares. You may recall that the expected mean squares for the error term for the between-subject effect is E(MS win subj ) sigma e 2 asigma pi 2 and our estimate of sigma e 2. taken from the GLM analysis, is MS residual . which is 2760.6218. The letter a stands for the number of measurement times 4, and MS subj win grps 12918.0663, again from the GLM analysis. Therefore our estimate of sigma pi 2 (12918.0663 2760.6218)4 2539.36. These two estimates are our random part of the model and are given in the section headed Covariance Parameter Estimates. I dont see a situation in this example in which we would wish to make use of these values, but in other mixed designs they are useful. You may notice one odd thing in the data. Instead of entering time as 1,2, 3, 4, I entered it as 0, 1, 3, and 6. If this were a standard ANOVA it wouldnt make any difference, and in fact it doesnt make any difference here, but when we come to looking at intercepts and slopes, it will be very important how we designated the 0 point. We could have centered time by subtracting the mean time from each entry, which would mean that the intercept is at the mean time. I have chosen to make 0 represent the pretest, which seems a logical place to find the intercept. I will say more about this later. Missing Data I have just spent considerable time discussing a balanced design where all of the data are available. Now I want to delete some of the data and redo the analysis. This is one of the areas where mixed designs have an important advantage. I am going to delete scores pretty much at random, except that I want to show a pattern of different observations over time. It is easiest to see what I have done if we look at data in the wide form, so the earlier table is presented below with . representing missing observations. It is important to notice that data are missing completely at random, not on the basis of other observations. If we treat this as a standard repeated measures analysis of variance, using Proc GLM . we have a problem. Of the 24 cases, only 17 of them have complete data. That means that our analysis will be based on only those 17 cases. Aside from a serious loss of power, there are other problems with this state of affairs. Suppose that I suspected that people who are less depressed are less likely to return for a follow-up session and thus have missing data. To build that into the example I could deliberately have deleted data from those who scored low on depression to begin with, though I kept their pretest scores. (I did not actually do this here.) Further suppose that people low in depression respond to treatment (or non-treatment) in different ways from those who are more depressed. By deleting whole cases I will have deleted low depression subjects and that will result in biased estimates of what we would have found if those original data points had not been missing. This is certainly not a desirable result. To expand slightly on the previous paragraph, if we using Proc GLM . or a comparable procedure in other software, we have to assume that data are missing completely at random, normally abbreviated MCAR. (See Howell, 2008.) If the data are not missing completely at random, then the results would be biased. But if I can find a way to keep as much data as possible, and if people with low pretest scores are missing at one or more measurement times, the pretest score will essentially serve as a covariate to predict missingness. This means that I only have to assume that data are missing at random (MAR) rather than MCAR. That is a gain worth having. MCAR is quite rare in experimental research, but MAR is much more common. Using a mixed model approach requires only that data are MAR and allows me to retain considerable degrees of freedom. (That argument has been challenged by Overall Tonidandel (2007), but in this particular example the data actually are essentially MCAR. I will come back to this issue later.) Proc GLM results The output from analyzing these data using Proc GLM follows. I give these results just for purposes of comparison, and I have omitted much of the printout. Notice that we still have a group effect and a time effect, but the F for our interaction has been reduced by about half, and that is what we care most about. (In a previous version I made it drop to nonsignificant, but I relented here.) Also notice the big drop in degrees of freedom due to the fact that we now only have 17 subjects. Proc Mixed Now we move to the results using Proc Mixed . I need to modify the data file by putting it in its long form and to replacing missing observations with a period, but that means that I just altered 9 lines out of 96 (10 of the data) instead of 7 out of 24 (29). The syntax would look exactly the same as it did earlier. The presence of time on the repeated statement is not necessary if I have included missing data by using a period, but it is needed if I just remove the observation completely. (At least that is the way I read the manual.) The results follow, again with much of the printout deleted: This is a much nicer solution, not only because we have retained our significance levels, but because it is based on considerably more data and is not reliant on an assumption that the data are missing completely at random. Again you see a fixed pattern of correlations between trials which results from my specifying compound symmetry for the analysis. Other Covariance Structures To this point all of our analyses have been based on an assumption of compound symmetry. (The assumption is really about sphericity, but the two are close and Proc Mixed refers to the solution as type cs.) But if you look at the correlation matrix given earlier it is quite clear that correlations further apart in time are distinctly lower than correlations close in time, which sounds like a reasonable result. Also if you looked at Mauchlys test of sphericity (not shown) it is significant with p .012. While this is not a great test, it should give us pause. We really ought to do something about sphericity. The first thing that we could do about sphericity is to specify that the model will make no assumptions whatsoever about the form of the covariance matrix. To do this I will ask for an unstructured matrix. This is accomplished by including type un in the repeated statement. This will force SAS to estimate all of the variances and covariances and use them in its solution. The problem with this is that there are 10 things to be estimated and therefore we will lose degrees of freedom for our tests. But I will go ahead anyway. For this analysis I will continue to use the data set with missing data, though I could have used the complete data had I wished. I will include a request that SAS use procedures due to Hotelling-Lawley-McKeon (hlm) and Hotelling-Lawley-Pillai-Samson (hlps) which do a better job of estimating the degrees of freedom for our denominators. This is recommended for an unstructured model. The results are shown below. Results using unstructured matrix Notice the matrix of correlations. From pretest to the 6 month follow-up the correlation with pretest scores has dropped from .46 to -.03, and this pattern is consistent. That certainly doesnt inspire confidence in compound symmetry. The F s have not changed very much from the previous model, but the degrees of freedom for within-subject terms have dropped from 57 to 22, which is a huge drop. That results from the fact that the model had to make additional estimates of covariances. Finally, the hlm and hlps statistics further reduce the degrees of freedom to 20, but the effects are still significant. This would make me feel pretty good about the study if the data had been real data. But we have gone from one extreme to another. We estimated two covariance parameters when we used type cs and 10 covariance parameters when we used type un. (Put another way, with the unstructured solution we threw up our hands and said to the program You figure it out We dont know whats going on. There is a middle ground (in fact there are many). We probably do know at least something about what those correlations should look like. Often we would expect correlations to decrease as the trials in question are further removed from each other. They might not decrease as fast as our data suggest, but they should probably decrease. An autoregressive model, which we will see next, assumes that correlations between any two times depend on both the correlation at the previous time and an error component. To put that differently, your score at time 3 depends on your score at time 2 and error. (This is a first order autoregression model. A second order model would have a score depend on the two previous times plus error.) In effect an AR(1) model assumes that if the correlation between Time 1 and Time 2 is .51, then the correlation between Time 1 an d Time 3 has an expected value of .512 2 .26 and between Time 1 and Time 4 has an expected value of .513 3 .13. Our data look reasonably close to that. (Remember that these are expected values of r . not the actual obtained correlations.) The solution using a first order autoregressive model follows. Notice the pattern of correlations. The .6182 as the correlation between adjacent trials is essentially an average of the correlations between adjacent trials in the unstructured case. The .3822 is just .61822 2 and .2363 .61823 3. Notice that tests on within-subject effects are back up to 57 df, which is certainly nice, and our results are still significant. This is a far nicer solution than we had using Proc GLM . Now we have three solutions, but which should we choose One aid in choosing is to look at the Fit Statistics that are printed out with each solution. These statistics take into account both how well the model fits the data and how many estimates it took to get there. Put loosely, we would probably be happier with a pretty good fit based on few parameter estimates than with a slightly better fit based on many parameter estimates. If you look at the three models we have fit for the unbalanced design you will see that the AIC criterion for the type cs model was 909.4, which dropped to 903.7 when we relaxed the assumption of compound symmetry. A smaller AIC value is better, so we should prefer the second model. Then when we aimed for a middle ground, by specifying the pattern or correlations but not making SAS estimate 10 separate correlations, AIC dropped again to 899.1. That model fit better, and the fact that it did so by only estimating a variance and one correlation leads us to prefer that model. SPSS Mixed You can accomplish the same thing using SPSS if you prefer. I will not discuss the syntax here, but the commands are given below. You can modify this syntax by replacing CS with UN or AR(1) if you wish. (A word of warning. For some reason SPSS has changed the way it reads missing data. In the past you could just put in a period and SPSS knew that was missing. It no longer does so. You need to put in something like -99 and tell it that -99 is the code for missing. While Im at it, they changed something else. In the past it distinguished one value from another by looking for white space. Thus if there were a tab, a space, 3 spaces, a space and a tab, or whatever, it knew that it had read one variable and was moving on to the next. NOT ANYMORE I cant imagine why they did it, but for some ways of readig the data, if you put two spaces in your data file to keep numbers lined up vertically, it assumes that the you have skipped a variable. Very annoying. Just use one space or one tab between entries.) Analyses Using R The following commands will run the same analysis using the R program (or using S-PLUS). The results will not be exactly the same, but they are very close. Lines beginning with are comments. In revising this version I found the following reference just stuck in the middle of nowhere. I dont recall why I did that, but Bodo Winter has an excellent page that I recommend that you look at. The link is bodowintertutorialbwLMEtutorial2.pdf. Where do we go now This document is sufficiently long that I am going to create a new one to handle this next question. In that document we will look at other ways of doing much the same thing. The reason why I move to alternative models, even though they do the same thing, is that the logic of those models will make it easier for you to move to what are often called single-case designs or multiple baseline designs when we have finished with what is much like a traditional analysis of variance approach to what we often think of as traditional analysis of variance designs. References Guerin, L. and W. W. Stroup. 2000. A simulation study to evaluate PROC MIXED analysis of repeated measures data. P. 170-203. In Proc. 12th Kansas State Univ. Conf. on Applied Statistics in Agriculture. Kansas State Univ. Manhattan. Howell, D. C. (2008) The analysis of variance. In Osborne, J. I. Best practices in Quantitative Methods. Sage. Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006). SAS for Mixed Models. Cary. NC. SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004) Designing Experiments and Analyzing Data: A Model Comparison Approach, 2nd edition. Belmont, CA. Wadsworth. Overall, J. E. Ahn, C. Shivakumar, C. Kalburgi, Y. (1999). Problematic formulations of SAS Proc. Mixed models for repeated measurements. Journal of Biopharmaceutical Statistics, 9, 189-216. Overall, J. E. Tonindandel, S. (2002) Measuring change in controlled longitudinal studies. British Journal of Mathematical and Statistical Psychology, 55, 109-124. Overall, J. E. Tonindandel, S. (2007) Analysis of data from a controlled repeated measurements design with baseline-dependent dropouts. Methodology, 3, 58-66. Pinheiro, J. C. Bates, D. M. (2000). Mixed-effects Models in S and S-Plus. Springer. Some good references on the web are: The following is a good reference for people with questions about using SAS in general. Downloadable Papers on Multilevel Models Good coverage of alternative covariance structures The main reference for SAS Proc Mixed is Little, R. C. Milliken, G. A. Stroup, W. W. Wolfinger, R. D. Schabenberger, O. (2006) SAS for mixed models, Cary, NC SAS Institute Inc. Maxwell, S. E. Delaney, H. D. (2004). Designing Experiments and Analyzing Data (2nd edition). Lawrence Erlbaum Associates. The classic reference for R is Penheiro, J. C. Bates, D. M. (2000) Mixed-effects models in S and S-Plus. New York: Springer.

No comments:

Post a Comment