Detecção De Média Móvel


Os autores exploram como ciclo desliza em Galileu fase portadora medições podem ser mais eficazmente detectadas usando quatro freqüências. INNOVATION INSIGHTS com Richard Langley MAIS SATÉLITES OU MAIS SINAIS Essa foi a pergunta feita aos delegados da GNSS Election 08, o estimulante e divertido entretenimento oferecido no GPS World Leadership Dinner, em conjunto com o Institute of Navigations, em Savannah, em setembro de 2008. Durante o debate anterior à eleição, a Satellite Party defendeu que a comunidade de usuários do GNSS seria melhor servida por mais satélites do que por mais sinais. Eles argumentaram que mais satélites (mais do que aqueles na constelação GPS operacional) permitiriam um posicionamento mais contínuo e confiável em cidades, áreas montanhosas e outros ambientes difíceis e que os sinais GPS legados eram suficientes. Greg Turetsky, um dos seus candidatos, afirmou, eu manteria do ponto de vista económico que é muito mais rentável para os nossos eleitores ter mais dos mesmos satélites para lhes dar mais dos mesmos serviços de que desfrutam hoje em mais áreas , Em vez de criar coisas novas para as quais eles não têm nenhum uso. O Partido do Sinal, por outro lado, defendeu mais sinais com receptores capazes de usá-los para fornecer alta precisão para um amplo espectro de usos GNSS. O candidato do Partido do Sinal Javad Ashjaee opinou: "Nós somos o grupo de construir estradas, gerar mapas precisos, cultivar seus alimentos automatizando a agricultura, sincronizando suas estações de energia. Estamos trabalhando mesmo em aeronaves de pouso automático para usar o espaço aéreo de forma mais eficiente. Apesar de contestado, a eleição foi ganha pela Parte de Satélite, 62 votos a 46. Mas claramente, ambos os lados ofereceram benefícios benéficos à comunidade de usuários do GNSS, então por que não trabalhar juntos, fazer as partes entrarem em uma aliança e fornecer tanto mais satélites E mais sinais Avanço rápido para 2016. A aliança chegou a passar e temos o melhor dos dois mundos. Temos duas constelações GNSS completas, GPS e GLONASS, com mais duas, Galileo e BeiDou, em vias de conclusão nos próximos anos. Temos também sistemas regionais que fornecem um serviço de posicionamento local independente ou que aumentam o GPS com o NavIC (também conhecido como Sistema Regional de Navegação por Satélite da Indonésia) e QZSS, respectivamente. Sem mencionar um número crescente de satélites de sistema de aumento por satélite. Quando eu compilei o Almanaque para a edição de agosto, havia mais de 100 satélites GNSS transmitindo sinais para os usuários. E não só mais sinais de satélites mais, mas sinais tecnologicamente mais avançados em mais freqüências. A infinidade de sinais que agora estão sendo transmitidos por satélites GNSS já está levando a avanços adicionais no posicionamento, navegação e timingeven antes de constelações cheias que transmitem esses sinais estão no lugar. Um bom exemplo é o Galileos Open Service, que é transmitido nas bandas E1 e E5. Uma versão modificada da modulação de portadora de deslocamento binário (BOC), chamada Alternativa BOC ou AltBOC, é usada para gerar o sinal E5 de banda larga. Sua estrutura é tal que um receptor pode rastrear e fazer medições apenas na parte de menor freqüência do sinal centrado em 1176.450 MHz (E5a), apenas a parte de freqüência superior centrada em 1207.140 MHz (E5b), todo o sinal AltBOC centrado em 1191.795 MHz (E5ab), ou qualquer combinação destes incluindo todos os três. Usando todos os três juntamente com o sinal E1 nos fornece uma capacidade de posicionamento de quatro freqüências. O que é o benefício de usar quatro frequências Existem vários, mas nesta coluna de meses, um recém-formado estudante belga premiado e seu supervisor nos dizer como ciclo desliza em Galileo fase portadora medições podem ser mais eficaz e eficiente detectado usando quatro freqüências. A disponibilidade de dados oferecidos no Galileo GNSS Open Service em quatro freqüências portadoras abre caminho para novas soluções multi-freqüência para usuários civis. Na pesquisa relatada neste artigo, nós nos concentramos em uma das conseqüências da perda de rastreamento de sinal, a aparência de deslizamentos de ciclo, e como o uso das quatro freqüências pode ajudar na sua detecção. A detecção de deslizamento de ciclos é uma questão fundamental para aplicações de posicionamento de alta precisão. Todos os utilizadores que necessitem de determinar uma posição precisa e fiável devem estar cientes da presença potencial de ciclos em seus dados, uma vez que comprometem a qualidade dos dados. Tradicionalmente, foram utilizadas duas frequências portadoras para posicionar, por exemplo, as frequências GPS L1 e L2. Mais recentemente, o posicionamento de três transportadoras permitiu maior precisão e precisão. Embora a utilização de uma terceira frequência portadora nos permitiu resolver parcialmente o problema de detecção de deslizamento de ciclo, os procedimentos existentes ainda estão faltando em alguns aspectos. Um dos principais desafios de hoje é a detecção de deslizamento de ciclo sob alta atividade ionosférica, razão pela qual nos concentramos neste estudo de caso específico. E uma vez que o uso de três freqüências ajuda a melhorar a detecção de deslizamento de ciclo confiável, não poderia o uso de uma quarta freqüência adicional melhorar a capacidade de detecção Desde Galileo fornece quatro freqüências em seu serviço aberto, pensamos que poderíamos ser capazes de melhorar o ciclo de deslizamento Desempenho do algoritmo de detecção mais uma vez. Estrutura. Neste artigo, um novo algoritmo de detecção de quad-frequency de ciclo-slip é introduzido aparentemente, uma trilha inexplorada na literatura até agora. O algoritmo usa observações de fase de portadora não diferenciadas de um receptor estático de estação única. Desenvolvido pela primeira vez para pós-processamento, o algoritmo também foi adaptado para aplicações em tempo real. Este algoritmo visa melhorar a detecção de deslizamento de ciclo com alta atividade ionosférica. CYCLE SLIPS Embora as medições de código (pseudorange) são comumente usadas para o posicionamento padrão, qualquer aplicação de posicionamento preciso precisa usar medidas de fase de portadora, devido à sua melhor qualidade. Infelizmente, estes últimos estão potencialmente sujeitos a deslizes de ciclo, gerando um viés constante nos dados e, se não detectados e não corrigidos, impactam o posicionamento inferido. As medições de fase portadora são feitas observando-se a fase de batimento, isto é, a diferença entre o transportador recebido do satélite e uma réplica gerada pelo receptor. Na primeira época de observação, apenas a parte fracionária desta fase de batimento pode ser medida, mas o desvio de número inteiro entre o sinal de satélite e a réplica de receptores é desconhecido. Esse número inteiro de ciclos é chamado de ambigüidade de fase inicial e permanece constante durante o período de observação. A fase de portadora observável (entre um satélite i e um receptor p), em metros, é dada pela seguinte equação: onde o subscrito f k indica o termo dependência da frequência e na fase de portadora observável. G é o termo geométrico (isto é, uma função da faixa geométrica entre o receptor eo satélite controlado, o atraso troposférico e o viés do relógio do satélite e do receptor), I é o atraso ionosférico, M é o erro multipath, HW representa Satélites e atrasos de hardware do receptor, c é a velocidade de vácuo da luz, N é a ambigüidade de fase inicial, e é o erro aleatório (também chamado de ruído de fase). Na primeira época de observação, um contador inteiro é inicializado e, à medida que o rastreamento continua, é incrementado por um ciclo sempre que a fase de batimento muda de 2 para 0. Se o receptor perde brevemente a pista no sinal, a contagem é suspensa E um número inteiro de ciclos é perdido. Esta perda pode resultar de várias causas (obstrução do sinal, mudança rápida na fase da portadora observável, e assim por diante). Na equação de observação, o deslizamento do ciclo aparecerá como uma alteração no valor da ambigüidade da fase inicial. Assim, um deslize de um ciclo envolverá um deslocamento de medição de fase de cerca de 20 centímetros (igual ao comprimento de onda do portador), dependendo da frequência portadora afectada. O tamanho do deslizamento do ciclo pode ser qualquer valor de um a milhares de ciclos. Retardo ionosférico é o único termo que poderia ser confundido com um deslizamento de ciclo pequeno. De fato, durante um evento de perturbação ionosférica, esta variação de atraso entre duas épocas de observação (espaçadas em intervalos de 30 segundos, por exemplo) atinge frequentemente 20 centímetros (o tamanho de um deslize de um ciclo na medição de fase) ou mais. A atividade da ionosfera tem duas conseqüências principais. Em primeiro lugar, como mencionado anteriormente, os deslizamentos podem ser escondidos no ruído de observação (incluindo variabilidade ionosférica) e não detectados. Em segundo lugar, a variabilidade do sinal recebido pode causar perda de bloqueio e, portanto, deslizes de ciclo. Muitas configurações diferentes podem surgir quando o sinal é perdido. O rastreamento do sinal pode ser interrompido numa única transportadora resultando num deslizamento de ciclo isolado (ICS) ou simultaneamente em várias transportadoras. No segundo caso, a magnitude de deslizamento nos diferentes portadores pode ser a mesma (ciclos simultâneos de mesma magnitude, ou SCS-SM) ou diferentes (ciclos simultâneos de diferentes magnitudes, ou SCS-DM). Histórico de detecção. O primeiro algoritmo de detecção de deslizamento de ciclo usando observações indiferenciadas, Turbo Edit, foi desenvolvido em 1990 por Geoff Blewitt. São utilizadas medições de código e fase a partir de duas frequências portadoras. Ele foi implementado em muitos programas de pré-processamento de dados, como GIPSY-OASIS II, PANDA e Bernese. O algoritmo Turbo Edit foi aprimorado várias vezes. Em sua última versão, foi adaptado para detectar deslizes de ciclo sob alta atividade ionosférica, mas ainda é uma técnica de dupla frequência. A disponibilidade de uma terceira frequência de sinal simultânea permite o desenvolvimento de novas combinações de observáveis. Uma combinação de fase de baixo ruído apenas eliminando termos geométricos assim como termos ionosféricos de primeira ordem foi desenvolvida por Andrew Simsky e aplicada à detecção de deslizamento de ciclo. Estudos também têm sido feitos para determinar as melhores combinações a serem usadas no posicionamento de tripla freqüência e, posteriormente, em algoritmos de detecção e correção de deslizamento de ciclo. Estes algoritmos utilizam tanto medidas de código como de fase, bem como um método de três frequências desenvolvido por Maria Clara de Lacy e colaboradores. A preocupação com os deslizes de ciclo ea relação com a assinatura ionosférica em dados é tendência. Em 2011, Zhizhao Liu publicou um artigo sobre o uso da taxa de mudança do conteúdo eletrônico total para detectar deslizamentos de ciclo. Simon Banville e Richard Langley concluíram em um artigo publicado em 2013 que o aumento do ruído de medição associado a uma ionosfera ativa faz com que os ciclos de correção sejam um desafio contínuo, o que requer mais investigação, enquanto Xiaohong Zhang e Colegas, em um artigo publicado em 2014, chegou à mesma conclusão ao tentar reparar ciclos durante os eventos de cintilação. Consulte Leitura adicional para obter uma lista dos artigos destacados na história da detecção e correção de deslizamento de ciclos. ALGORITMO DE QUAD-FREQUÊNCIA As técnicas de detecção de deslizamento de ciclos utilizam quantidades de teste (onde o deslizamento de ciclo é representado por um salto ou mudança significativa na quantidade). Estes estão associados a um algoritmo de detecção de descontinuidade, que visa localizar o salto. Testando Quantidades. Quantidades de teste são combinações lineares de observações. Diferem em vários aspectos: os observáveis ​​utilizados (no nosso caso, apenas medidas de fase), o número de frequências portadoras utilizadas e as propriedades internas da combinação (livre de geometria, livre de ionosfera e nível de ruído na combinação). Em nosso estudo, assumimos valores para o ruído em medidas de fase de portadora de Galileu, conforme indicado na TABELA 1. Quadro 1. Frequências disponíveis no Galileo Open Service. Combinação Simsky de Tripla Freqüência. Nosso algoritmo baseia-se principalmente na exploração da combinação Simsky de três frequências. É uma combinação de fase-portadora isenta de geometria e sem ionosfera, em metros, como mostrado na Equação 2. Quando quatro freqüências estão disponíveis, quatro combinações de três frequências podem ser computadas. Dois deles são suficientes para detectar deslizamentos em qualquer uma das quatro freqüências. A escolha da combinação deve primeiro depender da sua precisão (dada por S na TABELA 2), obtida aplicando a lei de propagação da variância-covariância ao ruído de medição bruta (ver Tabela 1). A precisão não é o único factor a ter em conta na escolha de combinações adequadas. Em cada combinação, as frequências portadoras têm impactos diferentes devido aos seus comprimentos de onda diferentes: o impacto de um deslizamento de amplitude de um ciclo sobre a frequência E1 não será de facto o mesmo que em E5a, E5b ou E5ab (ver Tabela 2). O menor impacto em uma determinada combinação é sempre o mais difícil de detectar. Tabela 2. Combinações Simsky. Portanto, a eficiência de uma determinada combinação dependerá tanto do efeito do deslizamento de ciclo menor quanto da combinação de precisão (dado pelo desvio padrão): quanto maior a relação entre eles, mais eficiente será a combinação. Entre as quatro possibilidades de combinação, as duas razões mais elevadas são as formadas pelas combinações E5a-E5b-E5ab e E1-E5a-E5b. Estes serão, assim, os utilizados no nosso algoritmo. A combinação Simsky permite a detecção de deslizamentos de ciclo ICS e SCS-DM. No entanto, esta combinação é insensível a SCS-SM desliza em todas as quatro freqüências (que é um fenômeno raro). Portanto, teremos que adicionar outra quantidade de teste ao nosso algoritmo. Dual-Freqüência, Geometry-Free Combination. A combinação de freqüência dupla, livre de geometria (GF), em metros, nos permite detectar deslizamentos SCS-SM. Pode ser calculado da seguinte forma: Infelizmente, a combinação de dupla frequência, livre de geometria, é afectada pelo atraso ionosférico. Para mitigar a tendência lisa ionosférica, calcula-se uma diferença de tempo de quarta ordem. Ainda assim, o resultado sofre de variações rápidas do atraso ionosférico. Quando quatro frequências estão disponíveis, podem ser calculadas seis combinações de frequência dupla. Um é suficiente para detectar a presença de deslizamentos de ciclo simultâneos da mesma magnitude. A escolha dependerá novamente da relação entre a precisão da combinação eo menor efeito de deslizamentos simultâneos de um ciclo. Por um lado, diferenciar os resultados da combinação afeta a precisão. Por outro lado, o deslize do ciclo, portanto o menor efeito a ser detectado, será amplificado pela diferenciação de alta ordem. A melhor razão é obtida com uma diferença de quarta ordem (veja a TABELA 3), mesmo que uma variação suave devido à ionosfera já esteja removida na diferenciação de segundo grau (ver Figura 1). TABELA 3. Combinações sem geometria. FIGURA 1. Combinação sem geometria diferenciada no tempo: (a) combinação em bruto, (b) diferença de primeira ordem, (c) diferença de segunda ordem e (d) diferença de quarta ordem. Mesmo que uma combinação seja suficiente, nossa abordagem utilizará dois deles para verificar suas saídas: E1-E5a e E1-E5ab, já que oferecem as melhores proporções. Método de detecção. Para detectar uma descontinuidade devido a um deslizamento de ciclo na quantidade de teste, é necessário estabelecer limites de detecção. Os limiares são um dos parâmetros chave na detecção de deslizamento de ciclo, uma vez que levam à decisão sobre a presença de um deslizamento de ciclo ou não. Se o limite for demasiado restritivo, alguns deslizes reais podem ser faltados (um falso negativo). Por outro lado, se não for suficientemente restritivo, as descontinuidades que não correspondem a um deslizamento de ciclo poderiam ser indevidamente detectadas (um falso positivo). É importante notar, como ressalta nosso estudo, que não há um limiar perfeito que atenda a todas as necessidades e restrições. A escolha deve ser feita considerando a aplicação de posicionamento à mão. Os valores de limiar dados neste artigo são representativos e foram empiricamente determinados como sendo óptimos em relação ao nosso objectivo de detecção de deslizamento de ciclo sob alta actividade ionosférica. Resultados e discussões adicionais sobre diferentes limiares podem ser encontrados na primeira tese de autores (ver Leitura Adicional). Os deslizes do ciclo afetarão a combinação Simsky crua por uma mudança no valor da combinação média, enquanto que o tempo diferenciado será afetado por um pico. Detecção usando a combinação Simsky. A detecção de deslizamento de ciclos na combinação Simsky de três frequências é realizada em dois passos em cascata (ver FIGURA 2). FIGURA 2. Método de detecção para a combinação Simsky. O primeiro usa uma combinação diferenciada no tempo para detectar deslizes de ciclo em potencial usando uma janela de média móvel de 20 observações de tamanho médio e desvio padrão, em que são calculados os parâmetros estatísticos de média e desvio padrão. A época atual é comparada com as anteriores para detectar um pico, o que poderia corresponder a um deslizamento de ciclo. São utilizados dois tipos de limiares: estatísticos (ou relativos) e absolutos. Conforme ilustrado na FIG. 3. Utilizando um limiar estatístico permite-nos adaptar a detecção à inércia dos parâmetros estatísticos. Assumindo o ruído nas observações (aqui, os resultados da combinação de Simsky) segue uma distribuição normal, um intervalo de confiança de 3-sigma em torno da média inclui 95 por cento das observações. Dada a proporção das duas combinações de Simsky usadas (calculadas anteriormente), a taxa de sucesso atinge 100% para ambas as combinações, o que significa que quaisquer dados de ICS e SCS-DM serão detectados com certeza (sem falsos negativos). No entanto, falsos positivos podem ocorrer porque 5 por cento dos dados é estatisticamente fora dos limites 3-sigma. FIGURA 3. Limiares estatísticos e absolutos. Para reduzir esta taxa, é também aplicado um limiar absoluto, igual a 0,4 vezes o menor impacto de um deslizamento de ciclo na combinação (ver Tabela 2). Se pudermos considerar a Figura 3 como um exemplo adequado de uma perturbação ionosférica extrema, levando a variabilidade invulgarmente alta em resultados de combinação, o limite absoluto será na maior parte do tempo muito maior do que o estatístico e ajudará a reduzir a taxa de detecções erradas. Como resultado desta primeira etapa, um valor de sinalizador é atribuído a épocas com valores maiores que ambos os limiares e que são, portanto, potencialmente afetadas por deslizamentos de ciclo. Uma vez que as localizações de deslizamentos potenciais são alcançadas, a segunda etapa consiste em comparar a média antes e depois de deslizes de ciclo potencial para as épocas marcadas. Um segundo limiar absoluto é aplicado, igual a 0,8 vezes o menor efeito. Se outro deslizamento de ciclo potencial estiver presente na janela de detecção, o tamanho da janela de detecção será reduzido para evitar o cálculo de parâmetros estatísticos em dados parcialmente deslocados. O objetivo do primeiro passo é detectar possíveis deslizamentos. Portanto, a prioridade é evitar a falta de um deslizamento real com valores de limiar baixos, por vezes levando a falsa detecção positiva. Por outro lado, o segundo passo tem como objetivo separar os potenciais pontos positivos falsos remanescentes dos pontos extremos da combinação bruta dos deslocamentos de deslizamento de ciclo real em média. O desempenho teórico desta abordagem em duas etapas é 100 por cento: nem falsos positivos nem falsos negativos devem ser encontrados. Detecção usando Geometry-Free Combination. Uma vez que a combinação de geometria livre de quarta ordem diferenciada é afectada por um atraso ionosférico residual, o procedimento anterior não pode ser aplicado. Como qualquer quantidade de teste diferenciada no tempo, o deslizamento aparecerá como um pico na combinação. Portanto, não há maneira de distinguir os deslizes de ciclo de outliers por uma comparação de nível médio (segunda etapa). Consequentemente, o método de detecção consiste apenas numa janela de média móvel para a frente e para trás, na qual um intervalo de confiança de 4-sigma é comparado com o valor da combinação de época actual. Na verdade, neste caso, não podemos dar ao luxo de encontrar falsos positivos em 5 por cento das épocas (induzido pelo uso de um limiar de 3 sigma) uma vez que não pode ser estabelecido mais passo para eliminar falso positivos restantes. Os desempenhos teóricos do método de detecção livre de geometria também devem atingir 100%. Novamente, nem falsos positivos nem falsos negativos devem ser encontrados. Note-se que esse cálculo só leva em conta as proporções, negligenciando o fato de que a combinação livre de geometria também é sensível à variabilidade da ionosfera. VALIDAÇÃO Testou-se o algoritmo quad-frequência em observações de 30-segundo quad-frequência Galileu das estações GMSD (em Nakatane, Japão) e NKLG (em Libreville, Gabão). As observações do GMSD foram utilizadas para testar a robustez do algoritmo em relação a casos particulares simulados, enquanto que os dados do NKLG foram utilizados para avaliar o comportamento dos algoritmos para os casos encontrados na área equatorial. Metodologia. Ciclos foram inseridos artificialmente nos dados GMSD, simulando os seguintes cenários de deslizamento: ICS, SCS-DM e SCS-SM. O benefício de tal abordagem de simulação é que a saída do algoritmo pode ser facilmente comparada com a solução já conhecida. Além disso, estes dados tinham sido utilizados para determinar se o uso de mais frequências de portadores poderia aumentar o desempenho de detecção de deslizamento de ciclo. Analisamos um conjunto de dados NKLG de 50 dias, abrangendo observações de 6 de janeiro a 1 de fevereiro e de 24 de junho a 19 de julho de 2014. Esta amostra é composta de vários estados ionosféricos: dias calmos e extremos, bem como atividade equatorial típica . Desde o pico do ciclo solar ocorrido em 2014, os dados desse ano se encaixam perfeitamente um estudo dos efeitos da alta atividade ionosférica. Usamos dados brutos NKLG para atingir um duplo objetivo. Em primeiro lugar, quisemos determinar a proporção de épocas para as quais não era possível distinguir pequenos ciclos (um, dois ou cinco ciclos). Isto foi realizado comparando o impacto (em metros) de tais cenários com o limiar instantâneo associado a cada época. No caso de um limiar de detecção de deslizamento de ciclo elevado, os deslizes potencialmente presentes de um, dois ou cinco ciclos não podiam ser detectados. A fração de epochs em um dia para o qual tais deslizamentos de pequeno ciclo não seriam detectados, para cada combinação usada no algoritmo, parecia ser um indicador adequado da eficácia do algoritmo na área equatorial. Em segundo lugar, analisamos os resultados através da avaliação visual da saída do algoritmo usando gráficos combinados e tentamos responder às seguintes perguntas: As épocas marcadas parecem ser afetadas por deslizamentos de ciclos Existem deslizes de ciclo reais que permanecem não detectados Resultados. Analisamos de perto os resultados de nossas simulações e da análise de dados brutos. Simulação de casos particulares. Comparado aos métodos equivalentes de frequência dupla e tripla, o nosso novo algoritmo de quad-frequência deu melhores resultados: todos os blocos de ciclos inseridos foram detectados com sucesso e não foram detectados falsos positivos. NKLG Raw Dataset Analysis. O processo de validação usando dados brutos NKLG destaca várias tendências nos resultados do algoritmo. Em primeiro lugar, é interessante notar que a detecção de deslizamentos isolados, bem como deslizamentos de magnitude diferente (usando as combinações Simsky) foi garantida para cada época de observação de cada dia analisado. De fato, os limiares instantâneos de Simsky nunca excederam o efeito de um deslizamento de amplitude de um ciclo. Além disso, em 25% dos dias analisados, a detecção de blocos de ciclo da mesma magnitude também poderia ser garantida. Para os dias restantes, a detecção de deslizamentos de ciclo simultâneos cujas amplitudes são inferiores a cinco ciclos não pôde ser garantida para algumas épocas de observação, o que pode ser razoavelmente negligenciado devido à probabilidade muito pequena de experimentar tais casos excepcionais. Isto é devido ao impacto da variabilidade ionosférica na combinação livre de geometria, induzindo valores de limiar instantâneos elevados. No entanto, tanto o Simsky como as combinações sem geometria sofrem de falsa detecção positiva em eventos ionosféricos extremos: se um deslizamento de ciclo é detectado, às vezes corresponde a um valor atípico. Este efeito secundário é devido às escolhas de limite que fizemos para coincidir com o nosso objectivo inicial de detectar todos os ciclos de bicicleta com certeza, em vez de arriscar perder um deles, mesmo se falsos positivos são parte da lista de resultados. MAIS MELHORIAS Além de aplicações de pós-processamento, também consideramos uma adaptação em tempo real do algoritmo. A restrição em tempo real afeta os métodos de detecção Simsky e geometry-free. Nesta configuração, a janela estatística pode, na verdade, apenas avançar, o que negligencia a detecção de deslizamento de ciclo nas primeiras 20 épocas. Mais adiante, a comparação de nível médio (ver o método de detecção de Simsky descrito anteriormente) não pode mais ser considerada porque a média após um deslizamento de ciclo em potencial não pode ser calculada em processamento em tempo real. Mesmo que o nosso algoritmo de detecção de quad-frequência sofra da restrição em tempo real, ele ainda se mostra eficiente se este último for levado em conta para escolhas de limiares adequados. Detecção de deslizamento de ciclos é de fato apenas um primeiro passo, e correção de deslizamento de ciclo deve completar o procedimento para evitar descontinuidades. Deve ser salientado, no entanto, que simplesmente estar ciente da presença de um deslizamento de ciclo em um conjunto de dados é informação preciosa para um usuário, e na época correspondente, os parâmetros na solução podem ser reinicializados. Melhorado com um método adequado de correção de deslizamento de ciclo e um recurso em tempo real, nosso algoritmo poderia ser diretamente integrado em um receptor de software, permitindo o fornecimento de dados contínuos e corrigidos para o usuário. CONCLUSÃO Neste artigo, introduzimos o primeiro algoritmo de detecção de ciclo-deslocamento de quad-frequência, com uma eficiência que é claramente um passo adiante. Este método de detecção inovador abre novas portas para numerosas aplicações de pesquisa e comerciais. Todos os utilizadores do GALILEO, civis ou militares, poderão beneficiar de um posicionamento de melhor qualidade, especialmente em condições ionosféricas severas: não só onde a ionosfera é particularmente inquieta, como nas regiões equatoriais e polares, mas também a qualquer latitude durante uma Perturbação ionosférica. No que diz respeito ao posicionamento preciso, este é mais um passo que reforça a competitividade do Galileus contra outros sistemas de dupla ou tripla frequência. AGRADECIMENTOS Este artigo é baseado no documento Ciclo de Deslizamento Detecção em Quad Frequência Modo: Galileos Contribuição para uma Abordagem Eficiente sob Alta atividade ionosférica, o vencedor submissão ao Concurso de Estudantes 20142015 do Comit de Liaison des Gomtres Europens no Galileo, EGNOS, Copernicus, patrocinado pela GSA, a Agência Europeia dos Sistemas Globais de Navegação por Satélite. LAURA VAN DE VYVERE recebeu um mestrado em Em geomática e geometrologia da Universidade de Lige, Bélgica, em 2015. Sua tese de mestrado foi dedicada à Galileo ciclo de deslizamento de detecção sob extrema atividade ionosférica. Em 2015, ingressou na M3 Systems Belgium em Wavre como engenheira de projeto de radionavegação e atualmente está envolvida em projetos de reflectometria GNSS e GNSS. REN WARNANT recebeu um mestrado em Em física em 1988 e um Ph. D. Em física com especialidade em GNSS em 1996, ambas da Universit catholique de Louvain, Louvain-la-Neuve, Bélgica. Começou sua carreira como geodésico no Observatório Real da Bélgica em 1988. Desde junho de 2011, é professor a tempo inteiro e chefe do Laboratório de Geodesia e GNSS da Universidade de Lige, onde é responsável pela educação no campo de Geodesia espacial e GNSS. LEITURA ADICIONAL Primeiros Autores Tese e Premiado Doteção de dados de saltos de ciclos em modo multi-frqüência para o sistema Galileo por L. Van de Vyvere, mmoire (tese) para o Mestrado em Ciências Gênicas de Orientação Gomática e Gomtrologia, Universit de Lige, Bélgica, Junho de 2015. Detecção de deslizamentos de ciclos em modo Quad Frequency: Contribuição de Galileos para uma Abordagem Eficiente sob Alta Actividade Ionosférica por L. Van de Vyvere, a candidatura vencedora ao Concurso de Estudantes 20142015 do Comit de Liaison des Gomtres Europens no Galileo , EGNOS, categoria Copernicus, que foi patrocinado pela GSA, a Agência Europeia de Sistemas Globais de Navegação por Satélite. Alguns trabalhos anteriores sobre a detecção e o reparo de ciclos de deslizamento Um método eficiente de pré-processamento duplo e trifásico para sinais Galileu e GPS por M. Lonchay, B. Bidaine e R. Warnant, em Actas do 3º Colóquio Internacional sobre Aspectos Científicos e Fundamentais do Programa Galileo. Copenhague, Dinamarca, 31 de agosto 2 de setembro de 2011. Um novo método automatizado de detecção e reparo de deslizamento de ciclo para um único receptor GPS de dupla freqüência por Z. Liu em Journal of Geodesy. Vol. 85, No. 3, Março de 2011, pp. 171183, doi: 0.1007s00190-010-0426-y. Correção instantânea instantânea em tempo real de dados de GPS de dupla freqüência por D. Kim e R. Langley em Proceedings of KIS 2001. O Simpósio Internacional sobre Sistemas Cinemáticos em Geodésia, Geomática e Navegação, Banff, Alberta, 58 de Junho de 2001, pp. 255264. Um Algoritmo de Edição Automatizado para Dados GPS por G. Blewitt em Geophysical Research Letters. Vol. 17, N. ° 3, Março 1990, pp. 199202, doi: 10.1029GL017i003p00199. Posicionamento de Ponto Preciso Melhorado na Presença de Cintilação Ionosférica por X. Zhang, F. Guo e P. Zhou em Soluções GPS. Vol. 18, No. 1, Jan. 2014, pp. 5160, doi: 10.1007s10291-012-0309-1. Cycle Slip Detection and Repair para Observações GPS Não Differidas sob Alta Atividade Ionosférica por C. Cai, Z. Liu, P. Xia e W. Dai em GPS Solutions. Vol. 17, N�2, Abril de 2013, p�. 247260, doi: 10.1007s10291-012-0275-7. Mitigando o Impacto dos Deslizamentos de Ciclo de Ionospheric em Observações de GNSS por S. Banville e R. B. Langley em Journal of Geodesy. Vol. 87, N�2, Fevereiro de 2013, p�. 179193, doi: 10.1007s00190-012-0604-1. Detecção em tempo real e reparação de deslizamentos de ciclos em medições de GNSS de tripla frequência por Q. Zhao, B. Sun, Z. Dai, Z. Hu, C. Shi e J. Liu em GPS Solutions. Vol. 19, N�3, Julho de 2015, p�. 381391, doi: 10.1007s10291-014-0396-2. Detecção de Deslocamento de Ciclo em Tempo Real em GNSS de Tripla Freqüência por M. C. De Lacy, M. Reguzzoni e F. Sans em GPS Solutions. Vol. 16, No. 3, Julho de 2012, pp. 353362, doi: 10.1007s10291-011-0237-5. Compartilhe isso: Tawani - eles não estão todos faltando o ponto. O que você diz precisa ser definido usando termos genéricos. Você não pode ir com um único exemplo. Sem definições gerais, se 400 é 30 é ainda um outlier E se é 14 E 9 Onde você parar Você precisa stddev39s, intervalos, quartis, para fazer isso. Ndash Daniel Daranas Feb 2 09 at 17:05 No corte você don39t remover outliers você apenas don39t incluí-los no cálculo. QuotRemovequot pode sugerir que os pontos não estão mais no conjunto de dados. E você não pode removê-los (ou ignorá-los) porque eles são outliers o critério é (geralmente) apenas que eles estão em alguma fração extrema dos dados. Um valor não incluído em uma média aparada geralmente é apenas um pouco mais (ou menos) do que o valor mais alto (menor) incluído. Eu não sei se ele tem um nome, mas você poderia facilmente chegar a uma série de algoritmos para rejeitar outliers: Encontre todos os números entre o 10 º e 90 º percentis (fazer isso, classificando, em seguida, rejeitando O primeiro N10 e último N10 números) e tomar o valor médio dos valores restantes. Sort values, reject high and low values as long as by doing so, the meanstandard deviation change more than X. Sort values, reject high and low values as long as by doing so, the values in question are more than K standard deviations from the mean. The most common way of having a Robust (the usual word meaning resistant to bad data) average is to use the median . This is just the middle value in the sorted list (of half way between the middle two values), so for your example it would be 90.5 half way between 90 and 91. If you want to get really into robust statistics (such as robust estimates of standard deviation etc) I would recommend a lost of the code at The AGORAS group but this may be too advanced for your purposes. answered Feb 13 09 at 9:22 If all you have is one variable (as you imply) I think some of the respondents above are being over critical of your approach. Certainly other methods that look at things like leverage are more statistically sound however that implies you are doing modeling of some sort. If you just have for example scores on a test or age of senior citizens (plausible cases of your example) I think it is practical and reasonable to be suspicious of the outlier you bring up. You could look at the overall mean and the trimmed mean and see how much it changes, but that will be a function of your sample size and the deviation from the mean for your outliers. With egregious outliers like that, you would certainly want to look into te data generating process to figure out why thats the case. Is it a data entry or administrative fluke If so and it is likely unrelated to actual true value (that is unobserved) it seems to me perfectly fine to trim. If it is a true value as far as you can tell you may not be able to remove unless you are explicit in your analysis about it. answered Dec 3 14 at 13:58 My statistics textbook refers to this as a Sample Mean as opposed to a Population Mean. Sample implies there was a restriction applied to the full dataset, though no modification (removal) to the dataset was made. answered Mar 26 16 at 3:13 0. Welcome to the site. 1. Which book Please give a reference. 2. quotSample meanquot does not typically refer to a mean obtained after removing outliers. ndash Juho Kokkala Mar 26 16 at 8:06 It can be the median. Nem sempre, mas às vezes. I have no idea what it is called in other occasions. Espero que isso ajudou. (At least a little.)I am working with a large amount of time series. Essas séries temporais são basicamente medições de rede a cada 10 minutos, e algumas delas são periódicas (ou seja, a largura de banda), enquanto outras não são (ou seja, a quantidade de tráfego de roteamento). Gostaria de um algoritmo simples para fazer uma detecção outlier on-line. Basicamente, eu quero manter na memória (ou no disco) todos os dados históricos para cada série de tempo, e eu quero detectar qualquer outlier em um cenário ao vivo (cada vez que uma nova amostra é capturada). Qual é a melhor maneira de alcançar esses resultados Estou atualmente usando uma média móvel, a fim de remover algum ruído, mas então o próximo coisas simples como desvio padrão, louco. Contra todo o conjunto de dados não funciona bem (eu não posso assumir a série de tempo são estacionários), e eu gostaria de algo mais preciso, idealmente uma caixa preta como: double outlierdetection (double vector, double value) onde vector é o array de double contendo Os dados históricos eo valor de retorno é o escore de anomalia para o novo valor da amostra. Sim, eu assumi a freqüência é conhecida e especificada. Existem métodos para estimar a frequência automaticamente, mas isso complicaria consideravelmente a função. Se você precisa estimar a freqüência, tente fazer uma pergunta separada sobre isso - e provavelmente fornecer uma resposta. Mas precisa de mais espaço do que eu tenho disponível em um comentário. Ndash Rob Hyndman Uma solução boa terá vários ingredientes, incluindo: Use uma janela resistente, movendo lisa para remover nonstationarity. Reexpresse os dados originais para que os resíduos com relação ao liso sejam distribuídos aproximadamente simetricamente. Dada a natureza dos seus dados, é provável que suas raízes quadradas ou logaritmos dêem resíduos simétricos. Aplicar métodos de gráfico de controle, ou pelo menos controlar o pensamento de gráfico, para os resíduos. Na medida em que esse último vai, pensamento de gráfico de controle mostra que limiares convencionais como 2 SD ou 1,5 vezes o IQR além dos quartis funcionam mal porque eles acionam muitos falsos sinais fora de controle. As pessoas geralmente usam 3 SD no trabalho de gráfico de controle, onde 2,5 (ou mesmo 3) vezes o IQR além dos quartis seria um bom ponto de partida. Eu esbocei mais ou menos a natureza da solução de Rob Hyndmans, acrescentando-lhe dois pontos principais: a necessidade potencial de re-expressar os dados ea sabedoria de ser mais conservador em sinalizar um outlier. Não tenho certeza que Loess é bom para um detector on-line, no entanto, porque não funciona bem nos endpoints. Em vez disso, você pode usar algo tão simples como um filtro mediano em movimento (como no Tukeys resistant smoothing). Se outliers não vêm em rajadas, você pode usar uma janela estreita (5 pontos de dados, talvez, que irá quebrar apenas com uma explosão de 3 ou mais outliers dentro de um grupo de 5). Depois de ter realizado a análise para determinar uma boa re-expressão dos dados, é improvável que você precisa alterar a re-expressão. Portanto, seu detector on-line realmente só precisa fazer referência aos valores mais recentes (a última janela) porque ele não usará os dados anteriores. Se você tiver séries de tempo muito longas, você pode ir mais longe para analisar a autocorrelação ea sazonalidade (como flutuações diárias ou semanais recorrentes) para melhorar o procedimento. IQR é a recomendação original de Tukey para os bigodes mais longos em um boxplot e 3 IQR é sua recomendação para pontos de marcação como outliersquot quotfar (um riff em uma frase 6039 popular). Isso é construído em muitos algoritmos boxplot. A recomendação é analisada teoricamente em Hoaglin, Mosteller, amp Tukey, Understanding Robust e Exploratory Data Analysis. Isso confirma os dados de séries de tempo que tenho tentado analisar. Janela média e também uma janela desvios padrão. ((X - avg) sd) gt 3 parecem ser os pontos que eu quero sinalizar como outliers. Bem, pelo menos, alertar como outliers, eu sinalizar qualquer coisa superior a 10 sd como extrema outliers erro. O problema que eu encontro é o que é um comprimento de janela ideal I39m jogando com qualquer coisa entre 4-8 pontos de dados. Ndash NeoZenith Jun 29 16 às 8:00 Neo Sua melhor aposta pode ser a de experimentar com um subconjunto de seus dados e confirmar suas conclusões com testes sobre o restante. Você poderia realizar uma validação cruzada mais formal também (mas é necessário um cuidado especial com dados de séries temporais devido à interdependência de todos os valores). (Esta resposta respondeu a uma pergunta duplicada (agora fechada) na Detecção de eventos pendentes que apresentou alguns dados em forma gráfica.) A detecção de valores atípicos depende da natureza dos dados e do que você Estão dispostos a assumir sobre eles. Os métodos de uso geral dependem de estatísticas robustas. O espírito desta abordagem é caracterizar a maior parte dos dados de uma forma que não é influenciada por quaisquer outliers e, em seguida, apontar para quaisquer valores individuais que não se encaixam dentro dessa caracterização. Porque esta é uma série de tempo, acrescenta a complicação da necessidade de (re) detectar outliers em uma base contínua. Se isso deve ser feito como a série se desenrola, então estamos autorizados apenas a usar dados mais antigos para a detecção, não dados futuros Além disso, como proteção contra os muitos testes repetidos, gostaríamos de usar um método que tem um falso muito baixo Taxa positiva. Essas considerações sugerem a execução de um simples, robusto teste de janela em movimento sobre os dados. Existem muitas possibilidades, mas uma simples, facilmente compreensível e facilmente implementada é baseada em um MAD em execução: desvio absoluto mediano da mediana. Esta é uma medida fortemente robusta de variação dentro dos dados, semelhante a um desvio padrão. Um pico periférico seria vários MADs ou maior que a mediana. Ainda há algum ajuste a ser feito. O quanto de um desvio da maior parte dos dados deve ser considerado periférico e como voltar no tempo deve olhar Deixe vamos deixar estes como parâmetros para a experimentação. Heres uma aplicação R aplicada a dados x (1,2, ldots, n) (com n1150 para emular os dados) com valores correspondentes y: Aplicada a um conjunto de dados como a curva vermelha ilustrada na pergunta, produz esse resultado: Os dados São mostrados em vermelho, a janela de 30 dias dos limiares median5MAD em cinza e os outliers - que são simplesmente aqueles valores de dados acima da curva cinza - em preto. (O limiar só pode ser calculado começando no final da janela inicial. Para todos os dados dentro desta janela inicial, o primeiro limiar é usado: thats porque a curva cinza é plana entre x0 e x30.) Os efeitos de alterar os parâmetros são (A) o aumento do valor da janela tenderá a suavizar a curva cinza e (b) o aumento do limiar aumentará a curva cinza. Sabendo disso, pode-se tomar um segmento inicial dos dados e identificar rapidamente os valores dos parâmetros que melhor segregam os picos periféricos do resto dos dados. Aplique esses valores de parâmetro para verificar o restante dos dados. Se um gráfico mostra que o método está piorando ao longo do tempo, isso significa que a natureza dos dados está mudando e os parâmetros podem precisar ser reajustados. Observe quão pouco esse método assume sobre os dados: eles não precisam ser distribuídos normalmente, eles não precisam exibir qualquer periodicidade que nem sequer têm que ser não-negativos. Tudo o que assume é que os dados se comportam de maneira razoavelmente semelhante ao longo do tempo e que os picos periféricos são visivelmente mais altos que o resto dos dados. Se alguém quiser experimentar (ou comparar alguma outra solução para o oferecido aqui), aqui está o código que eu usei para produzir dados como os mostrados na pergunta. Estou adivinhando modelo sofisticado série de tempo não vai funcionar para você por causa do tempo que leva para detectar outliers usando esta metodologia. Portanto, aqui está uma solução alternativa: Primeiro, estabeleça padrões de tráfego normais de linha de base para um ano com base em análise manual de dados históricos que contabilizam a hora do dia, o dia da semana versus o fim de semana, o mês do ano, etc. Use essa linha de base juntamente com algum mecanismo simples (Por exemplo, média móvel sugerida por Carlos) para detectar outliers. Você também pode querer rever a literatura de controle de processo estatístico para algumas idéias. Sim, isso é exatamente o que estou fazendo: até agora eu divido manualmente o sinal em períodos, para que para cada um deles eu possa definir um intervalo de confiança dentro do qual o sinal é suposto ser estacionário, e, portanto, posso usar métodos padrão como Como desvio padrão. O problema real é que não posso decidir o padrão esperado para todos os sinais que tenho que analisar, e é por isso que procuro algo mais inteligente. Ndash gianluca Ago 2 10 at 21:37 Aqui está uma idéia: Passo 1: Implementar e estimar um modelo genérico série de tempo em uma base de tempo com base em dados históricos. Isso pode ser feito offline. Passo 2: Use o modelo resultante para detectar outliers. Etapa 3: Em alguma freqüência (talvez a cada mês), re-calibre o modelo de série de tempo (isso pode ser feito off-line) para que sua etapa 2 detecção de outliers não ir muito fora da etapa com os padrões de tráfego atual. Isso funcionaria para o seu contexto ndash user28 Aug 2 10 at 22:24 Sim, isso pode funcionar. Eu estava pensando em uma abordagem semelhante (recomputando a linha de base a cada semana, que pode ser CPU intensiva se você tiver centenas de séries de tempo univariadas para analisar). BTW a pergunta difícil real é quotwhat é o melhor algoritmo blackbox-style para modelar um sinal completamente genérico, considerando ruído, estimativa de tendência e seasonalityquot. AFAIK, todas as abordagens na literatura requerem uma fase de afinação quotparameter realmente difícil, eo único método automático que encontrei é um modelo ARIMA por Hyndman (robjhyndmansoftwareforecast). Novamente, isso funciona muito bem se o sinal é suposto ter uma sazonalidade como essa, mas se eu usar uma série de tempo completamente diferente (ou seja, a média de tempo de viagem TCP round ao longo do tempo ), Este método não funcionará (uma vez que seria melhor para lidar com aquele com uma média global simples e desvio padrão usando uma janela deslizante contendo dados históricos). A menos que você esteja disposto a implementar um modelo de série de tempo geral (que traz em seus contras em termos de latência, etc) eu sou pessimista que você vai encontrar uma implementação geral, que ao mesmo tempo é simples o suficiente Para trabalhar para todos os tipos de séries temporais. Outro comentário: Eu sei que uma boa resposta pode ser quotso você pode estimar a periodicidade do sinal, e decidir o algoritmo para usar de acordo com itquot, mas eu didn39t encontrar uma verdadeira boa solução para este outro Problema (eu joguei um pouco com análise espectral usando DFT e análise de tempo usando a função de autocorrelação, mas minhas séries de tempo contêm um monte de ruído e esses métodos dão alguns resultados loucos mosts do tempo) ndash gianluca Aug 2 10 at 22:06 A Comentário ao seu último comentário: é por isso que procuro uma abordagem mais genérica, mas eu preciso de um tipo de caixa quadrada porque não posso fazer qualquer suposição sobre o sinal analisado e, portanto, não posso criar o conjunto de parâmetros quotbest para o algoritmo de aprendizado. Como é uma série de dados de tempo, um simples filtro exponencial en. wikipedia. orgwikiExponentialsmoothing irá suavizar os dados. É um filtro muito bom desde que você não necessita acumular pontos velhos dos dados. Compare todos os valores de dados recém-suavizados com o seu valor não alinhado. Uma vez que o desvio excede um determinado limite predefinido (dependendo do que você acredita que um outlier em seus dados é), então seu outlier pode ser facilmente detectado. Você poderia usar o desvio padrão das últimas medidas de N (você tem que escolher um N adequado). Uma pontuação boa anomalia seria quantas desvios padrão de uma medição é a média móvel. Resposta Obrigado por sua resposta, mas e se o sinal exibe uma alta sazonalidade (ou seja, um monte de medições de rede são caracterizados por um padrão diário e semanal, ao mesmo tempo, por exemplo, noite vs dia ou fim de semana Vs dias de trabalho) Uma abordagem baseada no desvio padrão não funcionará nesse caso. Por exemplo, se eu receber uma nova amostra a cada 10 minutos, e I39m fazendo uma detecção atípica do uso da largura de banda da rede de uma empresa, basicamente às 18h esta medida vai cair (este é um esperado Um padrão totalmente normal), e um desvio padrão calculado sobre uma janela deslizante falhará (porque ele irá disparar um alerta com certeza). Ao mesmo tempo, se a medida cai às 16h (desviando da linha de base usual), este é um outlier real. Ndash gianluca Aug 2 10 at 20:58 o que eu faço é agrupar as medidas por hora e dia da semana e comparar os desvios padrão de que. Ainda doesnt corrigir para coisas como férias e summerwhite sazonalidade mas sua correto mais do tempo. A desvantagem é que você realmente precisa coletar um ano ou assim de dados para ter o suficiente para que stddev começa a fazer sentido. A análise espectral detecta a periodicidade em séries temporais estacionárias. A abordagem do domínio da freqüência baseada na estimativa da densidade espectral é uma abordagem que eu recomendaria como seu primeiro passo. Se durante certos períodos a irregularidade significa um pico muito mais alto do que o típico para esse período, então a série com tais irregularidades não seria estacionária e a anisise espectral não seria apropriada. Mas assumindo que você identificou o período que tem as irregularidades que você deve ser capaz de determinar aproximadamente o que a altura do pico normal seria e, em seguida, pode definir um limiar em algum nível acima dessa média para designar os casos irregulares. Resposta Eu sugiro o esquema abaixo, que deve ser implementável em um dia ou assim: Colete como muitas amostras que você pode segurar na memória Remover outliers óbvia usando o desvio padrão para cada atributo Calcular e armazenar a matriz de correlação E também a média de cada atributo Calcular e armazenar as distâncias Mahalanobis de todas as suas amostras Cálculo outlierness: Para a única amostra de que você quer saber o seu outlierness: Recuperar os meios, matriz de covariância e Mahalanobis distância s do treinamento Calcular a distância Mahalanobis d Para sua amostra Retorne o percentil em que d cai (usando as distâncias de Mahalanobis do treinamento) Essa será sua pontuação outlier: 100 é um outlier extremo. PS. Ao calcular a distância de Mahalanobis. Use a matriz de correlação, não a matriz de covariância. Isto é mais robusto se as medições da amostra variarem em unidade e número.

Comments