Verificando conjuntos de dados reais quanto à consistência

Outubro de 2022 — Nota técnica nº 74

Mohammad Saifuzzaman

Especialista de produto

Neste mundo orientado por dados, o desempenho de um modelo de simulação de transporte é julgado por quão próximo ele representa a vida real, ou pelo menos, a vida real como é observada.

A situação observada ou ponto de verdade é criada por vários tipos de conjuntos de dados reais (RDS) provenientes de diferentes fontes, por isso é crucial garantir a qualidade desses dados se quisermos obter resultados significativos do modelo de simulação.

No entanto, o processo de verificação da qualidade dos dados quanto a outliers e inconsistências espaciais é trabalhoso e consome muito tempo. Para facilitar essa imensa tarefa, introduzimos uma ferramenta de verificação RDS no software de modelagem de mobilidade Aimsun Next, cuja funcionalidade principal foi objeto de uma nota técnica anterior: Como verificar a consistência do conjunto de dados reais

Esta nota técnica atual visa focar mais em alguns casos de uso do verificador RDS e como ele pode reduzir significativamente a carga de trabalho para criar um conjunto de dados limpo adequado para diferentes aplicativos.

1. O leitor de conjunto de dados reais

O módulo Real Data Set no Aimsun Next aceita a maioria dos tipos de dados conhecidos usados ​​para um modelo de simulação. Um módulo leitor RDS pode ser facilmente configurado para recuperar dados de arquivos baseados em texto ou dados posicionais mantidos em um formato padrão baseado em GPS. Mais detalhes sobre o leitor RDS podem ser encontrados no Manual do Usuário .

Às vezes, o RDS pode conter uma grande quantidade de dados. Para economizar tempo de recuperação/análise, ele pode ser filtrado por sub-rede ou por tempo. Por exemplo, em um modelo de teste, duas fontes de dados foram usadas: dados de autoestrada e dados de cruzamentos sinalizados. Eles são combinados no RDS conforme mostrado na Figura 1. O conjunto de dados original foi registrado por 24 horas em intervalos de 15 minutos. Ao analisar um determinado período do modelo, como o pico da tarde, não precisamos usar todo o conjunto de dados. Um filtro de tempo pode ser aplicado para recuperar informações do intervalo de tempo necessário (por exemplo, 14h às 19h). Um exemplo dos dados recuperados para o dia inteiro versus o pico da tarde é mostrado na Figura 2.

Figura 1: Um exemplo da janela de entrada RDS

Figura 2: um exemplo de fluxo do detector com dados de pico de dia inteiro versus PM

Durante o processo de recuperação de dados, um conjunto de verificações padrão é executado. Isso inclui data/hora inválida, hora e intervalo iniciais, valores de dados inválidos ou ausentes, valores de dados negativos e NaN, objetos ausentes no modelo de acordo com a configuração de ID do RDS e IDs com vários objetos no modelo. Também os valores de tempo, objeto e tipo de veículo são verificados em cada registro digitalizado. Quaisquer anomalias encontradas nos dados são relatadas na guia de resultados e uma mensagem de sucesso/falha do processo de recuperação é impressa na janela Log para cada arquivo verificado. Um exemplo do resultado recuperado para o teste RDS relatado anteriormente é mostrado na Figura 3 abaixo.

Figura 3: Guia de resultados de recuperação do RDS (superior) e janela Log (inferior)

2. Verificação de consistência do conjunto de dados reais

O Real Data Consistency Checker garante que os dados sejam consistentes com os valores de fluxo, velocidade e ocupação. A perspectiva padrão do verificador de consistência é mostrada na Figura 4. Observe que os valores padrão são apenas um guia. Mais discussões sobre a escolha dos valores dos parâmetros podem ser encontradas posteriormente.   

Figura 4: verificador de consistência RDS com valores padrão

Excesso mínimo de velocidade medida versus limite de velocidade: identifica qualquer ponto de dados individual em que o valor de velocidade RDS é 20% maior que o limite de velocidade da seção (ou curva) codificado no modelo. O comportamento do motorista, a localização da área de estudo e o horário da análise (pico, fora do pico) podem influenciar essa seleção. Um resumo rápido dos dados pode fornecer uma visão melhor desse valor limite. O foco deve ser dado à identificação de outliers e erros de entrada de dados. Por exemplo, em um trecho de estrada com limite de velocidade de 100 km/h, uma entrada de velocidade de 300 km/h é um erro de entrada de dados, enquanto 150 km/h pode ser um valor atípico ou não.

Excesso mínimo de fluxo medido versus capacidade: identifica qualquer ponto de dados individual em que o valor do fluxo RDS é 20% maior que a capacidade da seção (ou curva) codificada no modelo. Se os dados forem recuperados por faixa (por exemplo, detector de faixa), eles serão comparados com a capacidade da faixa.

Consistência de congestionamento: Um ponto de dados é identificado como congestionado quando sua ocupação é alta e seu fluxo é baixo; A ocupação mínima para identificar o congestionamento e o fluxo máximo para identificar o congestionamento definem os limites para alta ocupação e baixo fluxo. Observe que, no caso de objetos com várias faixas (seção ou estação de detecção), o processo de agregação padrão usa o valor do fluxo como a soma dos fluxos de faixas disponíveis, enquanto a média de ocupação é calculada sobre as ocupações de faixas disponíveis. Portanto, você terá que selecionar um valor mais alto de fluxo máximo para identificar o congestionamento quando tiver detectores cobrindo várias faixas.

Consistência espacial: Pode identificar inconsistência de fluxo (ou contagem) entre dois pontos medidos dentro de uma distância especificada. Ele também pode identificar inconsistências entre o fluxo de entrada e saída em um nó. O algoritmo requer três parâmetros:

  • Min Flow Value to Check Consistency: para evitar detecção indesejada com valores pequenos.
  • Max Distance to Check Consistency: distância entre objetos a considerar.
  • Diferença mínima de fluxo para relatar inconsistência: um limite de tolerância para erro de detecção.


Notas sobre verificação de consistência espacial

Quando o registo corresponder a um valor parcial (não abrangendo todas as vias do troço) serão procurados os dados das vias em falta num raio de 50m. Quando não encontrado, este registro não será verificado quanto à consistência espacial.

A possível diferença de fluxo devido à distância entre os pontos de medição é considerada calculando uma capacidade de armazenamento aproximada se todos os veículos estivessem parados entre esses dois pontos. Quando não há interferências de geometria entre dois pontos (ou seja, sem fusão/divergência ou conexões de centroide), mas a diferença de fluxo menos a capacidade de armazenamento entre ambos os pontos excede a diferença de fluxo mínimo para relatar inconsistência, um erro será emitido, porque uma das observações deve ser teoricamente incorreto.

3. Aplicação da Verificação de Consistência RDS 

Para verificação de consistência individual e de congestionamento, a verificação de consistência RDS analisa cada observação em cada ponto de tempo e aplica o algoritmo. Para verificação de consistência espacial, ele examina vários objetos em cada período de tempo. Quando o conjunto de dados é armazenado em pequenos intervalos de tempo (por exemplo, 15 minutos), pode gerar uma grande lista de avisos que podem ser opressores e, às vezes, difíceis de gerenciar. Por exemplo, no modelo de teste mencionado anteriormente, o conjunto de dados tinha 24 horas de duração com intervalos de 15 minutos. Para reduzir o tempo de execução, o conjunto de dados pode ser reduzido para 5 horas (14h às 19h), que é o período de análise, usando as opções de filtro descritas acima. A verificação de consistência com o valor padrão gerou 849 mensagens no total. A opção de filtro ajudaria a separar a saída por tipos de mensagem, tipo de objeto (por exemplo, seção, nó, detectores) e por arquivo RDS.

Figura 5: Exemplo de mensagens de verificação de consistência do RDS

Se olharmos atentamente para a Figura 5, para a mesma estação de detecção, a mesma mensagem de erro é gerada para cada ponto no tempo. Dependendo da aplicação dos dados, podemos precisar examinar cada intervalo de tempo e, às vezes, os dados agregados durante um período seriam apropriados. Nas seções a seguir, algumas aplicações comuns dessa ferramenta são discutidas.

3.1 Ajuste de OD estático:

O processo de ajuste de OD estático analisa o volume simulado e o compara com o volume RDS. Os dados não precisam ser dependentes do tempo. Estamos interessados ​​principalmente na inconsistência de fluxo, pois isso pode impactar negativamente o processo de ajuste. Podemos agregar dados pelo período de simulação. Por exemplo, no modelo de teste, utilizamos a opção de agregação automática disponível no leitor RDS conforme mostrado na Figura 6.

Figura 6: Verificação de consistência do RDS com dados agregados

Quando a verificação de consistência é realizada nos dados agregados, o número de erros de consistência espacial caiu de 44 para 3 . Quando não estamos interessados ​​em valores de velocidade, um limite alto para Velocidade medida vs Limite de velocidade pode ser usado para evitar relatórios sobre erros de velocidade. Da mesma forma, as verificações de ocupação também podem ser evitadas com um valor baixo para o fluxo máximo para identificar o congestionamento.

Se olharmos a descrição do primeiro erro, diz que os dois detectores de seção têm uma diferença de fluxo de 565 (1776-1211) veículos. Como não há outras interferências geométricas, um dos valores de fluxo deve estar incorreto. Neste caso, o valor de fluxo mais baixo foi causado por um detector defeituoso. Na última mensagem de aviso, o cálculo para o nó é baseado no fluxo de entrada e saída, conforme mostrado na Figura 7. Curiosamente, faltavam dados para uma curva de saída que foi recalculada pelas informações do nó a jusante.

A identificação manual dessa inconsistência nos dados levaria muito tempo. Considerando que a verificação de consistência do RDS é principalmente automática e executada em segundos para fornecer informações úteis sobre a variação do fluxo. Devemos atualizar/evitar o detector inconsistente para o processo de ajuste de OD estático.

Figura 7: Cálculo da vazão para verificação de inconsistência dos nós (os números indicam a vazão média)

3.2 Refinamento de velocidade:

Os dados de velocidade são importantes para a calibração e validação do modelo. O processo identifica anomalias de velocidade comparando-as com o limite de velocidade da seção (ou curva). Os dados de velocidade dependem do tempo e devem ser analisados ​​em cada ponto no tempo ou podem ser agregados pelo intervalo de tempo do relatório do modelo. Às vezes, esta análise também pode nos ajudar a identificar anomalias no limite de velocidade da seção. Por exemplo, se os dados de limite de velocidade do modelo estiverem desatualizados, o RDS mais recente pode identificar possíveis locais onde são necessárias alterações. Neste modelo de teste, os avisos para a velocidade da rampa são frequentemente relatados. Um exemplo é mostrado na Figura 8, onde o limite de velocidade da rampa foi definido para 60 km/h e o limite de velocidade da rodovia foi de 110 km/h. A velocidade da rampa no local detectado pode não ser justificada, pois o motorista teria apenas começado a desacelerar após sair da autoestrada.

Figura 8: Identificando anomalias de limite de velocidade da seção do RDS

3.3 Trechos congestionados: 

Com os dados de fluxo e ocupação, os locais congestionados podem ser identificados a partir do RDS. Este resultado é marcado como informação. Os locais identificados podem ser usados ​​para criar agrupamento de seções congestionadas para auxiliar o processo de ajuste de OD estático. Também ajudará o processo de validação do modelo, pois informa os locais típicos da vida real onde ocorreu o congestionamento. No modelo de teste, usamos agregação de 1 hora para relatar consistência de congestionamento. A escolha do parâmetro deve ser baseada no valor de vazão e ocupação observado em alguns locais típicos de congestionamento. Na Figura 9 é apresentado o perfil de fluxo e ocupação de dois locais típicos de congestionamento (AM e PM) na auto-estrada. Com base nesse perfil, o valor do parâmetro para Fluxo Máximo para Identificar Congestionamento é definido como 4200 veículos por hora e Ocupação Mínima para Identificar Congestionamento é definido como 25%. Um valor mais baixo para ocupação mínima pode produzir muitos casos com congestionamento leve ou seções com capacidade máxima. Um exemplo das saídas de consistência de Congestion é mostrado na Figura 9 com valores de parâmetro usados. Identifica, por exemplo, que o detector 4421 esteve parcialmente congestionado durante o período PM.  

Figura 9: Um exemplo de configuração e resultados de consistência de congestionamento

Conclusão

Calibrar um modelo baseado em um RDS com valores de dados inconsistentes seria difícil, sujeito a erros e, às vezes, até impossível. O RDS Checker pode identificar facilmente possíveis erros e problemas de consistência de dados e esta nota fornece algumas orientações sobre como utilizar melhor esta ferramenta. Em vez de examinar todos os erros de uma vez, é útil separar os tipos de erros usando o filtro ou aplicando um conjunto de parâmetros que fornecem as informações relacionadas a esse problema.