Em uma subestação digital com amplo uso de comunicações GOOSE, a equipe deparou-se com o surgimento periódico de sinais «Falha» e «Erro de GOOSE de entrada» de uma série de dispositivos de proteção e SCADA. Esses episódios ocorriam várias vezes ao dia: o sistema passava subitamente para um estado de falha e, em seguida, retornava sozinho ao funcionamento normal. A causa do que acontecia, no entanto, permanecia obscura.
Externamente, o sistema continuava funcionando normalmente:
- não havia desligamento de equipamentos;
- não se registravam faltas;
- a comunicação com os dispositivos não se perdia;
- a autodiagnose dos IEDs não indicava falhas.
São justamente esses problemas «flutuantes» que estão entre os mais difíceis de investigar em uma subestação digital. Uma dificuldade adicional era a ausência, na instalação, de um sistema de monitoramento online segundo a IEC 61850, que poderia ter registrado e classificado automaticamente os eventos anômalos na rede local do objeto.
A única fonte de informação acabou sendo um arquivo pcap de cerca de 11 minutos, registrado pelos especialistas ao se conectarem à LAN da subestação. Era a partir dessa captura que se precisava entender o que estava acontecendo com os dispositivos de proteção e SCADA.
Por que o Wireshark não basta
A análise inicial os especialistas começaram a fazer no Wireshark. É a ferramenta mais popular para trabalhar com tráfego de rede e excelente para a inspeção detalhada de pacotes individuais. Em incidentes como este, porém, o problema não está na falta de acesso aos dados, mas na escala e na complexidade da própria análise.
Os engenheiros tinham um arquivo pcap com quase 186 mil pacotes GOOSE e mais de 200 fontes GOOSE ativas. Nesse volume de tráfego, o especialista vê um fluxo contínuo de mensagens, dentro do qual é preciso encontrar desvios de curta duração.
A dificuldade está também em que, para a análise manual, o engenheiro precisa saber de antemão exatamente o que e onde procurar: o desaparecimento de GOOSE na rede ou a alteração da qualidade dos sinais, atrasos de GOOSE ou um problema de sincronização de tempo nos dispositivos etc. Como resultado, a busca pela causa se transforma na verificação de dezenas de hipóteses entre milhares de pacotes.
Por exemplo, para detectar uma ultrapassagem de curta duração do parâmetro timeAllowedToLive (TATL), é preciso analisar manualmente os intervalos entre pacotes adjacentes de cada mensagem GOOSE e compará-los com o valor de TATL transmitido na mensagem anterior. Nesse volume de tráfego, essa verificação pode levar horas, sobretudo se a violação durar apenas algumas dezenas de milissegundos.
Não menos difícil é a análise da qualidade dos sinais GOOSE. Uma única publicação pode transmitir dezenas de sinais, e a alteração de até um único bit de qualidade — por exemplo, a transição de validity para Invalid — fica oculta dentro da estrutura GOOSE e é extremamente difícil de detectar visualmente.
Em teoria, todos esses problemas podem ser revelados com o Wireshark. Na prática, tal análise exige muitas horas de trabalho manual e, ainda assim, não garante que a causa do incidente seja efetivamente encontrada.
A solução: análise automática de pcap no Tekvel Magic
O arquivo pcap foi carregado no software Tekvel Magic — a análise levou alguns minutos. Após o processamento, o programa gerou automaticamente um relatório Excel que reuniu todos os dispositivos, eventos e violações problemáticos detectados, com indicação do nível de criticidade.
Cada evento é vinculado a um número de pacote específico no arquivo pcap. Se necessário, o engenheiro pode abrir o ponto correspondente no Wireshark já sabendo exatamente o que aconteceu. Além disso, se houver um arquivo SCD as-built correspondente à configuração dos dispositivos, em vez do número de ordem do sinal é indicado o sinal do modelo e sua descrição — o que facilita muito a compreensão da situação.
O mais importante é que os engenheiros não precisavam mais procurar o problema manualmente entre milhares de pacotes. Em vez de um grande arquivo pcap, obtiveram um quadro claro do que estava acontecendo no objeto.
Do tráfego de rede a um laudo técnico pronto
O resultado do trabalho do Tekvel Magic é um relatório completo de verificação extraordinária. O relatório é gerado em formato Excel e construído segundo o princípio de uma investigação sequencial — da avaliação geral do estado dos equipamentos e da LAN à análise detalhada de eventos e sinais específicos.
A primeira página é o «RESUMO». Nela é exibida a informação geral sobre o arquivo: o horário do registro, um código único do arquivo que exclui a possibilidade de adulteração do pcap, o número de pacotes e publicações GOOSE e SV, bem como a conclusão final da análise — todos os dispositivos, eventos e violações problemáticos detectados, com indicação do nível de criticidade.
Já nesta etapa o especialista vê se foram detectadas violações críticas, quantas publicações GOOSE estão em estado de avaria, quantas exigem atenção e quais problemas ocorrem com mais frequência. Para acelerar a busca pelas causas, geram-se ainda uma lista dos dispositivos-fonte mais problemáticos e uma relação dos principais tipos de violação. De fato, o «RESUMO» permite responder em poucos segundos: existe um problema na rede e onde procurá-lo primeiro.
A etapa seguinte da investigação é «Estados». Nela é exibido o estado de todas as publicações no momento em que o registro do tráfego começou. A prática mostra que muitos problemas existem antes mesmo de a equipe iniciar a investigação.
Após avaliar o estado inicial, o engenheiro passa à seção «Eventos», que é a principal ferramenta de investigação. Aqui, em ordem cronológica, são exibidas todas as alterações nos dados e sua categorização por criticidade. Para cada evento são indicados:
- a fonte (LD/CB);
- o srcMAC do dispositivo;
- o sinal;
- a descrição da violação;
- a categoria de criticidade pelo impacto no funcionamento dos sistemas de proteção e SCADA;
- o número do pacote;
- o instante exato de ocorrência.
Graças a isso, o especialista pode ver o próprio fato da violação:
…e acompanhar a sequência de eventos que levou ao surgimento do problema no objeto:
A seção seguinte é o «Contador de alterações». Ele mostra quais sinais mudaram com mais frequência durante o registro. Para cada sinal, calcula-se o número de alterações e a frequência média de ocorrência em uma janela deslizante de 1 segundo. Esse tipo de análise permite detectar rapidamente alterações imotivadas e/ou excessivamente frequentes do estado dos sinais, uma banda morta mal configurada e outros processos capazes de criar uma carga elevada sobre os equipamentos da LAN e sobre os próprios dispositivos de proteção e SCADA.
No exemplo em questão, foi justamente esta seção que permitiu identificar os sinais que mudaram 600–800 vezes nos 11 minutos de registro e que, na prática, geraram o grosso do tráfego de eventos.
A última aba é o «Glossário». Ela contém a descrição de todos os critérios de análise monitorados, dos códigos de evento, das regras de classificação das violações e explicações sobre o que cada violação detectada pode acarretar. Graças a isso, o relatório permanece compreensível não apenas para o especialista que realizou a análise, mas também para colegas, fabricantes de equipamentos ou representantes da organização operadora.
Dessa forma, o Tekvel Magic transforma um arquivo pcap em uma investigação estruturada do incidente. O engenheiro obtém um quadro geral do que está acontecendo, uma lista de dispositivos problemáticos, a cronologia completa dos eventos e a possibilidade de ir a um pacote específico no dump de tráfego original, caso seja necessária uma verificação adicional.
O que foi encontrado no objeto
Ultrapassagens críticas de TATL
A principal causa das «Falhas» cíclicas acabou estando relacionada à violação do parâmetro timeAllowedToLive (TATL). Para um dos fluxos GOOSE, o sistema registrou ultrapassagens regulares do intervalo permitido entre pacotes: com TATL = 20 ms, os intervalos reais atingiam periodicamente 33 ms. Em um dos episódios ocorreram cinco violações consecutivas seguidas — para os dispositivos receptores, isso significou a interrupção do recebimento de informação do dispositivo-fonte.
Desaparecimento completo de uma mensagem GOOSE
Adicionalmente, o Tekvel Magic detectou um evento em que um dos fluxos GOOSE desapareceu completamente da rede por quase dois minutos:
- ausência de GOOSE — mais de 107 segundos;
- intervalo permitido por TATL — 4816 ms.
Na revisão manual no Wireshark, um episódio desses é praticamente impossível de notar em meio a centenas de publicações ativas.
Falhas no funcionamento do contador GOOSE stNum
O sistema também identificou um funcionamento incorreto do contador de estado stNum:
- os dados na mensagem GOOSE mudaram, mas o stNum não foi incrementado;
- depois o stNum foi incrementado sem qualquer alteração dos dados.
É um sinal de comportamento anômalo da publicação GOOSE, capaz de levar a uma interpretação incorreta dos eventos pelos dispositivos receptores.
Problemas de qualidade dos dados
Em várias publicações foi encontrado o atributo validity = Invalid. Além disso, parte das violações já estava presente no estado inicial do registro — ou seja, o problema existia antes mesmo do momento que os especialistas consideravam o início da verificação extraordinária.
Conclusões
A falha «flutuante», difícil de localizar com as ferramentas habituais, revelou-se não um único erro, mas todo um conjunto de violações inter-relacionadas no tráfego GOOSE: ultrapassagens periódicas de TATL, desaparecimentos curtos e prolongados de publicações, falhas do contador stNum e degradação da qualidade dos sinais. Cada uma dessas violações, isoladamente, é curta no tempo e se perde facilmente no fluxo geral — e é justamente por isso que a análise manual no Wireshark não dava resultado.
Com o software Tekvel Magic, transformar a captura de 11 minutos em um relatório estruturado levou alguns minutos, em vez de muitas horas de trabalho manual — e ainda assim entregou um resultado que a análise manual não garantia.
Vale destacar à parte uma lição sistêmica: a ausência de monitoramento permanente (um sistema de monitoramento online segundo a IEC 61850) no objeto transforma qualquer incidente em uma investigação «de campo» pontual, baseada em uma captura registrada por acaso. Onde tal sistema está instalado, eventos como ultrapassagens de TATL, desaparecimentos de GOOSE e falhas de stNum são registrados e classificados continuamente — e a maioria das falhas «flutuantes» deixa de ser um mistério. Mas mesmo quando não há monitoramento contínuo, o software Tekvel Magic permite realizar uma investigação completa a posteriori: carregar o pcap, obter um laudo técnico e tomar uma decisão de engenharia fundamentada.
Magia de verdade — mas totalmente de engenharia.