Nirvana do monitoramento

Guilherme

, Opinião

Recentemente, tive o privilégio de falar na ByNet® Expo em Tel Aviv. Em uma sala com aproximadamente 200 profissionais de TI locais de todas as esferas sociais, incluindo empresas internacionais e, no mínimo, três subdivisões das Forças de Defesa de Israel, levei 30 minutos para discorrer filosoficamente sobre nuvem e TI híbrida. Mas não sem antes tratar de uma das minhas questões mais importantes: o que realmente é monitoramento de datacenter, e quem cuida (ou deveria cuidar) disso em sua empresa?

Leon Adato: head Geek™ da SolarWinds

Neste sentido, eu gostaria de abordar alguns dos elementos que fazem parte de um excelente monitoramento de datacenter e que, quando seguidos, transformam o monitoramento na área de TI em uma ótima disciplina.

O que é monitoramento?

Vamos começar a explicar o que é monitoramento falando sobre o que ele não é:

  • Monitoramento não é um tíquete (apesar de já ter trabalhado em uma empresa onde o tempo de atividade era calculado como “100% menos o número de tíquetes no sistema”)
  • Monitoramento não é um ícone piscando em uma tela
  • Monitoramento não é uma página, um e-mail ou alerta sonoro em seus alto-falantes

Monitoramento nada mais (ou menos) é do que a coleta contínua, regular e consistente de dados e métricas de um grupo de dispositivos de destino. Tudo o que foi mencionado acima, tíquete, ícone piscando e alarme sonoro, é o feliz subproduto do qual você desfruta quando faz o monitoramento pela primeira vez.

Monitoramento como disciplina

Depois de concordarmos com o que é o monitoramento de datacenter, o próximo ponto que eu gostaria de deixar claro é quem, em termos de funções de TI, deve ser encarregado dele.

Em muitas empresas, monitoramento é uma caixa de seleção em uma extensa lista de tarefas para vários funcionários, incluindo pessoas em equipes que prestam suporte a rede, servidores, armazenamento, sistema de voz etc. Essas pessoas geralmente usam um software altamente específico à sua área, e ele não compartilha as informações com outras equipes ou sistemas. Quando dou uma palestra e digo isso claramente, a resposta que mais ouço é: “Explicando as coisas desse jeito, soa um pouco engraçado.”

Relembre como era cerca de dez anos atrás, em que havia poucas pessoas que se autointitulavam “profissionais de segurança da informação”. Certamente eram poucas, mas elas normalmente trabalhavam para empresas gigantes (ou para o governo) e eram como a versão de TI de um superespião.

Atualmente, nenhuma empresa sonharia em operar sem um recurso de segurança da informação de plantão, se não na própria equipe. Mas há dez anos, esse trabalho era realizado pelo engenheiro de rede, que gostava de ACLs e segurança em geral, ou pelo administrador de servidor, que tinha uma fixação estranha por arquivos de log. Mesmo nos dias de hoje, não temos uma pessoa de segurança da informação para sistema de rede e outra para servidores. Trata-se de uma única função responsável pelo ambiente de TI inteiro.

Esta é a direção que o monitoramento precisa seguir. Nós, profissionais de TI que gerenciam pessoal, fluxo de trabalho e recursos associados ao datacenter moderno, precisamos reconhecer que a única forma de aproveitar todo o potencial do monitoramento (e, com isso, quero dizer monitorar tudo globalmente, detectar e resolver problemas automaticamente e nos proteger quando possível), é fazer com que a equipe se dedique a esse objetivo. Pessoas que conheçam mais do que um único silo da tecnologia e, ao contrário, estejam focadas em uma ampla gama de técnicas para coletar dados, detectar modos de falha e, rapidamente, desenvolver automação capaz de responder a eles, tomando medidas corretivas ou reunindo dados adicionais sobre o evento. Isso sim pode enriquecer a mensagem transmitida para a equipe, possibilitando que ela trabalhe mais rapidamente no problema certo.

O monitoramento deve se tornar (e acreditem, está se tornando) sua própria disciplina no ecossistema de TI. A ambição em se tornar um engenheiro de monitoramento é um objetivo de carreira tão válido quanto administrador de sistemas, administrador de armazenamento ou engenheiro de rede.

Por onde começar

Às vezes, é útil organizar um conceito em torno de um modelo ou de uma estrutura imaginária para que você possa inserir todos os novos conceitos em uma estrutura abrangente. Por sorte, o monitoramento já tem um desses, denominado FCAPS.

A sigla FCAPS refere-se a “Fault, Capacity, Administration, Performance and Security” (falha, capacidade, administração, desempenho e segurança). Usando o imaginário de um avião voando de uma cidade para outra, o gabarito FCAPS seria parecido com isto:

 

FCAPS O que ele diz No avião
Falha O que acontece? O avião está em voo, na plataforma ou sofreu um acidente?
Capacidade Quanto? Quantas pessoas estão no avião? Quantos assentos estão vagos? Quanto há de gasolina no tanque?
Administração Quem pode? Quem comprou passagens para este voo e, portanto, pode entrar no avião (independentemente de estar no avião agora)?
Desempenho Velocidade? Qual é a velocidade do avião? Ele está usando o combustível ideal para mistura de oxigênio? Quantas milhas por galão o avião está fazendo?
Segurança Quem fez? Quem entrou no avião?

 

Certamente, esta é uma simplificação de um assunto que pode ser muito amplo, mas grande parte é real na maioria das vezes.

O monitoramento envolve amplamente as letras F, C e P do FCAPS. A administração (quem tem acesso a um sistema) e a segurança (quem realmente acessou o sistema em determinado momento) geralmente são competências da equipe de segurança ou de ferramentas do tipo RADIUS/TACACS.

Desta forma, os profissionais de monitoramento tendem a focar nas letras F, C e P.

Tudo gira em torno da técnica

Agora, com a filosofia e a teoria em mãos, a essência do sucesso do monitoramento (ou pelo menos o básico) se resume em saber quais ferramentas você tem disponíveis e como usá-las de maneira eficaz. Porém, está além do escopo deste estudo analisar em detalhes as áreas mais obscuras dos protocolos e das funções. O que eu posso lhe dizer agora é que você deve saber como cada uma das seguintes técnicas funciona e em quais situações elas são melhor usadas:

 

  • Ping
  • SNMP (sondagem e interceptação)
  • Syslog
  • Leitura de arquivos de log
  • Agregação de arquivos de log
  • WMI
    • eventlog (Windows®)
    • performance mon ctr
  • Consulta SQL
  • IPSLA
  • NetFlow
  • API de fornecedor/com script

Desenvolvimento alarmante

Uma das primeiras coisas que se deseja em uma solução de monitoramento são notificações quando há algo errado. Infelizmente, o que geralmente acontece é uma situação em que alguém diz: “Ative todos os alertas e depois decidiremos quais deles vamos desativar.” Surpresa: se você fizer isso, a resposta para “Qual deles devemos desativar?” será “Todos!”

Para piorar ainda mais a situação, os alertas padrão (aqueles que vêm com o software) são geralmente usados sem modificação, o que leva à reclamação de que “Este monitoramento é inútil!” Observe mais uma vez que alertas não devem ser confundidos com monitoramento.

Para evitar isso, é importante saber algumas generalidades sobre software de alertas e monitoramento.

Primeiramente, os alertas incluídos em seu software de monitoramento são sugestões e exemplos, e não práticas recomendadas. Eles são uma forma de enviar a você alertas iniciais com os quais trabalhar, tão genéricos que funcionam em praticamente todos os ambientes, ou são exemplos que demonstram determinada função, técnica ou conceito.

Em qualquer um dos casos, esses alertas não devem ser usados da forma como se encontram, e sim modificados, desenvolvidos ou usados como gabaritos para outros alertas que são adaptados à arquitetura, ao fluxo de trabalho e às necessidades específicos de sua empresa.

Em segundo lugar, alertas bons vêm de boas conversas. Em mais de 30 anos na área de TI, descobri que as pessoas que exigem monitoramento tendem a se enquadrar em uma destas duas categorias:

  1. Aquelas que falam para você o que monitorar e quando emitir alertas, mas não dizem exatamente o resultado que esperam obter
  2. Aquelas que não têm ideia do que monitorar ou emitir alertas porque não sabem exatamente o resultado que esperam obter

Ao trabalhar com essas duas categorias de pessoas, eu faço as seguintes perguntas:

  1. Como você sabe quando algo está errado? Não é quando o usuário liga gritando.
    1. A qual sistema você recorre quando alguma coisa não parece estar indo muito bem?
    2. Quais comandos você executa quando alguma coisa não parece estar indo muito bem?
    3. Você presta atenção em quais limites quando alguma coisa não parece estar indo muito bem?
  2. O que você faz?
    1. Você limpa um diretório ou zera um contador?
    2. Você reinicia um serviço?
    3. Você executa alguns comandos adicionais na API do aplicativo?
  3. Como você sabe que uma situação foi resolvida?
    1. É apenas o inverso do mesmo grupo de itens da pergunta número um acima?
    2. Há outros indicadores que você observa para garantir o alívio da pressão?

As respostas para essas perguntas vão esclarecer o que você deve monitorar, como deve criar um alerta e quais ações deverá automatizar quando o alerta for disparado.

Mais uma vez, você só tem a ganhar com uma boa técnica

Assim como o próprio monitoramento, depois que você entende sua filosofia e teoria, o trabalho todo é desenvolvido em torno do conhecimento sólido das ferramentas. No caso dos alertas, isso inclui entender conceitos como:

  • Oscilação
  • Pai-filho
  • Disparador Delta
  • Disparador de vários eventos
  • Desduplicação

Então, o que devo fazer?

Depois de tudo dito e feito, você ainda precisará de uma ferramenta de software que faça algumas das coisas descritas nesta postagem. Como todos os fornecedores de software que vendem soluções no mercado seguem a mesma cartilha, o que você deve buscar como fator diferencial? O que exatamente torna a marca X tão melhor do que a marca Y?

A resposta depende tanto de você e de sua organização quanto do modo como é realizado o monitoramento.

Sua equipe de monitoramento será uma pessoa que também vale por equipe de servidor, rede, central de ajuda e banco de dados? Se for, você provavelmente precisará de uma ferramenta que sacrifique opções abrangentes em busca de simplicidade e capacidade de gerenciamento. Sua organização precisa de flexibilidade absoluta para que a solução de monitoramento seja o único local para todas as suas necessidades? Você gastará mais e precisará de mais pessoal, mas no fim do dia (mês ou, mais provavelmente, ano), você terá o pacote de softwares ideal.

No final, se você fizer a escolha sabiamente e seguir as sugestões acima, estará no caminho certo para atingir o nirvana do monitoramento!

Leon Adato é Head Geek da SolarWinds