Já passou quase um século desde que o astrônomo Fritz Zwicky calculou pela primeira vez a massa do Aglomerado de Cabeleira de Berenice, uma densa coleção de quase 1.000 galáxias localizadas no Universo próximo.
© Hubble (NGC 4911)
Mas estimar a massa de algo tão grande e denso, que está a 320 milhões de anos-luz de distância, não é fácil. As medições iniciais de Zwicky, e as muitas feitas desde então, têm fontes de erros que enviesam a massa para cima ou para baixo.
Agora, utilizando ferramentas de aprendizagem de máquina, uma equipe liderada por físicos da Universidade Carnegie Mellon desenvolveu um método de aprendizagem profunda que estima com precisão a massa do Aglomerado de Cabeleira de Berenice e atenua eficazmente as fontes de erro.
Os métodos de aprendizagem de máquina são utilizados com sucesso numa variedade de campos para encontrar padrões em dados complexos, mas só na última década é que ganharam uma posição de destaque na investigação cosmológica. Para alguns pesquisadores na área, estes métodos vêm com uma grande preocupação: uma vez que é difícil compreender o funcionamento interno de um modelo complexo de aprendizagem de máquina, será que podemos confiar neles para fazer aquilo para que foram concebidos?
Para calcular a massa do Aglomerado de Cabeleira de Berenice, Zwicky e outros utilizaram uma medição dinâmica da massa, na qual estudaram o movimento ou velocidade de objetos em órbita dentro e ao redor do aglomerado de galáxias e depois utilizaram a sua compreensão da gravidade para inferir a massa do aglomerado. Mas esta medição é susceptível a uma variedade de erros.
Os aglomerados de galáxias existem como nós numa enorme teia de matéria distribuída pelo Universo, e estão constantemente colidindo e se fundindo uns com os outros, o que distorce o perfil de velocidade das galáxias constituintes. E considerando que o aglomerado é observado a uma grande distância, há elementos que pode distorcer a medição da massa.
Pesquisas recentes fizeram progressos no sentido de quantificar e contabilizar o efeito destes erros, mas os métodos baseados na aprendizagem de máquina fornecem uma abordagem inovadora baseada em dados. Uma das maiores falhas com as abordagens de aprendizagem de máquina padrão é que normalmente produzem resultados sem quaisquer incertezas. Este método inclui estatísticas Bayesianas robustas, que permitem quantificar a incerteza nos resultados. Foi desenvolvido um método inovador através da personalização de uma conhecida ferramenta de aprendizagem de máquina chamada rede neuronal convolucional, que é um tipo de algoritmo de aprendizagem profunda utilizado no reconhecimento de imagens.
Os pesquisadores treinaram o seu modelo, alimentando-o com dados provenientes de simulações cosmológicas do Universo. O modelo aprendeu através da observação das características observáveis de milhares de aglomerados de galáxias, cuja massa já é conhecida. Após uma análise aprofundada da manipulação dos dados de simulação pelo modelo, foi aplicado a um sistema real, o Aglomerado de Cabeleira de Berenice, cuja verdadeira massa não é conhecida.
O método calculou uma estimativa de massa que é consistente com a maioria das estimativas de massa feitas desde os anos 80. Isto marca a primeira vez que esta metodologia específica de aprendizagem de máquina foi aplicada a um sistema observacional.
Modelos como estes vão ser críticos daqui para a frente, especialmente quando levantamentos espectroscópicos em grande escala, como o DESI (Dark Energy Spectroscopic Instrument), o Observatório Vera C. Rubin e Euclides, começarem a divulgar a vasta quantidade de dados que estão recolhendo do céu. Em breve haverá um fluxo de dados à escala dos pentabytes.
Um artigo sobre a pesquisa foi publicado na revista Nature Astronomy.
Fonte: Carnegie Mellon University