Gerenciamento e Engenharia de dados

Linha de pesquisa

As linhas de pesquisa e eixos temáticos de Saúde acima descritos pressupõem a coleta, integração e a combinação de múltiplas fontes de dados heterogêneas (do ponto de vista de estruturação, qualidade, etc.), públicas e privadas, multi-modais, coletadas e armazenadas por longos períodos de tempo, tanto no nível do indivíduo (all-about-the individual) quanto no nível público (populacional). Por outro lado, os métodos baseados em aprendizado de máquina (modelos preditivos, descritivos, simulações) dependem diretamente da disponibilidade de grandes quantidades, com diversidade e complementariedade, e com alta qualidade para treinamento e validação. Nesse contexto, o grande desafio dessa linha de pesquisa é: Como coletar de forma contínua e integrar de forma efetiva e eficiente centenas de fontes de dados heterogêneas, multimodais, históricas, garantindo a qualidade e a proveniência dos dados integrados de forma a tornar o processo de integração transparente, replicável, verificável, auditável e explicável? Em relação à aquisição de dados médicos, podemos considerar duas situações: (i) a utilização de dados históricos preexistentes, obtidos, por exemplo, a partir dos sistemas de informações do SUS, inquéritos ou da Unimed; (ii) a aquisição e coleta de novos dados a partir de exames e/ou dispositivos wearables. Em ambos os casos, a informação precisa ser agregada e integrada de forma a garantir os requisitos mínimos de qualidade acima elencados; e (iii) organizar sistemas de comunicação e de armazenamento, permitindo o armazenamento de dados multivariados, que possibilitem o acompanhamento multi-perspectiva (amplitude de observação) de toda a população do país por longos períodos de tempo. Do ponto de vista de aquisição/coleta de novos dados médicos, o desafio é prover mecanismos de coleta que considerem já na etapa inicial do desenvolvimento de sistemas de saúde, dados com níveis mínimos de qualidade e com baixo custo. Dados médicos são inerentemente ruidosos, provenientes de múltiplas fontes heterogêneas (wearables, sensores ambientais, ecocardiogramas, tomografias, imagens de raio X, fotos de tecidos e órgãos, mídias sociais), de quantidade limitada (por exemplo, não é desejável submeter um paciente a inúmeros exames de raio-x ou tomografias) e devem ser coletados de tal modo que primem pela proteção da privacidade do paciente ⁷⁰.

O processo de coleta de dados pode aplicar, por exemplo, mecanismos de filtragem e fusão dos dados do paciente visando uma aquisição mais “inteligente” dos seus registros de saúde pregressa. Técnicas de filtragem tratarão os ruídos e as diferentes frequências de aquisição desses dados. A fusão de dados de múltiplas fontes, por outro lado, visa aumentar a precisão de prognósticos e a robustez nos resultados sem aumentar os custos para obter os dados desejados ⁷¹. Considerar a dimensão custo na coleta de dados médicos é extremamente relevante, uma vez que, em muitos casos, não é possível utilizar dispositivos de alta resolução, ou até mesmo, especialistas para a obtenção dos mesmos ¹¹⁴. A fusão de dados explora a variedade de modalidades de dados dos pacientes. Se o ecocardiograma do paciente é ruidoso e com erros de aquisição, históricos médicos ricos em detalhes podem enriquecer as informações de saúde pregressa do paciente. Assim, métodos de filtragem para tratamento de diferentes ruídos combinados com a fusão dos dados dos pacientes garantem a entrega de dados ricos em discriminabilidade e informação às aplicações médicas.

Em termos de integração de dados, o pareamento, que reconhece múltiplas representações da mesma entidade, é um problema central nesta integração. Esse problema tem sido historicamente tratado através do reconhecimento de similaridades (e.g. filiação, gênero) que devem considerar dados faltantes ou incorretos. Estas soluções tipicamente usam métodos probabilísticos eficientes, mas que são difíceis de treinar, validar e explicar.

Em resumo, para tratar as questões de pesquisa de coleta e integração de dados de forma a atingir os objetivos elencados, propomos: (1) Desenvolver técnicas para coletas de dados representativas, bem como métodos de filtragem combinados com fusão dos dados dos pacientes, que agreguem dados ricos em discriminabilidade e informação a serem utilizados pelas aplicações médicas. Métodos como one-shot learning e/ou self-supervision ¹¹⁵ ainda no início do tratamento dos dados serão explorados para obter dados com restrições mínimas de qualidade; (2) Desenvolver e construir infra-estruturas de dados integradas do tipo Data Lake ¹¹⁶, alimentadas continuamente por variadas fontes de dados, com dados heterogêneos e multimodais (estruturados, não estruturados, textuais, multimídia, séries temporais, etc), e cuja integração é baseada em pareamentos com métodos avançados de inteligência artificial; (3) Criar e avaliar novas soluções de pareamento e integração de dados baseado em métodos e técnicas do estado-da-arte, inclusive aquelas baseadas em aprendizado de máquina. Essas técnicas devem permitir o aprendizado automatizado de formas de combinação avançadas de funções de similaridade a partir de representações semanticamente mais ricas (ex., embeddings ¹¹⁷, meta-atributos baseados em distâncias ¹¹⁸), e que considerem o contexto médico da integração e das análises pretendidas. Do ponto de vista técnico, isto implica em (i) definir os algoritmos/técnicas mais adequados a cada propósito (e.g., por meio de Auto-Aprendizado ⁹⁶); (ii) tornar esses algoritmos/técnicas eficientes (por exemplo, por meio de Meta-Blocagem ⁹³); (iii) habilitá-los a produzir dados com a qualidade necessária a cada análise (por exemplo, por meio de fusão de dados); (iv) permitir a criação (semi-)automática de dados rotulados para a tarefa de aprendizado de integração (por exemplo, por meio de aprendizado ativo ¹¹⁹ ou co-treinamento ¹²⁰; e (v) estimular a capacidade de verificar e explicar os resultados (por meio por exemplo, de aprendizado com modelos híbridos), dando confiabilidade ao seu uso em aplicações médicas; e (4) Desenvolver mecanismos de proveniência avançados ¹²¹ que tornem o processo de integração transparente, replicável, verificável e auditável. Utilizar dados nas mais variadas aplicações de análises médicas e saúde pública implica a necessidade de garantia de representatividade de casos, de qualidade de dados, de confiabilidade de fontes e de transparência no processo, de tal forma que questões éticas e técnicas possam ser endereçadas. As incertezas envolvidas no processo de integração em geral, e pareamento em particular, adicionam complexidade ímpar a este desafio.

Pesquisadores Principais: Altigran Silva, Marcos Gonçalves, Carisi Polanczyk, Marco Romano-Silva

Referências:

70. White S. A review of big data in health care: challenges and opportunities. OAB. 2014 Oct;13.

71. Perez-Rua J-M, Vielzeuf V, Pateux S, Baccouche M, Jurie F. MFAS: Multimodal Fusion Architecture Search [Internet]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Available from: http://dx.doi.org/10.1109/cvpr.2019.00713

93. dal Bianco G, Gonçalves MA, Duarte D. BLOSS: Effective meta-blocking with almost no effort. Inf Syst. 2018 Jun 1;75:75–89.

96. Cunha W, Canuto S, Viegas F, Salles T, Gomes C, Mangaravite V, et al. Extended pre-processing pipeline for text classification: On the role of meta-feature representations, sparsification and selective sampling [Internet]. Vol. 57, Information Processing & Management. 2020. p. 102263. Available from: http://dx.doi.org/10.1016/j.ipm.2020.102263

114. Nascimento BR, Martins JFBS, Nascimento ER, Pappa GL, Sable CA, Beaton AZ, et al. Deep learning for automatic identification of rheumatic heart disease in echocardiographic screening images: data from the ATMOSPHERE-PROVAR study. J Am Coll Cardiol. 2020 Mar 24;75(11, Supplement 1):3577.

115. Fernando B, Bilen H, Gavves E, Gould S. Self-Supervised Video Representation Learning with Odd-One-Out Networks [Internet]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. Available from: http://dx.doi.org/10.1109/cvpr.2017.607

116. Olston C, Korn F, Noy N, Polyzotis N, Whang S, Roy S. Managing Google’s data lake: an overview of the Goods system. 2016; Available from: https://research.google/pubs/pub47600/

117. Cappuzzo R, Papotti P, Thirumuruganathan S. Creating Embeddings of Heterogeneous Relational Datasets for Data Integration Tasks. In: Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. New York, NY, USA: Association for Computing Machinery; 2020. p. 1335–49. (SIGMOD ’20).

118. Canuto S, Salles T, Rosa TC. Similarity-Based Synthetic Document Representations for Meta-Feature Generation in Text Classification. Proceedings of the 42nd [Internet]. 2019; Available from: https://doi.org/10.1145/3331184.3331239

119. Cardoso TNC, Silva RM, Canuto S, Moro MM, Gonçalves MA. Ranked batch-mode active learning. Inf Sci . 2017 Feb 10;379:313–37.

120. Magalhães LFG, Gonçalves MA, Canuto SD, Dalip DH, Cristo M, Calado P. Quality assessment of collaboratively-created web content with no manual intervention based on soft multi-view generation. Expert Syst Appl. 2019 Oct 15;132:226–38.

121. Freire J, Chirigati F. Provenance and the different flavors of computational reproducibility. IEEE Data Engineering Bulletin. 2018;41(1):15.

Gerenciamento e Engenharia de dados

CI-IA Saúde