DCC - UFMG
+55 31 3409 5860
ciia-saude@dcc.ufmg.br

Marcos André Gonçalves


Marcos André Gonçalves

Universidade Federal de Minas Gerais
DCC

Pesquisador principal





Informações resumidas do Currículo Lattes


Currículo Lattes atualizado em 15/04/2021

Nome em citações bibliográficas: GONÇALVES, Marcos André;Gonçcalves, Marcos André;Marcos A. Gonçalves;MARCOS GONÇALVES;GONÇALVES, MARCOS;GONÇALVES, MARCOS A.;GONÇALVES, MARCOS;GONCALVES, MARCOS;GONCALVES, MARCOS A.;GONÇALVES, MARCOS ANDRE


Formação acadêmica

Doutorado em Computer Science na Virginia Tech em 2004
Mestrado em Ciência da Computação na Universidade Estadual de Campinas em 1997
Graduado em Bacharelado em Ciência da Computação na Universidade Federal do Ceará em 1995


Projetos de pesquisa em andamento

2020 a AtualPrograma de Capacidades Analíticas do Ministério Público do Estado de Minas Gerais - MPMG
Consultoria técnica especializada para prestação de serviços de pesquisa e desenvolvimento na área da Inteligência Artificial Aplicada e soluções de Big Data, vinculada ao escopo do Programa de Capacidades Analíticas do MPMG, incluindo transferência de conhecimento, por meio de mentoring e operação assistida.
Integrantes: Wagner Meira Jr (coordenador), Marcos André Gonçalves, Alberto H F Laender, Rodrygo Luis Teodoro Santos, Jussara Marques Almeida, Fabricio Benevenuto.
2019 a AtualPITIA - Plataforma Inteligente Temática Interativa Adaptável,
Esse projeto tem como principal objetivo a construção da arquitetura e a implementação de um Assistente Digital Inteligente (ADI) capaz de responder perguntas feitas utilizando comandos de voz ou texto. O ADI será capaz de buscar informações para responder às perguntas tanto em fontes de dados estruturadas (bancos de dados relacionais) quanto em fontes de dados não estruturadas (texto) ou semi-estruturadas (planilhas excel, imagens, etc). A arquitetura, em alto nível de abstração, está organizada hierarquicamente em quatro camadas (fontes, dados, serviços e front end). Além das quatro camadas, a arquitetura também possui dois módulos transversais que consideram as credenciais do usuário interagindo com o sistema e a segurança e privacidade dos dados.
Integrantes: Wagner Meira Jr (coordenador), Marcos André Gonçalves, Jussara Marques Almeida.
2018 a AtualProjeto Universal 2018 - Faixa C - Avanços em Recuperação de Informação Inteligente através de Engenharia de Atributos, Enriquecimento Semântico e Aprendizado Ativo
O tema de inteligência artificial (IA) e aprendizado de máquina tem atraído enorme interesse acadêmico e empresarial nos últimos anos. De acordo com o Artificial Intelligence Index , o número de artigos sobre IA aumentou mais de 9 vezes desde 1996. Uma das aplicações mais interessantes de técnicas de Aprendizado de máquina tem sido da área de gerenciamento e tratamento de grandes volumes de informação (aka, Big Data). De fato, a sobrecarga de informação, gerada principalmente pela utilização ?quase onipresente? de dispositivos eletrônicos (smartphones, tablets, etc) ligados `a Internet (aka, Internet das Coisas) é um dos principais desafios da Ciência da Computação na atualidade. Estes desafios advém não apenas da imensa quantidade de dados/informações disponíveis, que precisam ser tratados de forma eficaz e eficiente, nas mais diversas plataformas utilizadas pelos usuários, mas também da dificuldade inerente em identificar e tratar conteúdo de boa e principalmente de má qualidade (e.g., spam, vandalismo, fake news, informalidade e imprecisão na linguagem naturais da linguagem humana). Esses desafios têm motivado continuamente pesquisas para avançar o estado-da-arte em áreas como classificação automática, sistema de ranqueamento (ranking) e de recomendação. Por exemplo sistemas de classificação automática baseados em aprendizado supervisionado podem ser usados para aprender a: (i) separar notícias reais daquelas fake a partir de um conjunto de evidências previamente coletados (e.g., viralidade da mensagem; texto associado à mensagem); (ii) determinar a polaridade/sentimento (positivo, negativo ou neutro) de uma mensagem de texto curta em uma rede social ou aplicação de chat; (iii)a categorizar usuários como tendenciosos ou não a aceitar a oferta de determinados produtos e serviços, etc. Sistemas de busca ou de respostas de questões (aka, question answering), por sua vez, são utilizados para ordenar, literalmente dentre milhões de possibilidades, as respostas mais relevantes a uma consulta ou pergunta do usuário de tal forma que esse usuário possa rapidamente encontrar os ?melhores? documentos ou respostas. Nesse contexto, aprendizado de máquina tem sido utilizado para aprender funções de ordenação que maximizem a relevância através de uma combinação, geralmente não-linear, dos atributos (aka, features) disponíveis. Esses algoritmos de ranqueamento podem ser também utilizados em sistemas de recomendação que sugerem os melhores itens para um usuário em um determinado contexto, ou as palavras-chave mais adequadas para descrever um produto de forma a maximizar o lucro em um site de comercio eletrônico. Em suma, esse projeto, conectado a várias pesquisas desenvolvidas pelo proponente, tem por objetivo geral propor soluções inovadoras para vários problemas relacionados ao tratamento de grandes volumes de informação, em aplicações tais como recuperação de informação em máquinas de busca, classificação automática de texto e recomendação de conteúdo, por meio de avanços em algoritmos e técnicas de aprendizado de máquina, particularmente engenharia de atributos com exploração de semântica e aprendizado ativo. Nossas pesquisas nessas áreas têm obtidos resultados de grande impacto científico, exemplificados pelo volume e qualidade da produção cientifica do proponente (ver currículo Lattes) bem como pelos inúmeros prêmios recebidos ao longo dos últimos anos, tais como: orientador da melhor dissertação de mestrado do Brasil (2018) - Sociedade Brasileira de Computação (SBC); orientador da melhor tese de Doutorado do Brasil em Banco de Dados e recuperação de Informação (2017) ? Comissão Especial de Banco de Dados (CEBD-SBC); best paper award na ACM/IEEE Joint Conference on Digital Libraries (JCDL); vários Google Research Awards para a America Latina, dentre outros. Particularmente, nesse projeto propomos avanços em técnicas e algoritmos
Integrantes: Marcos André Gonçalves (coordenador), Thierson Couto, Leonardo Rocha, Jussara Marques Almeida, Wellington Santos Martins.
2018 a AtualProjeto 26139 FAPEMIG/ICEX/DCC/RECINT
Esse projeto visa propor soluções inovadoras para vários problemas relacionados ao tratamento de informação na Web, principalmente associados a serviços e aplicações da Web 2.0 (e.g., redes sociais, blogs e micro-blogs)
Integrantes: Marcos André Gonçalves (coordenador).

Projetos de desenvolvimento em andamento

Veja todos os projetos no Currículo Lattes

Últimas publicações

Artigos em periódicos

Impact of Big Data Analytics on People?s Health: Overview of Systematic Reviews and Recommendations for Future Studies
2021. JOURNAL OF MEDICAL INTERNET RESEARCH.
On the cost-effectiveness of neural and non-neural approaches and representations for text classification: A comprehensive comparative study
2021. INFORMATION PROCESSING & MANAGEMENT.
Exploiting semantic relationships for unsupervised expansion of sentiment lexicons
2020. INFORMATION SYSTEMS.
Automatic Disambiguation of Author Names in Bibliographic Repositories
2020. Synthesis Lectures on Information Concepts, Retrieval, and Services.
-Fixing the curse of the bad product descriptions- - Search-boosted tag recommendation for E-commerce products
2020. INFORMATION PROCESSING & MANAGEMENT.
Extended pre-processing pipeline for text classification: On the role of meta-feature representations, sparsification and selective sampling
2020. INFORMATION PROCESSING & MANAGEMENT.
FISETIO: A FIne-grained, Structured and Enriched Tourism Dataset for Indoor and Outdoor attractions
2020. DATA IN BRIEF.
Fine-grained tourism prediction: Impact of social and environmental features
2020. INFORMATION PROCESSING & MANAGEMENT.
A pragmatic approach to hierarchical categorization of research expertise in the presence of scarce information
2020. INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES (PRINT).
Bag of textual graphs (BoTG): A general graph-based text representation model
2019. Journal of the Association for Information Science and Technology.
Risk-Sensitive Learning to Rank with Evolutionary Multi-Objective Feature Selection
2019. ACM TRANSACTIONS ON INFORMATION SYSTEMS.
Parallel rule-based selective sampling and on-demand learning to rank
2019. CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE.
Exploiting syntactic and neighbourhood attributes to address cold start in tag recommendation
2019. INFORMATION PROCESSING & MANAGEMENT.
10SENT: A stable sentiment analysis method based on the combination of off-the-shelf approaches
2019. Journal of the Association for Information Science and Technology.
Quality Assessment of Collaboratively-Created Web Content with No Manual Intervention based on Soft Multi-View Generation
2019. EXPERT SYSTEMS WITH APPLICATIONS.
Hierarchical Clustering-Based Graphs for Large Scale Approximate Nearest Neighbor Search
2019. PATTERN RECOGNITION.
NetClass: A Network-Based Relational Model for Document Classification
2018. INFORMATION SCIENCES.
Improving random forests by neighborhood projection for effective text classification
2018. INFORMATION SYSTEMS.
Exploiting Efficient and Effective Lazy Semi-Bayesian Strategies for Text Classification
2018. NEUROCOMPUTING.
A Thorough Evaluation of Distance-Based Meta-Features for Automated Text Classification
2018. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING.
BLOSS: Effective Meta-Blocking with Almost no Effort
2018. INFORMATION SYSTEMS.
A Genetic Programming Approach for Feature Selection in Highly Dimensional Skewed Data Neurocomputing
2018. NEUROCOMPUTING.
A survey on tag recommendation methods
2017. Journal of the Association for Information Science and Technology.
Incremental author name disambiguation by exploiting domain-specific heuristics
2017. Journal of the Association for Information Science and Technology.
A Two-Stage Machine Learning Approach for Temporally-Robust Text Classification
2017. INFORMATION SYSTEMS.
Ranked Batch-Mode Active Learning
2017. Information Sciences.
Diversity-based Interactive Learning meets Multimodality
2017. NEUROCOMPUTING.
A General Multi-View Framework for Assessing the Quality of Collaborativelly Created Content on the Web 2.0
2017. Journal of the American Society for Information Science and Technology (Print).
Beyond Relevance
2016. ACM Transactions on Intelligent Systems and Technology.
A Multimodal query expansion based on genetic programming for visually-oriented e-commerce applications
2016. Information Processing & Management.
On cold start for associative tag recommendation
2016. Journal of the Association for Information Science and Technology.
A quantitative analysis of the temporal effects on automatic text classification
2016. Journal of the Association for Information Science and Technology.
On Interactive Learning-to-Rank for IR: Overview, Recent Advances, Challenges, and Directions
2016. Neurocomputing (Amsterdam).
TrendLearner: Early Prediction of Popularity Trends of User Generated Content
2016. Information Sciences.
SentiBench - A Benchmark Comparison of State-of-the-Practice Sentiment Analysis Methods
2016. EPJ Data Science.
A Genetic Programming Approach to Record Deduplication
2012. IEEE Transactions on Knowledge and Data Engineering (Print).
A genetic programming framework for content-based image retrieval
2009. Pattern Recognition.
``What is a Good Digital Library?'' -- A Quality Model for Digital Libraries
2007. Information Processing & Management.
Link-based similarity measures for the classification of Web documents
2006. Journal of the American Society for Information Science and Technology.
Streams, structures, spaces, scenarios, societies (5s)
2004. ACM Transactions on Information Systems.

Trabalhos completos em congressos

Combining Representations For Effective Citation Classification
2020. International Workshop on Mining Scientific Publications.
Automatic Content Quality Estimation Using Deep Neural Networks in Collaborative Encyclopedias on the Web
2020. WebMedia '20: Brazillian Symposium on Multimedia and the Web.
Keep it Simple, Lazy - MetaLazy: a New MetaStategy for Text Classification
2020. 29th ACM International Conference on Information and Knowledge Management.
CluHTM - Semantic Hierarchical Topic Modeling based on CluWords
2020. 2020 Annual Conference of the Association for Computational Linguistics (ACL 2020).
Automatic Generation of Initial Reading Lists: Requirements and Solutions
2019. 2019 ACM/IEEE Joint Conference on Digital Libraries (JCDL).
Image Aesthetics and its Effects on Product Clicks in E-Commerce Search
2019. SIGIR 2019 Workshop on eCommerce.
Similarity-Based Synthetic Document Representations for Meta-Feature Generation in Text Classification
2019. the 42nd International ACM SIGIR Conference.
Characterizing Attention Cascades in WhatsApp Groups
2019. the 10th ACM Conference.
CluWords: Exploiting Semantic Word Clustering Representation for Enhanced Topic Modeling
2019. Twelfth ACM International Conference on Web Search and Data Mining (WSDM 2019).
Document Performance Prediction for Automatic Text Classification
2019. 41st European Conference on Information Retrieval.
User-Oriented Objective Prioritization for Meta-Featured Multi-Objective Recommender Systems
2018. Adjunct Publication of the 26th Conference.
A Feature-Oriented Sentiment Rating for Mobile App Reviews
2018. the 2018 World Wide Web Conference.
Improving Tourism Prediction Models Using Climate and Social Media Data: A Fine-Grained Approach
2018. International AAAI Conference on Web and Social Media (ICWS2018).
Semantically-Enhanced Topic Modeling
2018. the 27th ACM International Conference.
Automatic Hierarchical Categorization of Research Expertise Uisng Minimum Information
2017. International Conference on Theory and Practice of Digital Libraries (TPDL).
Stacking Bagged and Boosted Forests for Effective Automated Classification
2017. 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.
A multicriteria Evaluation of Hybrid Recommender Systems
2017. 19th International Conference on Enterprise Information Systems.
A Framework for Unexpectedness Evaluation in Recommendation
2017. The 32nd ACM SIGAPP Symposium On Applied Computing (SAC 2017).
Generalized BROOF-L2R: A General Framework for Learning to Rank Based on Boosting and Random Forests
2016. The 39th Annual ACM SIGIR Conference.
Exploiting New Sentiment-Based Meta-level Features for Effective Sentiment Analysis
2016. the Ninth ACM International Conference.
Early Prediction of Scholar Popularity
2016. the 16th ACM/IEEECS.
On the combination of "off-the-shelf" sentiment analysis methods
2016. the 31st Annual ACM Symposium.
Dissecting a Scholar Popularity Ranking into Different Knowledge Areas
2016. International Conference on Theory and Practice of Digital Libraries (TPDL).
Incorporating Risk-Sensitiveness into Feature Selection for Learning to Rank
2016. he 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
Compression-Based Selective Sampling for Learning to Rank
2016. The 25th ACM International Conference on Information and Knowledge Management (CIKM 2016).
BERT: Melhorando Classicação de Texto com Arvores Extremamente Aleatorias, Bagging e Boosting
2016. 31st of the Brazilian Symposium on Databases.
Quando a Amazônia Encontra a Mata Atlântica: Empilhamento de Florestas para Classificação Efetiva de Texto
2016. IV KDMile - Symposium on Knowledge Discovery, Mining and Learning.
A Multi-View Approach for Assessing the Quality of Collaboratively Created Content on the Web 2.0
2016. X Concurso de Teses e Dissertações em Inteligência Artificial e Computacional (CTDIAC).
A Fast and Scalable Manycore Implementation for an On-Demand Learning to Rank Method
2016. WSCAD - Simpósio em Sistemas Computacionais de Alto Desempenho.

Resumos expandidos em congressos

Rank Fusion and Multimodal Per-topic Adaptiveness for Diverse Image Retrieval
2017. MediaEval 2017 Workshop and Conference and Labs of the Evaluation Forum (CLEF 2017).
The LExR Collection for Expertise Retrieval in Academia
2016. the 39th International ACM SIGIR conference.
Combining Classifiers and User Feedback for Disambiguating Author Names
2015. the 15th ACM/IEEECE.
Automatic Methods for Disambiguating Author Names in Bibliographic Data Repositories
2015. the 15th ACM/IEEECE.
Recod @ MediaEval 2015: Diverse Social Images Retrieval
2015. MediaEval 2015 Multimedia Benchmark Workshop.

Resumos em congressos

A practical and effective sampling selection strategy for large scale deduplication
2016. 2016 IEEE 32nd International Conference on Data Engineering (ICDE).
Métodos Automáticos para Desambiguação de Nomes de Autores em Repositórios de Dados Bibliográficos
2014. Simpósio Brasileiro de Bancos de Dados.
From Concepts to Implementation and Visualization: Tools from a Team-Based Approach to IR
2008. 31st Annual International ACM SIGIR Conference.
PIM through a 5S Perspective
2007. ACM IEEE Joint Conference on Digital Libraries.
5SQual - A Quality Assessment Tool for Digital Libraries
2007. ACM/IEEE Joint Conference on Digital Libraries.

Veja todas as publicações no Currículo Lattes

Orientações em andamento

Mestrado

Pedro Rodrigues. Risco em Ranking. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Pablo Luiz Figueira. Automatic Generation of Initial Reading Lists: Requirements and Solutions. Início: 2019. Universidade Federal de Minas Gerais (Co orientador)
Christian Reis. Stacking (Blending) of Deep Learners. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)

Doutorado

Claudio Valiense. Combinação de Representações para Aprendizado de Maquina. Início: 2020. Universidade Federal de Minas Gerais (Orientador principal)
Celso França. Code Retrieval. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Amir Khatib. Fine-grained tourism prediction: Impact of social and environmental features. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Vitor Mangaravite. Bag of Textual Graphs. Início: 2019. Universidade Federal de Minas Gerais (Orientador principal)
Liziane Soares. Interpretabilidade de Modelos de Classifiacao. Início: 2017. Universidade Federal de Minas Gerais (Orientador principal)
Felipe Augusto Resende Viegas. Exploiting Efficient and Effective and Bayesian Strategies for Text Classification. Início: 2015. Universidade Federal de Minas Gerais (Orientador principal)
Reinaldo Fortes. Combinação de Recomendadores. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)
Rodrigo Silva. Active Learning for Learning to Rank. Início: 2013. Universidade Federal de Minas Gerais (Orientador principal)

Veja todas as orientações no Currículo Lattes