Érudit sémantique

Article

July 4, 2022

Semantic Scholar est un moteur de recherche basé sur l'intelligence artificielle pour les publications académiques développé à l'Allen Institute for AI et rendu public en novembre 2015. Il utilise les avancées du traitement du langage naturel pour fournir des résumés d'articles scientifiques. L'équipe de Semantic Scholar recherche activement l'utilisation de l'intelligence artificielle dans le traitement du langage naturel, l'apprentissage automatique, l'interaction homme-ordinateur et la recherche d'informations. Cependant, en 2017, le système a commencé à inclure la littérature biomédicale dans son corpus. Depuis novembre 2021, ils incluent désormais des publications de tous les domaines scientifiques.

Technologie

Semantic Scholar fournit un résumé en une phrase de la littérature scientifique. L'un de ses objectifs était de relever le défi de la lecture de nombreux titres et de longs résumés sur des appareils mobiles. Il vise également à garantir que les trois millions d'articles scientifiques publiés chaque année parviennent aux lecteurs, car on estime que seule la moitié de cette littérature est lue. L'intelligence artificielle est utilisée pour capturer l'essence d'un article, en le générant par une technique "abstraite". Le projet utilise une combinaison d'apprentissage automatique, de traitement du langage naturel et de vision artificielle pour ajouter une couche d'analyse sémantique aux méthodes traditionnelles d'analyse des citations et pour extraire des chiffres, des tableaux, des entités et des lieux pertinents à partir d'articles. Contrairement à Google Scholar et PubMed, Semantic Scholar est conçu pour mettre en évidence les éléments les plus importants et les plus influents d'un article. La technologie de l'IA est conçue pour identifier les connexions et les liens cachés entre les sujets de recherche. À l'instar des moteurs de recherche précédemment cités, Semantic Scholar exploite également des structures de graphes, notamment Microsoft Academic Knowledge Graph, Springer Nature's SciGraph et Semantic Scholar Corpus. Chaque article hébergé par Semantic Scholar se voit attribuer un identifiant unique appelé Semantic Scholar Corpus ID ( abrégé S2CID). L'entrée suivante est un exemple : Liu, Ying; Gayle, Albert A; Wilder-Smith, Annelies; Rocklöv, Joacim (mars 2020). "Le nombre reproducteur de COVID-19 est plus élevé que celui du coronavirus du SRAS". Journal de médecine de voyage. 27 (2). doi:10.1093/jtm/taaa021. PMID 32052846. S2CID 211099356. Semantic Scholar est libre d'utilisation et, contrairement aux moteurs de recherche similaires (c'est-à-dire Google Scholar), ne recherche pas le matériel qui se trouve derrière un paywall. Une étude a comparé les capacités de recherche de Semantic Scholar à travers une approche systématique et a trouvé le moteur de recherche pour être précis à 98,88% lors de la tentative de découverte des données. La même étude a examiné d'autres fonctions de Semantic Scholar, y compris des outils pour analyser les métadonnées ainsi que plusieurs outils de citation.

Nombre d'utilisateurs et de publications

En janvier 2018, à la suite d'un projet de 2017 qui a ajouté des articles biomédicaux et des résumés de sujets, le corpus Semantic Scholar comprenait plus de 40 millions d'articles d'informatique et de biomédecine. En mars 2018, Doug Raymond, qui a développé des initiatives d'apprentissage automatique pour la plateforme Amazon Alexa, a été embauché pour diriger le projet Semantic Scholar. En août 2019, le nombre de métadonnées d'articles incluses (et non les fichiers PDF réels) était passé à plus de 173 millions après l'ajout des enregistrements Microsoft Academic Graph. En 2020, un partenariat entre Semantic Scholar et University of Chicago Press Journals a rendu tous les articles publiés sous University of Chicago Press disponibles dans le corpus Semantic Scholar. Fin 2020, Semantic Scholar avait indexé 190 millions d'articles. En 2020, les utilisateurs de Semantic Scholar ont atteint les sept millions par mois.

Voir aussi

Analyse des citations - Examen de la fréquence, des modèles et des graphiques des citations dans les documents Index des citations - Index des citations entre les publications Extraction de connaissances - Création de connaissances à partir de sources structurées et non structurées Liste des bases de données académiques et des moteurs de recherche Scientôme