นักวิชาการความหมาย

Article

July 5, 2022

Semantic Scholar เป็นเสิร์ชเอ็นจิ้นที่ได้รับการสนับสนุนด้านปัญญาประดิษฐ์สำหรับสิ่งพิมพ์ทางวิชาการที่พัฒนาขึ้นที่ Allen Institute for AI และเผยแพร่สู่สาธารณะในเดือนพฤศจิกายน 2015 โดยใช้ความก้าวหน้าในการประมวลผลภาษาธรรมชาติเพื่อจัดทำบทสรุปสำหรับเอกสารทางวิชาการ ทีม Semantic Scholar กำลังค้นคว้าเกี่ยวกับการใช้ปัญญาประดิษฐ์ในการประมวลผลภาษาธรรมชาติ การเรียนรู้ของเครื่อง ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ และการดึงข้อมูลอย่างแข็งขัน Semantic Scholar เริ่มต้นจากฐานข้อมูลที่เกี่ยวกับวิทยาการคอมพิวเตอร์ ธรณีศาสตร์ และประสาทวิทยา อย่างไรก็ตาม ในปี 2560 ระบบเริ่มรวมวรรณกรรมชีวการแพทย์ไว้ในคลังข้อมูล ณ เดือนพฤศจิกายน 2564 ปัจจุบันมีสิ่งพิมพ์จากทุกสาขาวิชา

เทคโนโลยี

Semantic Scholar ให้ข้อมูลสรุปวรรณกรรมทางวิทยาศาสตร์เพียงประโยคเดียว จุดมุ่งหมายประการหนึ่งคือเพื่อจัดการกับความท้าทายในการอ่านหนังสือจำนวนมากและบทคัดย่อยาวๆ บนอุปกรณ์พกพา นอกจากนี้ยังพยายามทำให้แน่ใจว่าเอกสารทางวิทยาศาสตร์สามล้านฉบับที่ตีพิมพ์ทุกปีเข้าถึงผู้อ่าน เนื่องจากคาดว่ามีเพียงครึ่งหนึ่งของวรรณกรรมนี้ที่เคยอ่าน ปัญญาประดิษฐ์ใช้เพื่อจับสาระสำคัญของกระดาษ สร้างขึ้นโดยใช้เทคนิค "นามธรรม" โปรเจ็กต์ใช้การผสมผสานระหว่างแมชชีนเลิร์นนิง การประมวลผลภาษาธรรมชาติ และแมชชีนวิชัน เพื่อเพิ่มชั้นของการวิเคราะห์เชิงความหมายให้กับวิธีการวิเคราะห์การอ้างอิงแบบดั้งเดิม และเพื่อแยกตัวเลข ตาราง หน่วยงาน และสถานที่ที่เกี่ยวข้องออกจากเอกสาร ตรงกันข้ามกับ Google Scholar และ PubMed, Semantic Scholar ได้รับการออกแบบมาเพื่อเน้นองค์ประกอบที่สำคัญและมีอิทธิพลมากที่สุดของกระดาษ เทคโนโลยี AI ได้รับการออกแบบมาเพื่อระบุการเชื่อมต่อที่ซ่อนอยู่และการเชื่อมโยงระหว่างหัวข้อการวิจัย เช่นเดียวกับเครื่องมือค้นหาที่อ้างถึงก่อนหน้านี้ Semantic Scholar ยังใช้ประโยชน์จากโครงสร้างกราฟ ซึ่งรวมถึง Microsoft Academic Knowledge Graph, SciGraph ของ Springer Nature และ Semantic Scholar Corpus กระดาษแต่ละฉบับที่โฮสต์โดย Semantic Scholar ถูกกำหนดตัวระบุที่ไม่ซ้ำกันซึ่งเรียกว่า Semantic Scholar Corpus ID ( ย่อมาจาก S2CID) รายการต่อไปนี้เป็นตัวอย่าง: หลิว, หญิง; แกรี อัลเบิร์ต เอ; ไวล์เดอร์-สมิธ, แอนลีส์; Rocklöv, Joacim (มีนาคม 2020). "จำนวนการสืบพันธุ์ของ COVID-19 นั้นสูงกว่าเมื่อเทียบกับ SARS coronavirus" วารสารเวชศาสตร์การเดินทาง. 27 (2). ดอย:10.1093/jtm/taaa021. PMID 32052846 S2CID 211099356 Semantic Scholar ใช้งานได้ฟรีและไม่เหมือนกับเครื่องมือค้นหาที่คล้ายกัน (เช่น Google Scholar) ที่จะไม่ค้นหาเนื้อหาที่อยู่เบื้องหลัง paywall การศึกษาหนึ่งเปรียบเทียบความสามารถในการค้นหาของ Semantic Scholar ผ่านวิธีการที่เป็นระบบ และพบว่า เสิร์ชเอ็นจิ้นมีความแม่นยำ 98.88% เมื่อพยายามเปิดเผยข้อมูล การศึกษาเดียวกันนี้ได้ตรวจสอบฟังก์ชัน Semantic Scholar อื่นๆ รวมถึงเครื่องมือในการสำรวจข้อมูลเมตา ตลอดจนเครื่องมืออ้างอิงต่างๆ

จำนวนผู้ใช้และสิ่งพิมพ์

ในเดือนมกราคม 2018 หลังจากโครงการ 2017 ที่เพิ่มเอกสารชีวการแพทย์และบทสรุปหัวข้อ คลังข้อมูล Semantic Scholar รวมเอกสารมากกว่า 40 ล้านฉบับจากวิทยาการคอมพิวเตอร์และชีวการแพทย์ ในเดือนมีนาคม 2018 Doug Raymond ผู้พัฒนาโปรแกรมการเรียนรู้ของเครื่องสำหรับแพลตฟอร์ม Amazon Alexa ได้รับการว่าจ้างให้เป็นผู้นำโครงการ Semantic Scholar ณ เดือนสิงหาคม 2019 จำนวนข้อมูลเมตาของเอกสารที่รวมอยู่ (ไม่ใช่ PDF จริง) เพิ่มขึ้นเป็นมากกว่า 173 ล้านหลังจากการเพิ่มบันทึก Microsoft Academic Graph ในปี 2020 ความร่วมมือระหว่าง Semantic Scholar และ University of Chicago Press Journals ทำให้บทความทั้งหมดที่ตีพิมพ์ภายใต้ University of Chicago Press มีอยู่ในคลังข้อมูล Semantic Scholar ณ สิ้นปี 2020 Semantic Scholar ได้จัดทำดัชนีเอกสาร 190 ล้านฉบับ ในปี 2020 ผู้ใช้ Semantic Scholar มีจำนวนถึงเจ็ดล้านฉบับต่อเดือน

ดูเพิ่มเติม

การวิเคราะห์การอ้างอิง – การตรวจสอบความถี่ รูปแบบ และกราฟของการอ้างอิงในเอกสาร ดัชนีอ้างอิง – ดัชนีการอ้างอิงระหว่างสิ่งพิมพ์ การสกัดความรู้ – การสร้างความรู้จากแหล่งที่มีโครงสร้างและไม่มีโครงสร้าง รายชื่อฐานข้อมูลทางวิชาการและเครื่องมือค้นหา ไซเอนตอม