เรากำลังเผชิญกับวิกฤตทางวิทยาศาสตร์จอมปลอม และ AI ก็ทำให้มันแย่ลงไปอีก

เรากำลังเผชิญกับวิกฤตทางวิทยาศาสตร์จอมปลอม และ AI ก็ทำให้มันแย่ลงไปอีก

เว็บไซต์

วารสารกำลังหดเอกสารมากขึ้นเรื่อย ๆ เนื่องจากไม่ใช่โดยผู้เขียนที่พวกเขาอ้างว่าเป็น เราต้องการวิธีแก้ปัญหาที่ดีกว่านี้ มิฉะนั้น เราเสี่ยงที่จะบ่อนทำลายความเชื่อมั่นของสาธารณชนในการวิจัยโดยสิ้นเชิง
แนวปฏิบัติทางวิทยาศาสตร์เกี่ยวข้องกับการพยายามค้นหาสิ่งต่าง ๆ เกี่ยวกับโลกโดยใช้ตรรกะที่เข้มงวดและทดสอบทุกข้อสันนิษฐาน จากนั้นนักวิจัยจะเขียนผลการวิจัยที่สำคัญลงในเอกสารและส่งเพื่อตีพิมพ์ หลังจากกระบวนการตรวจสอบโดยเพื่อน ซึ่งนักวิทยาศาสตร์คนอื่นๆ ตรวจสอบว่าการวิจัยถูกต้อง วารสารจะตีพิมพ์เอกสารเพื่อการบริโภคของสาธารณะ

การออกแบบเว็บไซต์

คุณจึงอาจเชื่ออย่างมีเหตุผลว่าเอกสารที่ตีพิมพ์มีความน่าเชื่อถือและเป็นไปตามมาตรฐานคุณภาพสูง คุณอาจคาดหวังข้อผิดพลาดเล็กๆ น้อยๆ ที่มองข้ามไประหว่างการตรวจสอบโดยเพื่อน แต่ไม่มีข้อผิดพลาดที่สำคัญ มันคือวิทยาศาสตร์!
คุณคิดผิดที่คาดหวังสิ่งนี้ วิทยาศาสตร์ที่แท้จริงและดีมีอยู่จริง แต่ก็มีงานวิจัยปลอมจำนวนมากที่น่าเป็นห่วงเช่นกัน และในไม่กี่ปีที่ผ่านมาก็มีเพิ่มขึ้นในปริมาณที่ความเร็วฟ้าผ่าเป็นหลักฐานด้วยจำนวนที่พุ่งสูงขึ้นจากกระดาษถอน
วิทยาศาสตร์ปลอม
การปฏิบัติหลายอย่างในปัจจุบันคุกคามที่จะบ่อนทำลายความชอบธรรมของการวิจัยทางวิทยาศาสตร์ พวกเขารวมถึงผู้เขียนที่แต่งขึ้น การเพิ่มนักวิทยาศาสตร์ที่ไม่มีส่วนเกี่ยวข้องกับบทความในฐานะผู้เขียนร่วม และการปฏิบัติที่ชั่วร้ายยิ่งกว่า เช่น วารสารล้นมือด้วยการส่งจากขยะคุณภาพต่ำที่เขียนโดย AI
กระบวนการนี้คล้ายกับการเรียกคืนที่ร้านขายของชำ หากผลิตภัณฑ์ที่ขายไปก่อนหน้านี้ไม่ดีหรือเป็นอันตรายด้วยเหตุผลบางประการ ร้านค้าอาจตัดสินใจเรียกคืนและขอให้ลูกค้าทุกคนไม่ใช้ ในทำนองเดียวกัน วารสารสามารถเรียกคืนบทความที่ตีพิมพ์ซึ่งเมื่อมองย้อนกลับไปแล้วพบว่าเป็นบทความปลอม
แน่นอน บางครั้งเอกสารก็ถูกเพิกถอนเนื่องจากผู้เขียนทำผิดพลาดอย่างตรงไปตรงมาในการค้นคว้า อย่างไรก็ตาม มากกว่าครึ่งนั้นเป็นเพราะการประพฤติมิชอบทางวิชาการหรือการฉ้อโกง จนกระทั่งเมื่อ 10 ปีที่แล้ว พฤติกรรมแบบนี้ถูกจำกัดให้นักวิจัยปลอมแปลงข้อมูลการทดลองหรือผลการบิดเบือนเพื่อสนับสนุนทฤษฎีของพวกเขา เทคโนโลยีที่ซับซ้อนมากขึ้นได้กลายเป็นสิ่งที่ซับซ้อนมากขึ้น
วิธีแก้ไขง่ายๆ วิธีหนึ่งก็คือการเพิกเฉยต่อเอกสารปลอม อย่างไรก็ตาม ปัญหาก็คือพวกเขามักจะระบุได้ยาก นอกจากนี้ เมื่อดึงกระดาษออกจากสิ่งพิมพ์แล้ว จะทำให้วารสารทั้งหมดมัวหมองเล็กน้อย ปล่อยให้เรื่องนี้เกิดขึ้นบ่อยครั้งพอและประชาชน ‘ความเชื่อมั่นในด้านวิทยาศาสตร์โดยรวมจะลดลง ดังนั้น วงการวิทยาศาสตร์โดยรวมจึงต้องให้ความสำคัญกับปัญหานี้อย่างจริงจัง
คามิลล์ โนส
บางส่วนของปัญหานี้เป็นแบบแอนะล็อก Camille Noûs ไม่มีส่วนเกี่ยวข้องกับ AI มากนัก แต่ก็สมควรได้รับการกล่าวถึง เกิดในเดือนมีนาคม 2020 Noûs ได้ร่วมเขียนบทความมากกว่า 180 ฉบับในสาขาต่างๆ เช่น ดาราศาสตร์ฟิสิกส์ วิทยาการคอมพิวเตอร์ และชีววิทยา
ฉันกำลังพูดว่า “มัน” เพราะ Noûs ไม่ใช่คนจริง แต่มันเป็นสิ่งประดิษฐ์ที่คิดค้นโดยชาวฝรั่งเศสกลุ่มวิจัยสนับสนุนRogueESR โดยมีชื่อแรกของภาษาฝรั่งเศสว่า Camille และคำภาษากรีกโบราณว่า “νοῦς” ซึ่งหมายถึงเหตุผลหรือความรู้ความเข้าใจ และคำภาษาฝรั่งเศส “nous” ซึ่งแปลว่า “เรา”
Noûs ถูกสร้างขึ้นเพื่อตอบสนองต่อกฎหมายใหม่ที่วิพากษ์วิจารณ์อย่างหนัก(แหล่งที่มาในภาษาฝรั่งเศส) เพื่อจัดระเบียบการวิจัยทางวิชาการในฝรั่งเศสใหม่ แม้ว่ากฎหมายมีวัตถุประสงค์เพื่อทำให้การวิจัยดีขึ้น แต่นักวิจารณ์คิดว่างานของนักวิทยาศาสตร์จะไม่ปลอดภัยอย่างไม่เป็นธรรมและขึ้นอยู่กับเงินทุนภายนอกภายใต้ข้อกำหนด โดยเฉพาะอย่างยิ่ง เงินทุนที่นักวิทยาศาสตร์ได้รับต้องขึ้นอยู่กับความสำเร็จที่ผ่านมา แม้ว่าการวิจัยมักจะเป็นความพยายามของชุมชนก็ตาม
เพื่อให้ข้อกังวลนี้ปรากฏให้เห็น นักวิจัยหลายคนเลือกที่จะเพิ่ม Noûs เป็นผู้เขียนร่วม วารสารและผู้ตรวจสอบเอกสารที่มีหน้าที่ตรวจสอบเอกสารเหล่านั้นมักไม่ได้รับแจ้งเสมอไปว่า Noûs ไม่ใช่บุคคลจริง
แม้ว่าส่วนการวิจัยของเอกสารเหล่านี้ทั้งหมดจะดูเหมือนถูกกฎหมาย แต่ก็ทำให้เกิดความกังวลว่าสามารถเพิ่มผู้เขียนร่วมที่ไม่มีแม้แต่บัตรประจำตัวได้อย่างง่ายดาย แม้ว่าการเน้นย้ำความพยายามของชุมชนกับนักเขียนเช่น Noûs จะเป็นเป้าหมายที่มีเกียรติ แต่แนวคิดที่ว่านักวิทยาศาสตร์สามารถประดิษฐ์ขึ้นจากอากาศบาง ๆ ได้ในยุคนี้และอายุนี้ค่อนข้างน่าตกใจ
การเพิ่มผู้แต่งในที่ที่ไม่อยู่ Be
การเน้นย้ำถึงข้อบกพร่องของระบบ peer-review และสถาบันการศึกษาไม่ใช่ที่เดียวที่ปัญหานี้แสดงออกมา โดยเฉพาะอย่างยิ่งในเอกสารเกี่ยวกับ AI มีกรณีการประพันธ์ร่วมปลอมเพิ่มขึ้น การหลอกลวงนี้รวมถึงการฝึกฝนการเพิ่มนักวิทยาศาสตร์ที่มีชื่อเสียงเป็นผู้เขียนร่วมโดยที่พวกเขาไม่รู้หรือยินยอม อีกวิธีในการดำเนินการนี้คือการเพิ่มผู้ร่วมเขียนเรื่องสมมติ เช่น Camille Noûs แต่มีเป้าหมายในการแสร้งทำเป็นความร่วมมือระหว่างประเทศหรือวาทกรรมทางวิทยาศาสตร์ในวงกว้าง
นอกเหนือจากการสร้างภาพลวงตาของความร่วมมือระหว่างประเทศแล้ว การเพิ่มผู้เขียนปลอมที่มีข้อมูลประจำตัวที่น่านับถืออาจส่งผลต่อความน่าเชื่อถือของบทความ นักวิทยาศาสตร์หลายคนจะ Google ชื่อผู้เขียนทั้งหมดก่อนที่จะอ่านบทความหรืออ้างอิงในงานของพวกเขา แต่การได้เห็นผู้เขียนร่วมจากสถาบันที่มีชื่อเสียงอาจโน้มน้าวให้พวกเขามองดูบทความอย่างใกล้ชิด โดยเฉพาะอย่างยิ่งหากยังไม่ได้รับการตรวจสอบโดยเพื่อน ศักดิ์ศรีของสถาบันสามารถทำหน้าที่เป็นตัวแทนสำหรับความน่าเชื่อถือจนกว่าการตรวจสอบโดยเพื่อนซึ่งอาจใช้เวลาหลายเดือนจะเสร็จสิ้น
ยังไม่ชัดเจนว่ามีการเพิ่มผู้เขียนปลอมกี่คนจนถึงปัจจุบัน ประการหนึ่ง นักวิทยาศาสตร์บางคนอาจเลือกที่จะเพิกเฉยต่อความจริงที่ว่าชื่อของพวกเขาอยู่ในกระดาษที่พวกเขาไม่ได้เขียน โดยเฉพาะอย่างยิ่งเนื่องจากเนื้อหาของบทความที่เป็นปัญหามักจะไม่เลวร้าย (แต่ไม่มาก) และการดำเนินการทางกฎหมายก็สามารถเกิดขึ้นได้เช่นกัน มีราคาแพงและใช้เวลานาน นอกจากนี้ ปัจจุบันยังไม่มีวิธีการมาตรฐานในการตรวจสอบตัวตนของนักวิทยาศาสตร์ก่อนที่จะเผยแพร่บทความ นี้จะช่วยให้ผู้เขียนปลอมผ่านฟรี
ปัญหาทั้งหมดเหล่านี้แสดงให้เห็นถึงความจำเป็นของกระบวนการตรวจสอบบัตรประจำตัวบางประเภท ขณะนี้ไม่มีสิ่งใดเป็นทางการแล้วและนั่นเป็นความอัปยศ ในยุคสมัยที่ทุกธนาคารสามารถตรวจสอบ ID ของคุณทางออนไลน์และจับคู่กับใบหน้าบนเว็บแคมของคุณได้ วิทยาศาสตร์ไม่สามารถแม้แต่จะปกป้องผู้ร่วมให้ข้อมูลที่มีค่าที่สุดจากผู้หลอกลวงได้
อัลกอริทึมกำลังสร้างบทความที่ไม่ดี
ในปี 1994 นักฟิสิกส์ Alan Sokal รู้สึกอยากเขียนบทความปลอมเกี่ยวกับบางวิชาที่เกี่ยวข้องกับมนุษยศาสตร์และส่งไปยังวารสาร มันได้รับการยอมรับถึงแม้จะไม่มีใครรวมทั้งผู้เขียนเองเข้าใจสิ่งที่เขาพูด ไม่เพียงแต่เรื่องตลกเท่านั้น แต่ยังแสดงให้เห็นว่าผู้วิจารณ์ที่เกียจคร้านสามารถทำอะไรได้บ้าง ในกรณีนี้ พวกเขายอมรับอย่างแท้จริงว่าอะไรคือบทความที่พูดพล่อยๆ
ในทำนองเดียวกัน ในปี 2548 นักศึกษาวิทยาการคอมพิวเตอร์สามคนตัดสินใจพัฒนาSCIgen เพื่อเป็นการล้อเล่นในโลกของการวิจัย โปรแกรมนี้จัดทำเอกสารที่ไร้สาระอย่างสมบูรณ์พร้อมกราฟ ตัวเลข และการอ้างอิง เต็มไปด้วยคำศัพท์มากมายจากวิทยาการคอมพิวเตอร์ เอกสารที่พูดพล่อยๆ ฉบับหนึ่งของพวกเขาได้รับการยอมรับให้เข้าร่วมการประชุมในขณะนั้น ยิ่งไปกว่านั้น ในปี 2013 ผู้จัดพิมพ์หลายรายถอนเอกสาร 120 ฉบับหลังจากที่พบว่า SCIgen เป็นคนเขียน ในปี 2015 ไซต์ยังคงมีการเข้าชม 600,000 หน้าต่อปี

เว็บแอพพลิเคชั่น

น่าเสียดายที่เอกสารปลอมไม่ได้สร้างขึ้นเพื่อเป็นการแกล้งเท่านั้น บริษัททั้งหมดทำเงินโดยเขียนเอกสารไร้สาระและส่งไปยังวารสารที่กินสัตว์ร้ายซึ่งแทบจะไม่ปฏิเสธอะไรเลยเพราะพวกเขาคิดค่าธรรมเนียมสำหรับการจัดพิมพ์ บริษัทดังกล่าว หรือที่เรียกกันว่าโรงงานกระดาษกำลังมีวิธีการที่ซับซ้อนมากขึ้นเรื่อยๆ แม้ว่าการตรวจจับการฉ้อโกงจะดีขึ้นเช่นกัน แต่ผู้เชี่ยวชาญก็มีความกลัวที่ถูกต้องว่านักแสดงที่ไร้ยางอายเหล่านี้ซึ่งได้ฝึกฝนฝีมือของพวกเขาโดยมุ่งเป้าไปที่วารสารคุณภาพต่ำแล้ว อาจพยายามทำให้คนจริงต้องท่วมท้นต่อไป นี้อาจนำไปสู่การแข่งขันอาวุธระหว่างโรงงานกระดาษและวารสารที่ไม่ต้องการเผยแพร่งานปลอม
แน่นอน มีคำถามอื่นรออยู่: มนุษย์จะเป็นคนเดียวที่เขียนรายงานการวิจัยได้นานแค่ไหน? เป็นไปได้ไหมว่าภายใน 10 หรือ 20 ปี อัลกอริธึมที่ขับเคลื่อนด้วย AI สามารถกรองวรรณกรรมจำนวนหนึ่งและสรุปผลในบทความใหม่ที่บรรลุมาตรฐานการวิจัยสูงสุดได้โดยอัตโนมัติ เราจะให้เครดิตกับอัลกอริทึมเหล่านี้หรือผู้สร้างได้อย่างไร
แม้ว่าวันนี้ เรากำลังเผชิญกับคำถามที่โง่เง่ากว่านั้น: เราจะระบุเอกสารที่เขียนด้วยอัลกอริธึมที่ค่อนข้างไม่ซับซ้อนและไม่ผลิตเนื้อหาที่สมเหตุสมผลได้อย่างไร และเราจะจัดการกับพวกเขาอย่างไร? นอกเหนือจากความพยายามของอาสาสมัครและการบังคับให้ผู้เขียนที่ฉ้อฉลให้ถอนเอกสารของพวกเขา ชุมชนวิทยาศาสตร์ยังมีคำตอบสำหรับคำถามนั้นน้อยมาก
พระราชบัญญัติต่อต้านวิทยาศาสตร์ปลอม
วารสารส่วนใหญ่ที่มีชื่อเสียงดีที่จะสูญเสีย อย่างน้อย กระบวนการตรวจสอบอีเมลขั้นพื้นฐานสำหรับนักวิจัยที่ต้องการส่งบทความ นี่ยกตัวอย่างเช่นเป็นระบบการตรวจสอบสำหรับวารสารวิทยาศาสตร์ อย่างไรก็ตาม การตั้งค่าที่อยู่อีเมลปลอมและดำเนินการตามขั้นตอนนั้นค่อนข้างง่าย การฉ้อโกงประเภทนี้ยังคงเกิดขึ้นอยู่บ่อยครั้งดังที่เห็นได้จากเอกสารจำนวนมหาศาลที่ถูกถอนออกจากวารสารที่มีชื่อเสียงในแต่ละปี ดังนั้น เราต้องการระบบที่แข็งแกร่งกว่านี้
วิธีการหนึ่งที่ดีในการตรวจสอบตัวตนของนักวิทยาศาสตร์คือORCID โดยพื้นฐานแล้ว ผ่านระบบนี้ นักวิจัยทุกคนสามารถรับตัวระบุที่ไม่ซ้ำกัน ซึ่งจะเชื่อมโยงกับบันทึกการติดตามของพวกเขาโดยอัตโนมัติ การใช้ ORCID ตลอดกระบวนการทบทวนและตีพิมพ์วารสารจะทำให้ยากขึ้นมากในการสร้างตัวตนปลอมหรือใช้ข้อมูลประจำตัวของนักวิจัยคนอื่นโดยปราศจากความรู้หรือความยินยอม แม้ว่านี่จะเป็นความคิดริเริ่มที่ดีมาก แต่ไม่มีวารสารสำคัญใดที่แสดงผลตัวระบุจาก ORCID หรือที่อื่น ๆ ที่จำเป็นสำหรับผู้เขียนทุกคน เป็นเรื่องที่น่าละอายในความคิดของฉันและบางสิ่งที่สามารถแก้ไขได้ค่อนข้างง่าย
ในที่สุด AI อาจมีประโยชน์ในการต่อสู้ครั้งนี้ วารสารบางฉบับกำลังปรับใช้โมเดล AI เพื่อตรวจจับการบริจาคปลอม อย่างไรก็ตาม ณ ตอนนี้ วารสารยังไม่สามารถตกลงมาตรฐานร่วมกันได้ ด้วยเหตุนี้ วารสารที่ขาดทรัพยากรหรือความเชี่ยวชาญจึงไม่สามารถใช้มาตรการด้านคุณภาพแบบเดียวกับสิ่งพิมพ์ที่มีอันดับสูงกว่าได้
สิ่งนี้ทำให้ช่องว่างระหว่างวารสารระดับสูงและระดับล่างกว้างขึ้น และสำหรับฉัน หลักฐานที่ชัดเจนว่าวารสารทั่วกระดานควรรวมตัวกันและหาวิธีแบ่งปันทรัพยากรสำหรับการตรวจจับการฉ้อโกง แน่นอนว่าวารสารระดับสูงอาจได้กำไรจากการขาดการแข่งขันในระยะสั้น อย่างไรก็ตาม ในระยะยาว การมีวารสารที่มีมาตรฐานต่ำมากขึ้นอาจทำให้ความเชื่อมั่นในการตีพิมพ์ทางวิทยาศาสตร์โดยรวมลดลง
ไม่ใช่ว่านักวิจัยและวารสารวิทยาศาสตร์กำลังนั่งอยู่บนลาที่เกียจคร้านแทนที่จะติดตามผู้เขียนที่ฉ้อฉล อันที่จริงแล้ว สิ่งพิมพ์แต่ละฉบับกำลังดำเนินการหลายอย่างเพื่อติดตามเอกสารปลอม แต่ถ้าวารสารบางฉบับมีแนวทางและบางฉบับไม่มี สิ่งพิมพ์ก็ไม่ได้อยู่ในสนามแข่งขันที่เท่าเทียมกัน นอกจากนี้ นักต้มตุ๋นยังสามารถกำหนดเป้าหมายวารสารที่มีเงินทุนไม่เพียงพอด้วยเอกสารปลอมของพวกเขา วารสารจำเป็นต้องดำเนินการร่วมกันเพื่อหาวิธีติดตามโรงงานกระดาษและยืนยันตัวตนของผู้เขียนทั้งหมด
เหนือกว่าวิทยาศาสตร์: ข่าวปลอมกำลังกลายเป็นของปลอม
หากคุณคิดว่าเนื้อหาปลอมเป็นปัญหาเฉพาะทางวิทยาศาสตร์ คุณคิดผิด เมื่อไม่กี่ปีที่ผ่านมา ในช่วงที่ทรัมป์กำลังรุ่งเรือง “ข่าวปลอม” เป็นคำศัพท์ประจำฤดูกาล วิธีการสร้างเนื้อหาเพื่อโน้มน้าวความคิดเห็นของสาธารณชนก็มีความซับซ้อนมากขึ้นตั้งแต่นั้นมา และพวกเขาก็มีความคล้ายคลึงกับเอกสารวิทยาศาสตร์ปลอมอย่างมาก
ตัวอย่างเช่นนักข่าวปลอมเป็นผู้เขียนบทบรรณาธิการที่เห็นได้ชัดในช่องทางอนุรักษ์นิยมต่างๆ ภาพศีรษะของพวกเขาถูกสร้างขึ้นด้วยอัลกอริทึม AI บัญชี LinkedIn และ Twitter ของพวกเขาเป็นบัญชีปลอมทั้งหมด และยังไม่ชัดเจนว่าใครอยู่เบื้องหลังบทความเหล่านี้

Web​ application

นอกจากนี้ยังมีข่าวปลอมบทความกำเนิดที่ทำให้การสร้างพาดหัวข่าวปลอมง่าย แม้ว่าคุณอาจไม่สามารถโน้มน้าวให้ผู้ตรวจสอบข้อเท็จจริงที่มีประสบการณ์เกี่ยวกับเนื้อหาดังกล่าวได้ แต่คุณอาจสร้างความประทับใจให้ผู้ใช้ Facebook โดยเฉลี่ยด้วยเนื้อหาดังกล่าวได้มากพอที่จะโน้มน้าวให้พวกเขาแบ่งปันบทความ
นั่นเป็นสาเหตุที่ตัวฉันเองมักจะเชื่อถือเฉพาะข่าวและวิทยาศาสตร์จากแหล่งที่เชื่อถือได้ หรือเนื้อหาที่ฉันสามารถตรวจสอบข้ามได้มากพอที่จะระบุได้ว่ามันเป็นเรื่องจริง ฉันเพิกเฉยต่อแหล่งข้อมูลอื่นๆ โดยสิ้นเชิง เพราะฉันรู้ว่าแหล่งข้อมูลส่วนใหญ่มีตั้งแต่ “ผิดพลาดนิดหน่อย” ไปจนถึง “แต่งขึ้นทั้งหมด”
ฉันไม่ได้มีทัศนคติแบบนั้นเมื่อสองสามปีก่อน คนรอบข้างก็เช่นกัน ความเชื่อมั่นในข่าวลดลงอย่างมาก และฉันไม่รู้ว่าเราจะกู้คืนได้อย่างไร ตอนนี้ สิ่งที่เกิดขึ้นแล้วกับข่าวกำลังเกิดขึ้นกับวิทยาศาสตร์ ไม่ดีพอที่จะค้นหาความจริงเกี่ยวกับสิ่งที่เกิดขึ้นในโลกได้ยาก แต่ถ้ารากฐานของความรู้ของมนุษย์พังทลายลง นั่นจะเป็นหายนะที่ยิ่งใหญ่กว่า
แม้ว่าการโต้เถียงกันเกี่ยวกับข่าวปลอมได้หมดลงแล้วตั้งแต่การเลือกตั้งในปี 2563 ก็ยังห่างไกลจากคำว่าจบ เนื่องจากเครื่องมือในการปลอมแปลงเนื้อหายังคงมีความซับซ้อนมากขึ้นเรื่อย ๆ ฉันเชื่อว่าการสนทนาจะได้รับเชื้อเพลิงมากขึ้นในปีต่อ ๆ ไป หวังว่าจากนั้นเราจะมีรายได้ถึงฉันทามติเกี่ยวกับวิธีการที่จะต่อสู้กับเนื้อหาปลอม – การวิจัยและการปลอมมากเกินไป
บริษัทต่างๆ มีความสนใจอย่างมากในการสื่อสารข้อมูลวิเคราะห์เชิงคาดการณ์ตาม ML ให้กับลูกค้าของตนอย่างชัดเจน ไม่ว่าโมเดลจะมีความแม่นยำเพียงใด ลูกค้าต้องการทราบว่าโมเดลการเรียนรู้ของเครื่องสร้างการคาดการณ์จากข้อมูลได้อย่างไร ตัวอย่างเช่น หากบริษัทที่สมัครรับข้อมูลสนใจที่จะหาลูกค้าที่มีความเสี่ยงสูงที่จะยกเลิกการสมัครรับข้อมูล พวกเขาสามารถใช้ข้อมูลลูกค้าในอดีตเพื่อคาดการณ์แนวโน้มที่จะมีคนออก
จากนั้นพวกเขาต้องการวิเคราะห์ปัจจัยที่ขับเคลื่อนเหตุการณ์นี้ ด้วยการทำความเข้าใจปัจจัยขับเคลื่อน พวกเขาสามารถดำเนินการเช่นโปรโมชั่นหรือส่วนลดที่ตรงเป้าหมายเพื่อป้องกันไม่ให้ลูกค้าออกไป หากไม่เข้าใจปัจจัยที่มีอิทธิพลต่อผลลัพธ์ใดๆ การใช้โมเดลการเรียนรู้ของเครื่องในการตัดสินใจจึงเป็นเรื่องยาก
วิธีทั่วไปที่บริษัทสื่อสารข้อมูลเชิงลึกและผลลัพธ์ของโมเดลการเรียนรู้ของเครื่องคือผ่านแดชบอร์ดการวิเคราะห์ เครื่องมือต่างๆ เช่น Tableau, Alteryx หรือแม้แต่เครื่องมือที่กำหนดเองโดยใช้เฟรมเวิร์กของเว็บ เช่น Django หรือ Flask ทำให้การสร้างแดชบอร์ดเหล่านี้เป็นเรื่องง่าย
STREAMLIT
Streamlit เป็นไลบรารี่ที่ใช้ Python ซึ่งช่วยให้นักวิทยาศาสตร์ด้านข้อมูลสร้างแอปพลิเคชันการเรียนรู้ของเครื่องฟรีได้อย่างง่ายดาย คุณสามารถอ่านโมเดลที่บันทึกไว้และโต้ตอบกับโมเดลได้อย่างง่ายดายด้วยอินเทอร์เฟซที่ใช้งานง่ายและเป็นมิตรกับผู้ใช้ ช่วยให้คุณแสดงข้อความอธิบายและเอาต์พุตของโมเดล แสดงภาพข้อมูลและประสิทธิภาพของโมเดล แก้ไขอินพุตของโมเดลผ่าน UI โดยใช้แถบด้านข้าง และอื่นๆ อีกมากมาย เป็นเฟรมเวิร์กที่เรียนรู้ได้ง่ายซึ่งช่วยให้ทีมวิทยาศาสตร์ข้อมูลสร้างเว็บแอปพลิเคชันการวิเคราะห์การคาดการณ์ได้ฟรีภายในเวลาเพียงไม่กี่ชั่วโมง
อย่างไรก็ตาม ในทางปฏิบัติ การสร้างแดชบอร์ดประเภทนี้มักจะมีราคาแพงและใช้เวลานานมาก ทางเลือกที่ดีสำหรับวิธีการแบบเดิมๆ คือการใช้ Streamlit Streamlit เป็นไลบรารี่ที่ใช้ Python ซึ่งช่วยให้คุณสามารถสร้างแอปพลิเคชันการเรียนรู้ของเครื่องฟรีได้อย่างง่ายดาย คุณสามารถอ่านโมเดลที่บันทึกไว้และโต้ตอบกับโมเดลได้อย่างง่ายดายด้วยอินเทอร์เฟซที่ใช้งานง่ายและเป็นมิตรกับผู้ใช้ ช่วยให้คุณแสดงข้อความอธิบายและเอาต์พุตของโมเดล แสดงภาพข้อมูลและประสิทธิภาพของโมเดล แก้ไขอินพุตของโมเดลผ่าน UI โดยใช้แถบด้านข้าง และอื่นๆ อีกมากมาย
โดยรวมแล้ว Streamlit เป็นเฟรมเวิร์กที่เรียนรู้ได้ง่ายซึ่งช่วยให้ทีมวิทยาศาสตร์ข้อมูลสามารถสร้างเว็บแอปพลิเคชันการวิเคราะห์เชิงคาดการณ์ได้ฟรีภายในเวลาเพียงไม่กี่ชั่วโมง Streamlit แกลเลอรี่แสดงให้เห็นหลายโครงการโอเพนซอร์สที่ได้ใช้มันสำหรับการวิเคราะห์และการเรียนรู้ของเครื่อง นอกจากนี้คุณยังสามารถค้นหาเอกสาร Streamlit ที่นี่

Robot Auto process

เนื่องจากความง่ายในการใช้งานและความเก่งกาจ คุณสามารถใช้ Streamlit เพื่อสื่อสารข้อมูลเชิงลึกที่หลากหลายได้ ซึ่งรวมถึงข้อมูลจากการวิเคราะห์ข้อมูลเชิงสำรวจ (EDA) ผลลัพธ์จากโมเดลการเรียนรู้ภายใต้การดูแล เช่น การจำแนกประเภทและการถดถอย และแม้แต่ข้อมูลเชิงลึกจากโมเดลการเรียนรู้ที่ไม่ได้รับการดูแล
เพื่อจุดประสงค์ของเรา เราจะพิจารณางานการจัดประเภทเพื่อคาดการณ์ว่าลูกค้าจะหยุดซื้อสินค้ากับบริษัทหนึ่งๆ หรือไม่ ซึ่งเป็นเงื่อนไขที่เรียกว่าการเลิกรา เราจะใช้ข้อมูล Telco churn ที่สมมติขึ้นสำหรับโครงการนี้