Digital Ventures

Back to blog

AI พ่อหมอ

DIGITAL VENTURES X CHAMP TEEPAGORN July 26, 2018 11:00 AM

2,714

แต่ไหนแต่ไรมนุษย์อยากล่วงรู้ในสิ่งที่ยังไม่เกิด ความผันผวนของเหตุการณ์พรางให้เราไม่อาจมีความสามารถนี้ เราเป็นสิ่งมีชีวิตที่อาศัยอยู่ในพื้นที่สามมิติ ไม่อาจหลุดพ้นไปมองสิ่งที่อยู่รอบตัวในมิติที่สี่ได้

อย่างไรก็ตาม เราก็ยังมีความสามารถเล็กๆ น้อยๆ ในการคาดเดา ‘เหตุการณ์ที่เป็นรูปแบบซ้ำๆ’ โดยอาศัยข้อมูลบริบท อย่างเช่น หากผมลองให้คุณทายว่าผมกำลังจะทำอะไรต่อไป หากไม่มีข้อมูลเพิ่มเติม คุณอาจจะส่ายหัว บ่นออกมาดังๆ ว่า “ใครจะไปเดาใจใครออกได้วะ?” แต่ถ้าผมให้ข้อมูลประกอบรอบด้าน เช่น ผมกำลังเดินไปที่เครื่องขายตั๋ว หยิบกระเป๋าสตางค์ออกมา หยิบแบงค์ร้อยออกมา ผมหยุด – แล้วหันมาถามคุณว่า คุณคิดว่าผมจะทำอะไรต่อไป คุณก็คงตอบได้ไม่ยากนักใช่ไหมครับ ว่าผมกำลังจะสอดแบงค์ร้อยเข้าไปในเครื่องรับธนบัตร กดซื้อตั๋ว แล้วเดินผ่านประตูเข้าไปยังตู้โดยสาร

“คุณน่าจะกำลังเดินทางไปไหนสักแห่ง” คุณอาจพูดขึ้น แล้วก็จบเพียงเท่านั้น แต่หากผมไม่เพียงแค่บอก แต่ให้คุณดูวิดีโอกิริยาอาการทั้งหมดที่เล่ามาข้างต้น คุณก็อาจได้รู้บริบทรอบด้านเพิ่มขึ้นอีก ซึ่งอาจนำไปสู่ข้อสรุปอย่าง “ดูจากการแต่งตัว กระเป๋าที่ถือ กับช่วงเวลาแล้ว คุณน่าจะกำลังไปทำงาน”

ความสามารถเช่นนี้ไม่ใช่เรื่องยากสำหรับมนุษย์เลยนะครับ จากข้อมูลตั้งต้นที่ให้ ร่วมกับข้อมูลบริบทรอบๆ เราก็สามารถใช้เหตุผล หรือประสบการณ์เพื่ออนุมานผลลัพธ์ที่กำลังจะเกิดได้ด้วยสามัญสำนึก ถึงแม้ผลลัพธ์ที่อนุมานจะไม่ถูกต้องเสมอไป (เช่น แทนที่ผมจะสอดแบงค์เข้าไปในตู้ซื้อตั๋วโดยสาร ผมอาจจะหยิบแบงค์ร้อยออกมา แล้วเปลี่ยนใจ เดินไปซื้อขนมที่ร้านสะดวกซื้อแทนก็ได้ ซึ่งคุณก็อาจจะเดาเรื่องนี้ไม่ออก) แต่โดยทั่วไปแล้ว สามัญสำนึกเช่นนี้ก็ทำงานได้ดีพอที่จะทำให้เราดำเนินชีวิตปกติได้ในทุกๆ วัน

Credit: Thinkstock

แต่ความสามารถอย่างที่ว่ามาไม่ใช่เรื่องง่ายนักสำหรับซอฟท์แวร์คอมพิวเตอร์

นี่เป็นโจทย์สำหรับนักวิจัยจากมหาวิทยาลัยบอนน์แห่งเยอรมนี พวกเขา ‘สอน’ ให้ระบบปัญญาประดิษฐ์รู้จักเดากิริยาอาการลำดับต่อไปของมนุษย์ในงานวิจัยที่มีชื่อว่า “When will you do what? – Anticipating Temporal Occurrences of Activities” ชุดข้อมูลเบื้องต้นที่พวกเขานำมาเพื่อให้คอมพิวเตอร์เรียนรู้นั้นไม่ได้มีความซับซ้อนมากนัก มันเป็นเซตวิดีโอคนทำอาหารเช้า และคนทำสลัด

ในเซตวิดีโอคนทำอาหารเช้า นักวิจัยแบ่งกิริยาของคนในวิดีโอเป็นช่วงๆ อย่างเช่น “ตอกไข่” “ใส่ไข่ลงในกะทะ” “ตีแป้ง” “ทำแพนเค้ก” และอื่นๆ แล้วให้ระบบคอมพิวเตอร์ดูวิดีโอเซตเดียวกัน เพื่อเรียนรู้ว่ากิริยาแบบไหนคืออะไร ส่วนในวิดีโอการทำสลัดก็จะมีการแบ่งออกเป็นกิริยาย่อยๆ เช่นนี้เช่นกัน (เช่น “หั่นชีสเป็นก้อนๆ” “หั่นแตงกวา”) อย่าลืมนะครับว่าในตอนนี้ปัญญาประดิษฐ์สามารถเรียนรู้และเข้าใจตามเวลาจริงได้ด้วยความแม่นยำสูงแล้วว่าในข้อมูลวิดีโอกำลังเกิดเหตุการณ์อะไรอยู่ แต่สิ่งที่นักวิจัยกลุ่มนี้ทำ คือพยายามให้ระบบปัญญาประดิษฐ์เดาเหตุการณ์ล่วงหน้า

Cretdit: arxiv.org

นักวิจัยใช้สองวิธีในการทำงานนี้ วิธีแรก คือการให้มันเดากิริยาในอนาคต ตรวจสอบ ก่อนที่จะเดาอีกครั้ง ส่วนวิธีที่สองใช้เมตริกซ์เพื่อคำนวณความน่าจะเป็น พวกเขาพบว่าเมื่อฝึกเสร็จแล้ว ปัญญาประดิษฐ์สามารถเดาอนาคต (ว่าคนในวิดีโอกำลังจะทำอะไรต่อไป) ได้ด้วยความแม่นยำ 40 เปอร์เซนต์ในระยะใกล้ (เช่น 40 วินาทีข้างหน้า) แต่หากให้เดาอนาคตไกลๆ (เช่น 3 นาทีข้างหน้า) ละก็ ความแม่นยำจะลดลงเหลือเพียง 15 เปอร์เซนต์เท่านั้น

ตัวเลขนี้อาจฟังดูไม่ได้มาก คือเดา 100 ครั้ง ถูก 15 ครั้ง – แต่หากเราลองกลับมาตรวจสอบสามัญสำนึกของมนุษย์ละก็ เราอาจพบว่าตัวเลขความถูกต้องนี้ไม่ได้ยิ่งหย่อนไปกว่ากันเลย นั่นคือ เราอาจเดาได้ยากพอๆ กันว่าคนที่เราเห็นจะทำอะไรในอีก 3 นาทีถัดไป (ในขณะที่ถ้าให้เดาแค่ช่วงสั้นๆ 15-30 วินาทีถัดไป เราจะเดาได้ง่ายกว่ามากๆ) อย่างไรก็ตาม นี่เป็นเพียงจุดเริ่มต้นของการพัฒนาระบบทำนายอนาคต ซึ่งมันจะทำหน้าที่เป็นฐานให้กับงานวิจัยชุดถัดไป

เมื่อพัฒนาจนได้ความแม่นยำระดับหนึ่งแล้ว ระบบทำนองนี้จะมีประโยชน์หลากหลายตั้งแต่ใช้เพื่อช่วยเหลือคนงานในระบบอุตสาหกรรม (รู้ว่าคนงานจะทำอะไรต่อ จึงสามารถเตรียมอุปกรณ์หรือวัตถุดิบมาให้ได้ทันทีล่วงหน้า) ใช้ในระบบรถยนต์ขับเคลื่อนอัตโนมัติ (เดาได้ว่ารถคันข้างหน้า หรือจักรยานยนต์ข้างๆ กำลังจะเลี้ยวไปทางไหน หรือกำลังจะเบรค) ไปจนถึงการตรวจพบพฤติกรรมผิดปกติในที่สาธารณะ (รู้ว่าคนทั่วไปจะทำอะไร แต่หากตรวจพบคนที่ทำผิดไปจากที่เดาไว้ ก็สามารถบันทึกไว้เพื่อให้มนุษย์ตรวจสอบได้)

นับเป็นอีกก้าวของการพัฒนาที่ทั้งน่าตื่นตาตื่นใจและน่าสะพรึงกลัวไปพร้อมกัน

อ้างอิง

http://xn--https-x7qa61ab2cya2w//www.youtube.com/watch?v=xMNYRcVH_oI

https://arxiv.org