ทีมนักวิจัยคณะวิทย์ มช. ศึกษาการรู้จำภาษามือระดับคำแบบเคลื่อนไหวฯ สามารถต่อยอด เพื่อพัฒนาเป็นเครื่องมือหรืองานประยุกต์ เพื่อช่วยเหลือผู้พิการทางการได้ยิน เพิ่มความสามารถในการสื่อสารกับบุคคลทั่วไปได้สะดวกยิ่งขึ้น ภายใต้งานวิจัย 3 หัวข้อ ได้แก่
1. Chinese Finger Sign Language Recognition Method with ResNet Transfer Learning
2. Video-Based Sign Language Recognition via ResNet and LSTM Network
3. Video-based Sign Language Recognition with R(2+1)D and LSTM Networks
สำหรับงานวิจัยหัวข้อแรก คือ การรู้จำภาษามือระดับอักขระในภาษาจีนด้วยเทคนิคการเรียนรู้ถ่ายโอน ResNet นักวิจัยได้ใช้เทคนิครูปแบบผสมหลักจากทาง Image processing และ Deep learning เข้าด้วยกัน เพื่อเพิ่ม Model’s performance และมีการเปรียบเทียบระหว่างภาษามือของภาษาจีน (Chinese sign language) กับภาษาอเมริกัน (American sign language) เพื่อให้เห็นถึงประสิทธิภาพของโมเดลที่รองรับภาษาที่มีความแตกต่างกันในเชิงโครงสร้างของภาษาได้เป็นอย่างดี
การรู้จำเป็นการนำรูปภาพนิ่ง (Still images) ของภาษามือแบบระดับอักขระ (Character level) ของทั้ง 2 ภาษา โดยตัวโมเดลเป็นแบบถ่ายโอนความรู้จากการฝึกเบื้องต้นกับฐานข้อมูลรูปภาพขนาดใหญ่มาก่อน และทำการประมวลผลหลายรอบเพื่อสะท้อนประสิทธิภาพที่แท้จริงของโมเดลให้มากที่สุด และมีการเปรียบเทียบกับการใช้ Deep learning models อื่นๆ ด้วยการวัดจากความแม่นยำ (Accuracy) เป็นหลัก
ตัวโมเดลได้แสดงให้เห็นถึงประสิทธิภาพสูงถึง 98.33% และ 97.70% โดยเฉลี่ย ในภาษาจีน และภาษาอเมริกัน ตามลำดับ และมีประสิทธิภาพสูงกว่าโมเดลอื่นที่ค้นคว้าในลักษณะใกล้เคียงเปรียบเทียบกัน ในขณะที่ความซับซ้อน (Complexity) ของโมเดลที่ตำ่กว่าบางโมเดลที่ซับซ้อนสูงกว่าแต่ให้ประสิทธิภาพที่ต่ำกว่า บ่งบอกถึงความสามารถในการนำไปประยุกต์กับภาษามือในภาษาที่มีโครงสร้างทางภาษาแตกต่างกันได้อย่างดี และสามารถนำไปใช้สร้างเป็นเครื่องมือหรืองานประยุกต์ (Applications) เพื่อช่วยเหลือผู้พิการทางการได้ยินหรือเพื่อเพิ่มความสามารถในการสื่อสารกับบุคคลทั่วไปได้สะดวกและมีประสิทธิภาพได้ยิ่งขึ้น
งานวิจัยหัวข้อถัดมา คือ การรู้จำภาษามือระดับคำแบบเคลื่อนไหว ด้วยเทคนิคการผสมโครงข่าย ResNet และ LSTM นักวิจัยใช้เทคนิครูปแบบผสมหลักจากทาง Image processing และ แบบ 2 ระดับของ Deep learning models เข้าด้วยกัน เพื่อเพิ่ม Model’s performance การรู้จำภาษามือเป็นระดับค (Word-level sign-language recognition) และมีการเปรียบเทียบการปรับพารามิเตอร์หลักที่ส่งผลต่อประสิทธิภาพของโมเดลในการรู้จำภาษามือแบบเคลื่อนไหวระดับคำของภาษาอาร์เจนตินา (Argentine sign language)
ไฟล์นำเข้าเป็นรูปแบบวิดีโอ (Video files) ของภาษามือระดับคำ โดยตัวโมเดลเป็นแบบมีการเรียนรู้มาแล้วกับฐานข้อมูลขนาดใหญ่ของข้อมูลรูปภาพแบบภาพนิ่ง ในการใช้โครงข่ายของโมเดลแบบ 2 ระดับ ทำให้โครงข่ายของโมเดลแรกคือ ResNet ได้ทำการสกัดคุณลักษณะที่สำคัญของรูปภาพออกมา (Feature extraction) จากข้อมูลเชิงพื้นที่ (Spatial data) ของรูปภาพแต่ละเฟรม จากนั้นโครงข่ายชั้นที่ 2 คือ LSTM จะทำหน้าที่นำคุณลักษณะที่ถูกดึงมาได้ไปทำการค้นหาความเชื่อมโยงในความสัมพันธ์ของเวลา (Temporal sequence learning) จากเฟรมหนึ่งไปเฟรมถัดไปที่มีความแตกต่างของการเคลื่อนไหวไม่สูงนัก และทำการประมวลผลหลายรอบด้วยการปรับค่าพารามิเตอร์ (Hyperparameter tuning) ที่สำคัญแบบหลากหลายการตั้งค่า (Parameter settings) ในการประมวลผลของโมเดล เพื่อสะท้อนประสิทธิภาพที่แท้จริงของโมเดลและช่วยลดผลกระทบจากความไม่สมดุลกันของประเภทในข้อมูล (Class imbalance) ให้มากที่สุด และมีการเปรียบเทียบกับ การใช้ Deep learning models อื่นๆ ด้วยการวัดผลหลากหลายมิติ นอกเหนือจากความแม่นยำ (Accuracy) ยังมีการวัดจาก F1 score และ Precision เพื่อสังเกตุความไม่สมดุลกันของชุดข้อมูลที่แบ่งออกมาในการสร้างโมเดล
ตัวโมเดลได้แสดงให้เห็นถึงประสิทธิภาพสูงถึง 86.25% และมีประสิทธิภาพสูงกว่าโมเดลอื่นบนฐานข้อมูลชุดเดียวกัน ด้วยค่าความแม่นยำที่ได้ แม้จะเป็นการรู้จำระดับคำที่มีการเคลื่อนไหวของวิดีโอนำเข้า บ่งบอกถึงความสามารถในการนำไปประยุกต์กับภาษามือที่ใกล้เคียงกับการนำไปใช้งานจริงในชีวิตประจำวันได้สะดวก และใกล้เคียงกับการสื่อสารจริงมากขึ้นกว่าการรู้จำแบบภาพนิ่งในระดับอักขระที่ผ่านมา ดังนั้น โมเดลที่ฝึกเรียนรู้แล้วนี้ พร้อมตัวอย่างการตั้งค่าของชุดพารามิเตอร์หลักที่สำคัญ อาจสามารถนำไปใช้ในการปรับแต่งเพื่อสร้างโมเดลสำหรับทำเครื่องมือหรืองานประยุกต์ (Applications) ช่วยเหลือผู้พิการทางการได้ยินหรือเพื่อเพิ่มความสามารถในการสื่อสารกับบุคคลทั่วไปได้สะดวกและมีประสิทธิภาพ ใกล้เคียงกับการใช้ชีวิตประจำวันยิ่งขึ้น
งานวิจัยหัวข้อที่ 3 คือ การรู้จำภาษามือระดับคำแบบเคลื่อนไหว ด้วยเทคนิคการผสมโครงข่าย R(2+1)D และ LSTM นักวิจัยใช้เทคนิครูปแบบผสมหลักจากทาง Image processing และ แบบ 2 ระดับของ Deep learning models เข้าด้วยกัน เพื่อเพิ่ม Model’s performance การรู้จำภาษามือเป็นระดับค (Word-level sign-language recognition) และมีการเปรียบเทียบระหว่างภาษามือแบบเคลื่อนไหวระดับคำของภาษาจีน (Chinese sign language) กับภาษาอาร์เจนตินา (Argentine sign language) เพื่อให้เห็นถึงประสิทธิภาพของโมเดลที่รองรับลักษณะการเคลื่อนไหวของภาษามือในภาษาที่แตกต่างกันได้เป็นอย่างดี
ไฟล์นำเข้าเป็นรูปแบบวิดีโอ (Video files) ของภาษามือทั้ง 2 ภาษา โดยตัวโมเดลเป็นแบบมีการเรียนรู้มาแล้วกับฐานข้อมูลขนาดใหญ่ แต่มีการแบ่งการประมวลผลหลักเป็น 2 มิติของขอบเขตข้อมูล กล่าวคือ เชิงพื้นที่ (Spatial domain) และเชิงเวลา (Temporal domain) ด้วยระดับชั้นของ R(2+1)D จากนั้นระดับชั้นของ LSTM จะทำการเชื่อมความสัมพันธ์ในเชิงเวลาแบบระยะยาวขึ้น หรืออีกนัยหนึ่งในการเปลี่ยนแปลงของการเคลื่อนไหวที่ต่อเนื่องยาวขึ้นได้ดียิ่งขึ้นกว่าเพียงโครงข่ายระดับแรกเท่านั้น และมีการประมวลผลหลายรอบด้วยการปรับค่าพารามิเตอร์ (Hyperparameter tuning) ที่สำคัญในการประมวลผลของโมเดล เพื่อสะท้อนประสิทธิภาพที่แท้จริงของโมเดลและช่วยลดผลกระทบจากความไม่สมดุลกันของประเภทในข้อมูล (Class imbalance) ให้มากที่สุด และมีการเปรียบเทียบกับการใช้ Deep learning models อื่นๆ ด้วยการวัดจากความแม่นย (Accuracy) เป็นหลัก
ตัวโมเดลได้แสดงให้เห็นถึงประสิทธิภาพสูงถึง 96.21% และ 99.69% ในภาษาจีนและภาษาอาร์เจนตินา ตามลำดับ และมีประสิทธิภาพสูงกว่าโมเดลอื่นบนฐานข้อมูล
ชุดเดียวกัน ด้วยค่าความแม่นยำที่ได้ แม้จะเป็นการรู้จำระดับคำที่มีการเคลื่อนไหวของวิดีโอนำเข้า บ่งบอกถึงความสามารถในการนำไปประยุกต์กับภาษามือที่ใกล้เคียงกับการนำไปใช้งานจริงในชีวิตประจำวันได้สะดวก และใกล้เคียงกับการสื่อสารจริงมากขึ้นกว่าการรู้จำแบบภาพนิ่งในระดับอักขระที่ผ่านมา แม้ในภาษาที่แตกต่างกันซึ่งจะมีการเคลื่อนไหวที่แตกต่างกันก็ยังสามารถเรียนรู้และรู้จำได้เป็นอย่างดี (ด้วยความแม่นยำที่สูงกว่า 95% ทั้่ง 2 ชุดภาษา)
ดังนั้น โมเดลที่ฝึกเรียนรู้แล้วนี้ อาจสามารถนำไปใช้สร้างเป็นเครื่องมือหรืองานประยุกต์ (Applications)เพื่อช่วยเหลือผู้พิการทางการได้ยินหรือเพื่อเพิ่มความสามารถในการสื่อสารกับบุคคลทั่วไปได้สะดวกและมีประสิทธิภาพ ใกล้เคียงกับการใช้ชีวิตประจำวันยิ่งขึ้น
ผู้สนใจสามารถอ่านบทความวิจัยได้ที่
2023 15th International Conference on
Knowledge and Smart Technology (KST)
DOI: 10.1109/KST57286.2023.10086825
Journal of Imaging
DOI: 10.3390/jimaging10060149 2024
16th International Conference on Knowledge
and Smart Technology (KST)
DOI: 10.1109/KST61284.2024.10499646
นักวิจัย
รศ.ดร. วาริน เชาวทัต อาจารย์
ผศ. เบญจมาศ ปัญญางาม อาจารย์
Ms. Jiayu Huang นักศึกษาระดับปริญญาโท
รศ.ดร. จีรยุทธ ไชยจารุวณิช อาจารย์
ภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์
มหาวิทยาลัยเชียงใหม่