งานวิจัย : การแบ่งกลุ่มตัวอักษร 2017-12-06T21:54:17+00:00

Project Description

งานวิจัย : การแบ่งกลุ่มตัวอักษร

ผลงานวิจัยชิ้นนี้เป็นเหมือนหนึ่งในจุดเริ่มต้นของโมเดล ซึ่งเป็นตัวช่วยสำคัญในการลดความกำกวมของการหาขอบเขตคำ (Word Boundary) ในข้อความภาษาไทย โดยใช้หลักการสะกดคำในภาษาไทย และระบุการจับกลุ่มของตัวอักษรที่ไม่สามารถแบ่งย่อยได้อีกขั้นว่าเป็น Thai Character Cluster (TCC) ตัวอย่างหลักการสะกดคำที่ใช้ในโมเดลนี้ เช่น สระบน-ล่าง ต้องอยู่รวมกลุ่มกับ ตัวอักษรที่มาข้างหน้า เช่น มี หรือ สุ หรือสระหน้า ต้องตามด้วย ตัวอักษร เช่น เว หรือ ไร ซึ่งอัลกอริทึมสามารถลดตัวเลือกการตัดแบ่งคำที่อาจเกิดขึ้นในการหาขอบเขตคำได้อย่างมีประสิทธิภาพ รวมทั้งลดความผิดพลาดที่อาจเกิดขึ้นจากการตัดแบ่งกลางคำที่ไม่ควรแยกออกจากกัน

CCBTIR