Thai Character Cluster (TCC) 2018-03-26T14:48:35+00:00

Thai Character Cluster (TCC)

คืออัลกอริทึมที่ช่วยลดความผิดพลาดในการตัดแบ่งข้อความ โดยใช้หลักภาษาไทยมาจัดกลุ่มตัวอักษร เพื่อให้บางคำที่ไม่สามารถแยกหรือตัดแยกออกจากกันได้
เช่น คำว่า เรือ ถ้าเกิดการตัดคำผิด จะกลายเป็น เร และ ือ ได้ ซึ่งกรณีนี้ TCC จะสามารถวิเคราะห์ได้ว่า นี่เป็นหนึ่งกลุ่มตัวอักษร และจะไม่ถูกแบ่งออกจากกันในทุกกรณี

และถ้าพูดถึงการสร้างโมเดลตัดคำ (Word Segmentation) ในภาษาไทย ประเด็นสำคัญที่ต้องคำนึงถึงคือ จำนวนความเป็นไปได้ทั้งหมดที่โมเดลจะแบ่งข้อความออกเป็นคำสั้นๆ หรือที่เรียกกันว่า search space เพื่อค้นหาการตัดคำที่จะเหมาะสมที่สุด เพราะการตัดแบ่งข้อความ อาจเป็นไปได้หลายแบบ เช่น การบ้าน อาจจะตัดเป็น กา|ร|บ้|า|น หรือ กา|ร|บ้าน ทำให้โมเดลใช้เวลานานในการค้นหาวิธีการแบ่งคำที่ถูกต้อง หรืออาจทำให้หน่วยความจำไม่พอ (Memory Overflow) แต่ TCC จะช่วยจัดการปัญหานี้ให้หมดไป