Word Segmentation (WS) 2018-03-27T17:31:25+00:00

Word Segmentation (WS)

คือการตัดคำ ซึ่งเป็นขั้นตอนพื้นฐานสำหรับการทำ Thai Text Analytics มีความจำเป็นมากในการวิเคราะห์ข้อความภาษาไทย เพราะหนึ่งในสิ่งที่ภาษาไทยแตกต่างจากภาษาอังกฤษคือ ข้อความไทยไม่มีการเว้นช่องว่างระหว่างคำ มักจะเขียนต่อเนื่องจนจบข้อความหรือประโยค

ซึ่งหนึ่งในอัลกอริทึมที่ใช้ในการตัดคำภาษาไทย ก็คือ Maximal Matching การค้นหาวิธีการแบ่งคำในข้อความที่ทำให้มีจำนวนคำน้อยที่สุด และจะไม่ตัดคำที่ควรอยู่ด้วยกัน เช่น พวกเรารักโรงเรียน จะไม่ตัดเป็น พวก|เรา|รัก|โรง|เรียน แต่จะเป็น พวกเรา|รัก|โรงเรียน ซึ่งมีเพียง 3 คำ และไม่แยกคำว่า ‘พวก’ กับ ‘เรา’

หรือถ้าอยากสนุกกับการตัดคำมากกว่านี้ สามารถนำคำไปใส่ใน Word Cloud เพื่อจัดเรียงกลุ่มคำให้เป็นรูปภาพเท่ๆ ได้แบบนี้

ซึ่งหลังจากการตัดคำด้วย WS แล้ว สามารถนำคำเหล่านี้ไปใช้ต่อได้ใน Word Cloud เพื่อจัดเรียงกลุ่มคำให้เป็นรูปภาพได้อีกด้วย
คลิกที่นี่  Link เพื่อลองดาวน์โหลดมาเล่นกันได้เลย