Basic Text Processing 2018-03-19T19:16:35+00:00

Project Description

Basic Text Processing

อธิบายหลักการเบื้องต้นของการทำ Text Processing สำหรับภาษาอังกฤษ ซึ่งประกอบด้วย 2 ส่วน ได้แก่
Regular Expressions เป็นการกำหนดรูปแบบหรือกลุ่มของอักขระ (เช่น ตัวหนังสือ ตัวเลข เครื่องหมาย ช่องว่าง เป็นต้น) เพื่อใช้อธิบายข้อความ (string) ตามที่ต้องการ
Text Normalization เป็นกระบวนการพื้นฐานของการทำ NLP (Natural Language Processing) ซึ่งประกอบด้วย 3 ส่วน ได้แก่
(2.1) การตัดคำ (Segmenting/tokenizing words) โดยพูดถึงปัญหาของการตัดคำในภาษาต่างๆ และยกตัวอย่างเทคนิคที่ใช้ในการตัดคำที่ชื่อว่า Maximum Matching
(2.2) การทำคำให้อยู่ในรูปปกติ (Normalizing word formats) ซึ่งประกอบด้วย การเปลี่ยนรูปคำให้อยู่ในรูปแบบดั้งเดิม (Lemmatization) และ การตัดส่วนขยาย (Stemming)
(2.3) การตัดประโยค (Segmenting sentences) โดยอธิบายวิธีการทำ พร้อมทั้งยกตัวอย่างเทคนิคที่ชื่อว่า Decision Tree

และสามารถเข้าไปอ่านบทความเพิ่มเติม ได้ที่ Link