ความถี่ของคำ
ช่วงนี้ในโปรเจคระบบคำถามคำตอบที่ทำอยู่ต้องมีการให้น้ำหนักความหายากของคำ ยิ่งหายากยิ่งให้น้ำหนักมาก จึงจำเป็นต้องมีการหาความถี่ของคำเสียก่อน แล้วนำมาหาส่วนกลับของความน่าจะเป็น (1/ความน่าจะเป็นของคำที่สนใจ) ก็จะได้ค่าประมาณความหายากของคำ
การหาความถี่ของคำที่ได้ทำไปนั้นมีขั้นตอนดังนี้
- เตรียมรายการหัวเรื่องของวิกิพีเดียภาษาไทยทั้งหมดก่อน (ประมาณ 40,000 กว่าคำ ณ เวลาที่เขียนบทความนี้)
- นำคำที่เป็นหัวเรื่องแต่ละคำส่งไปเป็นคำค้นของ Yahoo search engine ผ่าน Yahoo Search API
- เก็บเนื้อหาของหน้าผลลัพธ์ (ไม่ได้เก็บทั้งเว็บ เก็บเฉพาะหน้าที่ขึ้นมาเป็นผลลัพธ์) 300 อันดับแรก (อาจจะเก็บน้อยกว่า 300 ถ้าผลลัพธ์มีไม่ถึง) หลังจากที่ขจัดแท็ก HTML ทิ้งหมดแล้ว
- หาความถี่ของคำโดยการนับจำนวนครั้งการเกิดในคลังเอกสารที่เก็บมาได้ โดยจะนับเฉพาะคำที่มีในดิก Lexitron และคำที่เป็นหัวเรื่องของวิกิพีเดียภาษาไทย
ข้อมูลทั้งหมดน่าจะมีประมาณ 2 ล้านหน้า แน่นอนแต่ละหน้ามีความยาวไม่เท่ากัน การใช้ภาษาก็อาจจะไม่เหมือนกัน และในขั้นตอนขจัดแท็ก ไม่ได้มีการตัดข้อความที่เป็นโฆษณาหรือเมนูต่างๆออก (เพราะไม่รู้ว่าตรงไหนเป็นโฆษณา)
ใครอยากได้ข้อมูลความถี่ของคำเหล่านี้สามารถโหลดไปใช้ได้เลย ที่นี่
