ความถี่ของคำ

Mar 22 2009 Published by admin under Uncategorized

ช่วงนี้ในโปรเจคระบบคำถามคำตอบที่ทำอยู่ต้องมีการให้น้ำหนักความหายากของคำ ยิ่งหายากยิ่งให้น้ำหนักมาก จึงจำเป็นต้องมีการหาความถี่ของคำเสียก่อน แล้วนำมาหาส่วนกลับของความน่าจะเป็น (1/ความน่าจะเป็นของคำที่สนใจ) ก็จะได้ค่าประมาณความหายากของคำ

การหาความถี่ของคำที่ได้ทำไปนั้นมีขั้นตอนดังนี้

  1. เตรียมรายการหัวเรื่องของวิกิพีเดียภาษาไทยทั้งหมดก่อน (ประมาณ 40,000 กว่าคำ ณ เวลาที่เขียนบทความนี้)
  2. นำคำที่เป็นหัวเรื่องแต่ละคำส่งไปเป็นคำค้นของ Yahoo search engine ผ่าน Yahoo Search API
  3. เก็บเนื้อหาของหน้าผลลัพธ์ (ไม่ได้เก็บทั้งเว็บ เก็บเฉพาะหน้าที่ขึ้นมาเป็นผลลัพธ์) 300 อันดับแรก (อาจจะเก็บน้อยกว่า 300 ถ้าผลลัพธ์มีไม่ถึง) หลังจากที่ขจัดแท็ก HTML ทิ้งหมดแล้ว
  4. หาความถี่ของคำโดยการนับจำนวนครั้งการเกิดในคลังเอกสารที่เก็บมาได้ โดยจะนับเฉพาะคำที่มีในดิก Lexitron และคำที่เป็นหัวเรื่องของวิกิพีเดียภาษาไทย

ข้อมูลทั้งหมดน่าจะมีประมาณ 2 ล้านหน้า แน่นอนแต่ละหน้ามีความยาวไม่เท่ากัน การใช้ภาษาก็อาจจะไม่เหมือนกัน และในขั้นตอนขจัดแท็ก ไม่ได้มีการตัดข้อความที่เป็นโฆษณาหรือเมนูต่างๆออก (เพราะไม่รู้ว่าตรงไหนเป็นโฆษณา)

ใครอยากได้ข้อมูลความถี่ของคำเหล่านี้สามารถโหลดไปใช้ได้เลย ที่นี่

One response so far