Khôi phục dấu

Theo anh Trần Mai Vũ có một số các phương pháp sau:


 * Đối sánh từ điển: Một số các bộ gõ tiếng Việt sử dụng phương pháp hơi giống longest matching với tập từ điển là các từ và phrase, độ chính xác tầm 80%. Vấn đề lớn nhất của phương pháp này là không thể giải quyết được nhập nhằng trong khá nhiều trường hợp.
 * Bigram + HMM: Đây là nhóm phương pháp được sử dụng nhiều nhất hiện nay cho hiệu quả tương đối khả quan (trên 90%). Tư tưởng chính là cực đại giá trị của chuỗi quan sát dựa trên xác suất phát xạ (emission-xác suất của token đang quan sát và các nhãn có thể) và xác suất chuyển (transition-xác suất của các bigram).
 * SVM: Phương pháp này mình đọc trong bài của Luu Tuan Anh là sử dụng phân lớp để thực hiện gán dấu. Tư tưởng hình như là từng token sẽ được phân lớp vào các nhãn có thể xuất hiện của nó, tuy nhiên mình hơi phân vân ở chỗ đó là phải xây dựng quá nhiều bộ phân lớp (mỗi token không dấu tương ứng một bộ phân lớp)
 * Dịch máy: Phương pháp của nhóm bác Nguyen Van Vinh(UET) khá thú vị đó là sử dụng học máy thống kê để "dịch" các câu không dấu thành có dấu, mình không rõ các kỹ thuật SMT lắm nhưng có cảm giác vẫn là dựa trên mô hình ngôn ngữ và có cải tiến.

Liên kết ngoài

 * https://www.facebook.com/groups/1407276886168704/