VietnameseWAC

Ngữ liệu tập hợp một lượng lớn văn bản tiếng Việt (129.781.089 token, 106.464.835 từ) đã được tách từ và gán nhãn tự động (xem Kilgarriff, A., & Le-Hong, P.,2012).

Tuy nhiên có một số lỗi về bảng mã như hình bên dưới.



Tham khảo


 * Kilgarriff, A., & Le-Hong, P. (2012). Vietnamese Word Sketches. In Proceedings of the First International Workshop on Vietnamese Language and Speech Processing (pp. 1–4).

Liên kết ngoài

 * VietnameseWAC trên SketchEngine (chỉ sử dụng được trực tuyến)
 * Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển - Vũ Xuân Lương