Tài nguyên


 * Trang này chỉ liệt kê một số tài nguyên quan trọng, để xem đầy đủ mời bạn xem thể loại Tài nguyên.

Ngữ liệu tiếng Việt

 * [Danh sách từ tiếng Việt]
 * Wikipedia tiếng Việt (chưa tách từ tố, đã tách từ tố)
 * Bộ câu đã tách từ của JVnSegmenter (~7,800 câu)
 * Từ điển, treebank và ngữ liệu song ngữ từ dự án VLSP
 * Từ một nguồn chưa được kiểm chứng: https://github.com/binhvq/mica-l2win-parsing-database-manager
 * Dữ liệu của VLSP Campaign 2013 (ngữ liệu VLSP được bổ sung 12,000 câu được tách từ, gán nhãn từ loại và một số câu đã tách từ tố, xem thêm)
 * Ngữ liệu Vietlex (chỉ sử dụng được trực tuyến)
 * VietnameseWAC (chỉ sử dụng được trực tuyến)
 * Các bộ ngữ liệu của tác giả Lưu Tuấn Anh (nguồn: các báo điện tử, vnthuquan.net; chưa tách từ tố)
 * 200 Cụm văn bản tiếng Việt dùng cho tóm tắt đa văn bản

Ngữ liệu song ngữ

 * Ngữ liệu song ngữ từ dự án VLSP
 * 350 cặp câu trong sách "Tiếng Việt cho người nước ngoài"

Nhận dạng chữ viết

 * Bộ chữ viết tay của SV BKHN

Chưa phân loại

 * BabelNet