VnTokenizer


 * 1) Xây đồ thị biểu diễn tất cả các khả năng tách từ của một câu (mỗi đường đi từ đầu đến cuối câu tương ứng với một cách tách từ)
 * 2) Số cách quá lớn, tăng theo hàm mũ của số âm tiết trong câu nên phải lọc ra một số lượng nhỏ ứng cử viên để đánh giá. Cụ thể là chọn những cách tương ứng với đường đi ngắn nhất.
 * 3) Tính xác suất của từng cách theo một mô hình ngôn ngữ, ở đây là unigram hoặc bigram. Chọn cách có xác suất cao nhất.