Phát hiện câu

Phát hiện câu là một bước chuẩn bị dữ liệu huấn luyện cũng như tiền xử lý cho các bài toán sau như tách từ, gán nhãn từ loại.

Bài toán phát hiện câu có thể được coi là bài toán học máy xác định một dấu chấm, chấm than hay chấm hỏi trong một chuỗi ký tự có phải là dấu câu hay không. Một số chương trình cũng sử dụng luật để phát hiện câu.

Phát hiện câu bằng OpenNLP
OpenNLP huấn luyện một mô hình entropy tối đa áp dụng trên văn bản với ký tự trắng đã bị xóa bỏ. Do đó mô hình này đánh mất một phần thông tin chứa trong các âm tiết.

Cách sử dụng

 * 1) Tải bộ công cụ OpenNLP.
 * 2) Tải mô hình câu cho tiếng Việt (được huấn luyện trên bộ ngữ liệu RIVF 2013).
 * 3) Chạy lệnh

Huấn luyện

 * 1) Chuẩn bị dữ liệu (là một tệp chứa mỗi câu trên một dòng, các tài liệu liền nhau được phân cách bằng một dòng trống).
 * 2) Chạy lệnh sau: