Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Tách từ tiếng Việt - Lê Thanh Hương
Tách từ
Mục đích: xác định ranh giới của các từ trong câu.
Là bước xử lý quan trọng đối với các hệ thống XLNNTN,
đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết
Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt.
Với các ngôn ngữ đơn lập, một từ có thể có một hoặc
nhiều âm tiết.
Vấn đề của bài toán tách từ là khử được sự nhập nhằng
trong ranh giới từ
Mục đích: xác định ranh giới của các từ trong câu.
Là bước xử lý quan trọng đối với các hệ thống XLNNTN,
đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết
Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt.
Với các ngôn ngữ đơn lập, một từ có thể có một hoặc
nhiều âm tiết.
Vấn đề của bài toán tách từ là khử được sự nhập nhằng
trong ranh giới từ
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Tách từ tiếng Việt - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf
Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Tách từ tiếng Việt - Lê Thanh Hương
- Tách từ Tách từ tiếng Việt z Mục đích: xác định ranh giới của các từ trong câu. z Là bước xử lý quan trọng đối với các hệ thống XLNNTN, đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiết Lê Thanh Hương Trung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt. Bộ môn Hệ thống Thông tin z Với các ngôn ngữ đơn lập, một từ có thể có một hoặc Viện CNTT &TT – Trường ĐHBKHN nhiều âm tiết. Email: huonglt-fit@mail.hut.edu.vn ¾ Vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. 1 2 Từ vựng Từ vựng z tiếng Việt là ngôn ngữ không biến hình Độ dài # % z Từ điển từ tiếng Việt (Vietlex): >40.000 từ, 1 6,303 15.69 trong đó: 2 28,416 70.72 z 81. 55% âm tiếttlàt là từ : từ đơn 3 2, 259 5625.62 z 15.69% các từ trong từ điển là từ đơn 4 2,784 6.93 5 419 1.04 z 70.72% từ ghép có 2 âm tiết Tổng 40,181 100 z 13.59% từ ghép ≥ 3 âm tiết z 1.04% từ ghép ≥ 4 âm tiết Bảng 1. Độ dài của từ tính theo âm tiết 3 4 Qui tắc cấu tạo từ tiếng Việt Qui tắc cấu tạo từ tiếng Việt z Từ đơn: dùng một âm tiết làm một từ. z Từ láy: các yếu tố cấu tạo có thành phần ngữ âm được lặp z Ví dụ: tôi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, nhé lại; nhưng vừa lặp vừa biến đổi. Một từ được lặp lại cũng cho ta từ láy. z Từ ghép: tổ hợp (ghép) các âm tiết lại, giữa các âm tiết đó có quan hệ về nghĩa với nhau. z Biến thể của từ: được coi là dạng lâm thời biến động hoặc dạng "lời nói"nói củata từ. z Từ ghép đẳng lập. cáàác thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa. z Rút gọn một từ dài thành từ ngắn hơn z ki-lô-gam → ki lô/ kí lô z Ví dụ: chợ búa, bếp núc z Lâm thời phá vỡ cấu trúc của từ, phân bố lại yếu tố tạo từ với z Từ ghép chính phụ. các thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia. Thành tố phụ có vai trò phân loại, chuyên biệt hoá những yếu tố khác ngoài từ chen vào. Ví dụ: và sắc thái hoá cho thành tố chính. z khổ sở → lo khổ lo sở z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, ngay đơ, thằng z ngặt nghẽo → cười ngặt cười nghẽo tắp, sưng vù z danh lợi + ham chuộng → ham danh chuộng lợi 5 6
- Tìm từ trong từ điển Phân giải nhập nhằng Nếu nhà máy nghỉ thì ta về z Lấy tất cả các cách phân tích, nếu phân tích Vị trí từ: 0 1 2 3 4 5 6 7 cú pháp cho ra cây đúng thì đó là cách phân z Ta có bảng sau: tích đúng. z z z Ký hiệu: z - LT - DT z - ĐgT - ĐaT 13 14 Cách tiếp cận lai Biểu thức chính qui z là một khuôn mẫu được so sánh vớimột chuỗi z Ví d ụ: z Kết hợp phân tích automat hữu hạn + biểu thức chính z Email: x@x(.x)+ quy + so khớp từ dài nhất + thống kê (để giải quyết nhập z dir *.txt z ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John” nhằng) z Biểu thức chính quy được sử dụng đặc biệt nhiều trong: * Phân tích cú pháp * Xác nhận tính hợp lệ của dữ liệu * Xử lý chuỗi * Tách dữ liệu và tạo báo cáo 15 16 Giới thiệu phi hình thức về Automat hữu hạn automat hữu hạn z Lớp ngôn ngữ chính qui, được đoán nhận bởi máy ảo, z Một bài toán trong automat là nhận diện gọi tên là automat hữu hạn. chuỗi w có thuộc về ngôn ngữ L hay không. z Automat hữu hạn đơn định (Deterministic Finite Automat a– DFA z Automat hữu hạn không đơn định (Nondeterministic Finite z Chuỗi nhập được xử lý tuần tự từng ký hiệu Automat a– NFA) một từ trái sang ph ải. z Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng (ε-NFA) z Trong quá trình thực thi, automat cần phải nhớ thông tin đã qua xử lý. 17 18
- Phân giải nhập nhằng Kỹ thuật làm trơn z Khi n = 2, tính giá trị P(wi|wi-1) lớn nhất maximum likelihood (ML) với λ1 + λ2 = 1 và λ1, λ2 ≥ 0 PML(wi) = c(wi)/N z Với tập thử nghiệm T = {s1,s2, ,sn}, xác suất P(T) của tập thử: z c(s): số lần xâu s xuất hiện; N: tổng số từ trong tập luyện z Entropy của văn bản: z Khi dữ liệu luyện nhỏ hơn kích cỡ toàn bộ tập dữ liệu Æ P ~ 0 với NT: số từ trong T z Sử dụng kỹ thuật làm trơn z Entropy tỉ lệ nghịch với xác suất trung bình của 1 cách tách từ cho các câu trong văn bản thử nghiệm. 25 26 Xác định giá trị λ1, λ2 Thuật toán z Từ tập dữ liệu mẫu, định nghĩa C(wi-1,wi) là số lần (wi-1, wi) xuất hiện trong tập mẫu. Ta cần chọn λ1 λ2 để làm cực đại giá trị với λ1 + λ2 = 1 và λ1, λ2 ≥ 0 28 Kết quả z Sử dụng tập dữ liệu gồm 1264 bài trong báo Tuổi trẻ, có 507,358 từ z Lấy ε = 0.03, các giá trị λ hội tụ sau 4 vòng lặp z Độ chính xác = số từ hệ thống xác định đúng/tổng số từ hệ thống xác định = 95% 29