Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Dịch máy - Lê Thanh Hương

Các vấn đề
1. Xử lý sự giống và khác nhau giữa các ngôn ngữ
Hình vị: # số âm tiết/từ:
Ngôn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) – 1
tiếng/từ
Ngôn ngữ đa âm tiết (Siberian Yupik), 1 từ = cả 1 câu
Mức độ phân chia âm tiết

12 trang thamphan 10320 Free

Download

Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Dịch máy - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Dịch máy - Lê Thanh Hương

Ví dụ Au sortir de la saison 97/98 et surtout Dịch máy au debut de cette saison 98/99 Lê Thanh Hương Bộ môn Hệ thống Thông tin With leaving season 97/98 and Viện CNTT &TT – Trường ĐHBKHN especially at the beginning of this Email: [email protected] season 98/99 1 2 Các vấn đề Các vấn đề 2. Cú pháp: trật tự từ trong câu 1. Xử lý sự giống và khác nhau giữa các ngôn ngữ To Yukio; Yukio ne Tiếng Anh – tiếng Việt: Hình vị: # số âm tiết/từ: The (affix1) red (affix2) flag (head) Ngôn ng ữ đơnnâmti âm tiếtt(ti ( tiếng Việt, Trung Quốc) – 1 Láác cờ (head) đỏ (affix2) ấy (affix1) tiếng/từ 3. Các nét riêng biệt Ngôn ngữ đa âm tiết (Siberian Yupik), 1 từ = cả 1 câu English brother Vietnamese anh Mức độ phân chia âm tiết em English wall German wand (inside) mauer(outside) German berg English hill mountain 3 4 Không gian khái niệm Ba khối chính trong dịch máy ngôn hiểu dịch ngữ ngôn ngữ đích ngôn ngữ ngôn ngữ nguồn S T thông tin ánh xạ ngôn ngữ nguồn - đích Khoảng trống từ vựng: tiếng Nhật không có từ nào nghĩa privacy; tiêgns Anh không có từ ứng với yakoko (lòng hiếu thảo) 5 6 1
Các kiểu dịch máy cao mức độ siêu ngôn ngữ Dịch máy thống kê trừu tượng ngữ nghĩa } chuyển đổi cú pháp a g thấp s t từ-từ 13 14 Dịch máy thống kê ý tưởng Coi việc dịch như bài toán kênh có nhiễu Input (Nguồn) “Noisy” Output (đích) The channel E: English words (adds “noise”) F: Les mots Anglais Mô hình dịch: P(E|F) = P(F|E) P(E) / P(F) Khôi phục lại E khi biết F: Sau khi đơn giản hóa (P(F) không đổi): argmaxE P(E|F) = argmaxE P(F|E) P(E) 15 16 Các yếu tố Ý tưởng gióng hàng Mô hình ngôn ngữ - Language Model (LM): xác suất thấy 1 câu tiếng Anh (E) (xác suất tiền nghiệm): Mô hình dịch TM không quan tâm đến chuỗi đúng các từ P(E) tiếng Anh Mô hình dịch - Translation Model (TM): câu đích trong Sử dụng cách tiếp cận gán nhãn: tiếng Pháp (F) khi có câu tiếng Anh: •1 từ tiếng Anh(“tag”) ~ 1 từ tiếng Pháp (“word”) P(F|E) → không thực tế: thậm chí số từ trong 2 câu không bằng Thủ tục tìm kiếm: nhau Cho F, tìm E tốt nhất sử dụng mô hình ngôn ngữ LM và → sử dụng “gióng hàng”. mô hình dịch TM. Vấn đề: thiếu dữ liệu! Gióng hàng câu: tìm các nhóm câu trong 1 ngôn ngữ tương Ta không thể tạo từ điển câu E ↔ F ứng với các nhóm câu khác trong ngôn ngữ khác Thậm thí bình thường ta không thấy 1 câu lặp lại 2 lần 17 18 3
Gióng hàng từ - Mã hóa Gióng hàng từ -Khó 0 1 2 3 4 5 6 e0 And the program has been implemented f0 Le programme a été mis en application 0 1 2 3 4 5 6 7 Gán thông tin tuyến tính: •f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6) application(6) •e0 And(0) the(1) program(2) has(3) been(4) implemented(5,6,7) 25 26 Học việc gióng hàng từ sử dụng Học việc gióng hàng từ sử dụng EM EM 27 28 Học việc gióng hàng từ sử dụng EM Kênh nhiễu e f Mô hình ngôn ngữ Mô hình dịch Giải mã P(e) P(f|e) Argmax e =P(e|f) e 29 30 5
Lý do Thiếu tri thức ngôn ngữ Các giả thiết độc lập: các câu ngắn được ưu tiên hơn vì có ít xác suất hơn (khi nhân) Không lưu thông tin về các ngữ: ví dụ không ⇒ nhân kết quả với 1 hằng số tỉ lệ thuận với độ dài gióng hàng được“to go” và “aller” câu Không có ràng bu ộccc cụccb bộ: Phụ thuộc dữ liệu luyện: 1 thay đổi nhỏ trong dữ liệu Eg, is she a mathematician luyện gây ra thay đổi lớn trong các giá trị ước lượng Âm vị. Các từ tạo bởi các âm vị khác nhau được tham số coi là các ký hiệu riêng biệt Vd, P(le|the) thay đổi từ 0.610 xuống 0.497 Dữ liệu thưa. Các đánh giá cho các từ ít gặp TÍnh hiệu quả. Bỏ các câu > 30 từ, vì làm không gian không chính xác tìm kiếm tăng theo cấp số mũ Thiếu tri thức ngôn ngữ 37 38 Các hệ thống gióng hàng khác Phát hiện biên của câu Các tập ngữ liệu sử dụng giả thiết: Sử dụng luật, danh sách liệt kê: •Dữ liệu song song (dịch E ↔ F) Dấu kết thúc câu: •Dấu ngắt đoạn (nếu được đánh dấu) Gióng hàng câu •1 số ký tự: ?,,;, !, ; • Phát hiện câu •Vấn đề: dấu chấm ‘.’ –Kết thúc câu ( left yesterday. He was heading to ) • Gióng hàng câu –Dấu chấm thập phân : 3.6 (three-point-six) –Dấu chấm hàng nghìn: 3.200 Gióng hàng từ –Viết tắt: cf., e.g., Calif., Mt., Mr. •Tách từ – Vân vân: • Gióng hàng từ (với 1 số ràng buộc) –1 số ngôn ngữ: 2nd ~ 2. –Ký hiệu đầu: A. B. Smith Phương pháp thống kê: vd Maximum Entropy 39 40 Gióng hàng câu Các phương pháp gióng hàng Vấn đề với phát hiện biên của câu: Nhiều phương pháp (xác suất hoặc không) E: Dựa trên độ dài ký tự F: Dựa trên độ dài từ Đầu ra mong đợi: Các phân mảnh với cùng số “cùng gốc” (sử dụng nghĩa từ) lượng mảnh liên tiếp nhau. •Sử dụng từ điển (F: prendre ~ E: make, take) •Sử dụng khoảng cách từ (độ tương tự): tên, số, từ vay mượn, Gióng hàng: từ gốc Latin E: Kết quả tốt nhất: F: Thống kê, dựa trên từ hoặc dựa trên ký tự Kết quả: 2-1, 1-1, 1-1, 2-2, 2-1, 0-1 41 42 7
Cách gióng hàng tốt nhất Với mỗi cặp (E,F), tìm Dịch máy sử dụng cú pháp A = argmaxA P(A|F,E) = argmaxA P(F,A|E)/P(F) = m argmaxA P(F,A|E) = argmaxA (ε / (l+1) Πj=1 m p(f |e )) = argmax Π p(f |e ) j aj A j=1 m j aj Sử sụng thuật toán lập trình động theo kiểuViterbi. Tính lại p(f|e) 49 50 Yamada and Knight (2001): Tại sao dùng cú pháp Lý do cần cú pháp Cần thông tin ngữ pháp Cần các ràng buộc khi sắp lại câu Khi chèn các từ chức năng vào câu, cần đặt ở vị trí chính xác Khi dịch từ cần sử dụng từ có cùng từ loại với nó 51 52 Mô hình dựa trên cú pháp Cây cú pháp (Anh) Æ câu (Nhật) Cây cú pháp Câu (tiếng Anh) (tiếng Nhật) Mô hình dịch Tiền xử lý câu tiếng Anh bằng bộ PTCP Thực hiện các phép tính xác suất trên cây cú pháp Sắp lại trật tự các nút Chèn nút mới vào Dịch các từ ở lá 53 54 9
Thử nghiệm Kết quả Dữ liệu luyện: 2000 cặp câu J-E Điểm trung bình #câu J: tách từ sử dụng Chasen Y/K model 0.582 10 E: PTCP sử dụng bộ PTCP Collins IBM model 5 0. 431 0 Luyện trên 40000 câu từ Treebank, độ cx Điểm trung bình được tính trên 3 người với 50 câu ~90% ok(1.0), không chắc (0.5), sai (0.0) E: từ cây cú pháp, xác định trật tự từ chỉ tính độ chính xác và chuyển đổi (SVO SOV) Luyện sử dụng EM: 20 vòng lặp 61 62 Kết quả: gióng hàng 1 Kết quả: gióng hàng 2 63 64 Một số hệ thống dịch máy trên Internet .digital .com/ 65 66 11