Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân tích cú pháp xác suất - Lê Thanh Hương

Kết hợp từ (bigrams pr)
Ví dụ:
Eat ice-cream (high freq)
Eat John (low, except on Survivor)
Nhược điểm:
z P(John decided to bake a) có xác suất cao
z Xét:
P(w3) = P(w3|w2w1)=P(w3|w2)P(w2|w1)P(w1)
Giả thiết này quá mạnh: chủ ngữ có thể quyết định bổ ngữ trong
câu
Clinton admires honesty
sử dụng cấu trúc ngữ pháp để dừng việc lan truyền
z Xét Fred watered his mother’s small garden. Từ garden có
ảnh hưởng như thế nào?
z Pr(garden|mother’s small) thấp ⇒ mô hình trigram không tốt
z Pr(garden | X là thành phần chính của bổ ngữ cho động từ to
water) cao hơn
sử dụng bigram + quan hệ ngữ pháp

6 trang thamphan 9240

Download

Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân tích cú pháp xác suất - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân tích cú pháp xác suất - Lê Thanh Hương

Làm cách nào chọn cây đúng? Phân tích cú pháp xác z Ví dụ: suất I saw a man with a telescope. z Khi số luật tăng, khả năng nhập nhằng tăng Lê Thanh Hương z Tập luật NYU: bộ PTCP Apple pie : 20,000-30,000 Bộ môn Hệ thống Thông tin luật cho tiếng Anh z Lựa chọn luật AD: V DT NN PP Viện CNTT &TT – Trường ĐHBKHN (1) VP → V NP PP Email: huonglt-fit@mail.hut.edu.vn NP → DT NN (2) VP → V NP NP → DT NN PP 1 2 Kết hợp từ (bigrams pr) Kết hợp từ (bigrams pr) Ví dụ: z V có một số loại bổ ngữ nhất định Eat ice-cream (high freq) Eat John (low, except on Survivor) ⇒ Verb-with-obj, verb-without-obj Nhược điểm: z Sự tương thích giữa chủ ngữ và bổ ngữ: John admires honesty z P(John decided to bake a) có xác suất cao z Xét: Honesty admires John ??? P(w3) = P(w3|w2w1))P(w=P(w3|w2)P(w2|w1)P(w1) Giả thiết này quá mạnh: chủ ngữ có thể quyết định bổ ngữ trong Nhược điểm: câu • Kích thước tập ngữ pháp tăng Clinton admires honesty z Các bài báo của tạp chí Wall Street Journal trong 1 năm: ¾ sử dụng cấu trúc ngữ pháp để dừng việc lan truyền 47,219 câu, độ dài trung bình 23 từ, gán nhãn bằng tay: chỉ z Xét Fred watered his mother’s small garden. Từ garden có có 4.7% hay 2,232 câu có cùng cấu trúc ngữ pháp ảnh hưởng như thế nào? ¾ Không thể dựa trên việc tìm các cấu trúc cú pháp đúng cho z Pr(garden|mother’s small) thấp ⇒ mô hình trigram không tốt cả câu. Phải xây dựng tập các mẫu ngữ pháp nhỏ z Pr(garden | X là thành phần chính của bổ ngữ cho động từ to water) cao hơn ¾ sử dụng bigram + quan hệ ngữ pháp 3 4 Ví dụ Luật 3 Luật S 1. NP→DT NN NN VP 2. NP→DT JJ NN 3. S→NP VBX JJ CC VBX NP z Nhóm (NNS, NN) thành NX; (NNP, NNPs)=NPX; VP VP (VBP, VBZ, VBD) = VBX; Luật 1 VP ADJ z Chọn các luật theo tần suất của nó Luật 2 NP NP DT NN NN VBX JJ CC VBX DT JJ NN This apple pie looks good and is a real treat 5 6
Tính Pr dựa trên suy diễn z Trường hợp cơ bản: chỉ có 1 từ đầu vào Pr(tree) = pr(A→ wi) z Trường hợp đệ qui: Đầu vào là xâu các từ A⇒ wij if ∃k: A→ ΒC, B ⇒* wik ,C ⇒wkj ,i≤k ≤j. p[i,j] = max(p(A→ ΒC) x p[i,k] x p[k,j]). A BC i k j 13 14 wij TÍnh xác suất Viterbi (thuật toán CKY) Ví dụ z S Æ NP VP 0.80 z Det Æ the 0.50 z NP Æ Det N 0.30 z Det Æ a0.40 z VP Æ V NP 0.20 z N Æ meal 0.01 z V Æ includes 0050.05 z N Æ flight 0020.02 0.0504 Dùng thuật toán CYK phân tích câu vào: “The flight includes a meal” 15 Tính Pr Xác suất Forward và Backward 1. S → NP VP 1.0 VP 2. VP → V NP PP 0.4 S 1 t-1 t T 0.6 The big brown fox 3. VP → V NP 0.6 1.0 NP 4. NP → N0.7 NP VP 0.3 • Forward= xác suất các phần 5. NP → N PP 0.3 N’ Xt 0.4 PP The tử trên và bao gồm 1 nút cụ 6. PP → PREP N 1.0 NP NP PP V N 070.7 070.7 big N’’ thể nào đó 7. N → a_dog 0.3 1.0 1.0 ai(t) N 8. N → a_cat 0.5 PREP N Forward brown N V N PREP N i • Backward= xác suất các 9. N → a_telescop 0.2 Probability = fox 0.3 1.0 0.5 1.0 0.2 b (t) phần tử dưới 1 nút cụ thể 10. V → saw 1.0 ai(t)=P(w1(t-1), Xt=i) i nào đó 11. PREP → with 1.0 a_dog saw a_cat with a_telescope Backward Probability = P = 1×.7×.4×.3×.7×1×.5×1×1×.2 = .00588 l bi(t)=P(wtT |Xt=i) Pr = 1×.7×.6×.3×.3×1×.5×1×1×.2 = .00378 17 18 ¾ Pl is chosen
Làm giàu PCFG Làm giàu PCFG z PCFG từ vựng hóa : PLCFG (Probabilistic z PCFG đơn giản hoạt động không tốt do các Lexicalized CFG, Collins 1997; Charniak giả thiết độc lập 1997) z Giải quyết: Đưa thêm thông tin z Gán từ vựng với các nút của luật z Phụ thuộc cấu tútrúc z Cấutrúcu trúc Head z Việc triển khai 1 nút phụ thuộc vào vị trí của nó z Mỗi phần tử của parsed tree được gắn liền với trên cây ( độc lập với nội dung về từ vựng của nó) một lexical head z Để xác định head của một nút trong ta phải xác z Ví dụ: bổ sung thông tin cho 1 nút bằng cách lưu định trong các nút con, nút nào là head (xác định giữ thông tin về cha của nó: SNP khác với VPNP head trong vế phải của một luật). 25 26 Làm giàu PLCFG Tại sao dùng PLCFG VP(dumped) → VBD(dumped) NP(sacks) PP(into) 3*10-10 -11 VP(dumped) → VBD(dumped) NP(cats) PP(into) 8*10 z Tính ngoại lệ (exception) của ngôn ngữ z Sự phân loại theo cú pháp hiện tại chưa thể hiện hết đặc tính hoạt động của từng từ vựng. z Từ vựng hóa luật CFG giúp bộ phân tích cú pháp thực hiện chính xác hơn 27 Hạn chế của PLCFG Penn Treebank VP -> VBD NP PP z Penn Treebank: tập ngữ liệu có chú giải ngữ VP(dumped) -> VBD(dumped) NP(sacks) pháp, có 1 triệu từ, là nguồn ngữ liệu quan PP(into) trọng z Tính thưa: z Không có một corpus đủ lớn! z có 965,000 mẫu, nhưng chỉ có 66 mẫu WHADJP, trong đó chỉ có 6 mẫu không là how much hoặc z Thể hiện hết các trường hợp cú pháp, hết các how many trường hợp đối với từng từ. z Phần lớn các phép xử lý thông minh phụ thuộc vào các thống kê mối quan hệ từ vựng giữa 2 từ liền nhau: 30