Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Gán nhãn từ loại - Lê Thanh Hương
Tập từ loại tiếng Anh
z Lớp đóng (các từ chức năng): số lượng cố định
z Giới từ (Prepositions): on, under, over,…
z Tiểu từ (Particles): abroad, about, around, before, in,
instead, since, without,…
z Mạo từ (Articles): a, an, the
z Liên từ (Conjunctions): and, or, but, that,…
z Đại từ (Pronouns): you, me, I, your, what, who,…
z Trợ động từ (Auxiliary verbs): can, will, may, should,…
z Lớp mở: có thể có thêm từ mới
z Lớp đóng (các từ chức năng): số lượng cố định
z Giới từ (Prepositions): on, under, over,…
z Tiểu từ (Particles): abroad, about, around, before, in,
instead, since, without,…
z Mạo từ (Articles): a, an, the
z Liên từ (Conjunctions): and, or, but, that,…
z Đại từ (Pronouns): you, me, I, your, what, who,…
z Trợ động từ (Auxiliary verbs): can, will, may, should,…
z Lớp mở: có thể có thêm từ mới
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Gán nhãn từ loại - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf
Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Gán nhãn từ loại - Lê Thanh Hương
- Định nghĩa z Gán nhãn từ loại (Part of Speech tagging - POS Gán nhãn từ loại tagging): mỗi từ trong câu được gán nhãn thẻ từ loại tương ứng của nó z Vào : 1 đoạn văn bản đã tách từ + tập nhãn Lê Thanh Hương z Ra: cách gán nhãn chính xác nhất Bộ môn Hệ thống Thông tin Viện CNTT &TT – Trường ĐHBKHN Ví dụ 1 Ví dụ 2 Email: huonglt-fit@mail.hut.edu.vn Ví dụ 3 Ví dụ 4 Ví dụ 5 ¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn 1 2 Tại sao cần gán nhãn? Tập từ loại tiếng Anh z Dễ thực hiện: có thể thực hiện bằng nhiều phương pháp z Lớp đóng (các từ chức năng): số lượng cố định khác nhau z Giới từ (Prepositions): on, under, over, z Các phương pháp sử dụng ngữ cảnh có thể đem lại z Tiểu từ (Particles): abroad, about, around, before, in, kết quả tốt instead, since, without, z Mặc dùêthdù nên thực hiện bằng phân tí c h văn bản z Mạo từ (Articles): a, an, the z Các ứng dụng: z Liên từ (Conjunctions): and, or, but, that, z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead – z Đại từ (Pronouns): you, me, I, your, what, who, N [led], V: [li:d] z Trợ động từ (Auxiliary verbs): can, will, may, should, z Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãn tốt hơn nhưng đắt hơn z Lớp mở: có thể có thêm từ mới z Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v z Dễ đánh giá (có bao nhiêu thẻ được gán nhãn đúng?) 3 4 Lớp từ mở trong tiếng Anh Proper nouns: IBM, Colorado Tập nhãn cho tiếng Anh nouns count nouns: book, ticket common nouns mass nouns: snow, salt auxiliaries z tập ngữ liệu Brown: 87 nhãn verbs . . . z 3 tập thường được sử dụng: Color: red, white open class ¾ Nhỏ:45nhãn: 45 nhãn - Penn treebank (slide sau) adjectives Age: old, young ¾ Trung bình: 61 nhãn, British national corpus Value: good, bad ¾ Lớn: 146 nhãn, C7 Locatives adverbs: home, here, downhill Degree adverbs: extremely, very, somewhat adverbs Manner adverbs: slowly, delicately Temporal adverbs: yesterday, Monday 5 6
- Ví dụ -HMMs Gán nhãn HMM z Công thức Bigram HMM: chọn ti cho wi có nhiều khả năng nhất khi biết ti-1 và wi : ti = argmaxj P(tj | ti-1 , wi)(1) z Giả thiết đơnngi giản hóa HMM: vấn đề gán nhãn có thể giải quyết bằng cách dựa trên các từ và thẻ từ loại bên cạnh nó ti = argmaxj P(tj | tj-1 )P(wi | tj ) (2) Thực hiện học có giám sát, sau đó suy diễn để xác định thẻ từ loại xs chuỗi thẻ xs từ thường xuất hiện với thẻ tj (các thẻ đồng xuất hiện) 13 14 Ví dụ Giả sử chúng ta có tất cả các từ loại trừ từ race I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DT 1. Secretariat/NNP is/VBZ expected/VBN to/TO race/VB sun/NN. z Chỉ nhìn vào từ đứng trước(bigram): tomorrow/NN to/TO race/??? NN or VB? 2. People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ the/DT race/??? space/NN z Áp dụng (2): t = argmax P(t | t )P(w | t ) z Không thể đánh giá bằng cách chỉ đếm từ trong tập ngữ i j j j-1 i j liệu (và chuẩn hóa) z Chọn thẻ có xác suất lớn hơn giữa 2 xác suất: z Muốn 1 động từ theo sau TO nhiều hơn 1 danh từ (to race, to walk). Nhưng 1 danh từ cũng có thể theo sau P(VB|TO)P(race|VB) hoặc P(NN|TO)P(race|NN) TO (run to school) xác suất của 1 từ là race khi biết từ loại là VB. 15 16 Tính xác suất Bài tập Xét P(VB|TO) và P(NN|TO) z I know that blocks the sun. z Từ tập ngữ liệu Brown z He always books the violin concert tickets early. P(NN|TO)= .021 z He says that book is interesting. P(VB|TO)= .340 z I/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN. P(race|NN)= 0.00041 z He/PP always/RB books/VBZ the/DT violin/NN P(race|VB)= 0.00003 concert/NN tickets/NNS early/RB. z P(VB|TO)P(race|VB) = 0.00001 z He/PP says/VBZ that/WDT book/NN is/VBZ interesting/JJ. z P(NN|TO)P (race|NN) = 0.000007 z I know that block blocks the sun. ¾ race cần phải là động từ nếu đi sau “TO” z I/PP know/VBP that/DT block/NN blocks/NNS?VBZ? 17 the/DT sun/NN. 18
- Ví dụ nn PTìm()(tPtt đườ | )ng đ Ptti ( có | đ tiể )[m cao Pwt ( | )] NNS NNS 121∏∏iii−− 21 ii nhất ii=31= NNS NNS DT NNS 30 75 1 NNS VB VBP DT 30 60 the dog saw ice-cream 1 1 52 VB Tìm đường đi tốt nhất? VBP the dog saw ice-cream 25 26 Cách tìm đường đi có điểm cao nhất Độ chính xác z Sử dụng tìm kiếm kiểu best-first (A*) z > 96% 1. Tại mỗi bước, chọn k giá trị tốt nhất ( ) . Mỗi giá trị trong k giá trị này ứng với 1 khả năng kết hợp z Cách đơn giản nhất? 90% nhãn của tất cả các từ z Gán mỗi từ với từ loại thường xuyên nhất của 2. Khi gán từ tiếp theo, tính lại xác suất. Quay lại nó bước 1 z Gán từ chưa biết = danh từ z Ưu: nhanh (không cần kiểm tra tất cả các khả năng z Người: 97%+/- 3%; nếu có thảo luận: 100% kết hợp, chỉ k cái tiềm năng nhất) z Nhược: có thể không trả về kết quả tốt nhất mà chỉ chấp nhận được 27 28 Cách tiếp cận thứ 2: gán nhãn Transformation-based painting dựa trên chuyển đổi Transformation-based Learning (TBL): z Kết hợp cách tiếp cận dựa trên luật và cách tiếp cận xác suất: sử dụng học máy để chỉnhhl lạiith thẻ thông qua vài lần duyệt z Gán nhãn sử dụng tập luật tổng quát nhất, sau đó đến tập luật hẹp hơn, thay đổi một số nhãn, và tiếp tục 29 30
- Ví dụ với TBL Ví dụ với TBL 1. Gán mọi từ với nhãn thường xuất hiện nhất (thường độ chính xác khoảng 90% ). Từ tập ngữ liệu Brown: P((|NN|race) =0.98 P(VB|race)= 0.02 2. expected/VBZ to/ TO race/VBrace/NN tomorrow/NN the/DT race/NN for/IN outer/JJ space/NN 3. Sử dụng luật chuyển đổi: Thay NN bằng VB khi thẻ trước đó là TO pos: ‘NN’>’VB’ ← pos: ‘TO’ @[-1] o 37 38 Luật gán nhãn từ loại Luật gán nhãn từ loại 39 40 Học luật TB trong hệ thống TBL Các tập ngữ liệu z Tập huấn luyện w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 w10 z Tậpngp ngữ liệuuhi hiệnnt tạii(CC1) (CC 1) dt vb nn dt vb kn dt vb ab dt vb z Tập ngữ liệu tham khảo dt nn vb dt nn kn dt jj kn dt nn 41 42
- Tối ưu hóa việc chọn luật tốt Chọn luật tốt nhất nhất z Thứ hạng hiện tại của luật ứng viên z Giảm dư thừa luật:chỉ sinh các luật ứng viên R1 = tag:vb>nn ← tag:dt@[-1] Score = 2 phù hợp ít nhất với 1 dữ liệu trong tập luyện. R2 = tag:nn>vb ← tag:vb@[-1] Score = 1 z Đánh giá t ăng c ường: z Nếu score threshold = 2, dừng z Bỏ qua các luật phù hợp với số lượng mẫu 4%) z Dựa trên 3 dạng đuôi biến tố (-ed, -s, -ing); 32 đuôi phái sinh (-ion, etc.); chữ hoa; gạch z NN (common noun) vs .NNP (proper noun) vs. JJ ((jadjective ): khó phân biệt, sự phân biệt nàyyq là quan nối trọng đặc biệt trong trích rút thông tin z RP(particle) vs. RB(adverb) vs. IN(preposition):tất cả z Tổng quát hơn: các loại này có thể xuất hiện tuần tự sau động từ z Phân tích hình thái từ z VBD vs. VBN vs. JJ: phân biệt thời quá khứ, phân từ z Các cách tiếp cận học máy 2, tính từ (raced vs. was raced vs. the out raced horse) 53 54
- [Đinh Điền] Cách tiếp cận 2 z Ưu điểm: z [Nguyen Huyen, Vu Luong] Thi Minh Huyen Nguyen, Laurent Romary, and Xuan Luong Vu, A Case Study in POS Tagging of z tránh được việc gán nhãn từ loại bằng tay nhờ tận Vietnamese Texts. The 10th annual conference TALN 2003. dụng thông tin từ loại ở một ngôn ngữ khác. z dựa trên nền tảng và tính chất ngôn ngữ của tiếng Việt. z Nhược: z xây dựng tậppt từ loại (tagset) cho ti ếng Vi ệtdt dựatrêna trên z Tiếng Anh và tiếng Việt khác nhau: về cấu tạo từ, trật chuẩn mô tả khá tổng quát của các ngôn ngữ Tây Âu, tự và chức năng ngữ pháp của từ trong câu Æ khó nhằm mô đun hóa tập nhãn ở hai mức: khăn trong gióng hàng z mức cơ bản/cốt lõi (kernel layer): đặc tả chung nhất cho các z Lỗi tích lũy qua hai giai đoạn: (a) gán nhãn từ loại cho ngôn ngữ tiếng Anh và (b) gióng hàng giữa hai ngôn ngữ z mức tính chất riêng (private layer): mở rộng và chi tiết hóa cho một ngôn ngữ cụ thể dựa trên tính chất của ngôn ngữ đó z Tập nhãn được chuyển đổi trực tiếp từ tiếng Anh sang tiếng Việt không điển hình cho từ loại tiếng Việt 61 62 [Nguyen Huyen, Vu Luong] Cách tiếp cận 3 z mức cơ bản: danh từ (noun – N), động từ (verb – V), z [Phuong] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê tính từ (adjective – A), đại từ (pronoun – P), mạo từ Hồng Phương . Sử dụng bộ gán nhãn từ loại xác suất (determine – D), trạng từ (adverb – R), tiền-hậu giới QTAG cho văn bản tiếng Việt. Kỷ yếu Hội thảo từ (adposition – S), liên từ (conjunction – C), số từ ICT.rda’03 (numeral – M), tình thái từ (interjection – I), và từ z ngoại Việt (residual – X, như foreign words, ). làm việc trên một cửa sổ chứa 3 từ, sau khi đã bổ sung thêm 2 từ giả ở đầu và z mức tính chất riêng: được triển khai tùy theo các dạng từ loại trên như danh từ đếm được/không đếm được cuối văn bản. đối với danh từ, giống đực/cái đối với đại từ, .v.v. z Nhãn được gán cho mỗi từ đã lọt ra ngoài cửa sổ là nhãn kết quả cuối cùng. 63 64 Thủ tục gán nhãn từ loại [Phương] [Phương] 1. Đọc từ (token) tiếp theo z Chia kho văn bản đã gán nhãn làm 2 tập: tập huấn luyện 2. Tìm từ đó trong từ điển và tập thử nghiệm 3. Nếu không tìm thấy, gán cho từ đó tất cả các nhãn có thể z Tự động gán nhãn cho các phần văn bản 4. Với mỗi nhãn có thể z So sánh kết quả thu được với dữ liệu mẫu. a. tính Pw = P(tag|token) z Thời gian huấn luyện với 32000 từ: ~ 30s b. tính Pc = P(tag|t1,t2), t1, t2, là nhãn tương ứng của hai từ đứng trước từ token. c. tính Pw,c = Pw * Pc, kết hợp hai xác suất trên. 5. Lặp lại phép tính cho hai nhãn khác trong cửa sổ Sau mỗi lần tính lại (3 lần cho mỗi từ), các xác suất kết quả được kết hợp để cho ra xác suất toàn thể của nhãn được gán cho từ. 65 66
- Ngữ cảnh cho trích xuất đặc Ngữ cảnh cho trích xuất đặc trưng trưng 73 74 Kết quả gán nhãn sử dụng Tập từ loại tiếng Việt MaxEnt và CRFs idPOS symbolPOS vnPOS enPOS 1 N danh từ noun 2V động từ verb 3 A tính từ adjective 4M số từ numeral 5P đại từ pronoun 6 R phụ từ adverb 7O giới từ preposition 8 C liên từ conjunction 9I trợ từ auxiliary word 10 E cảm từ emotivity word 11 Xy* từ tắt abbreviation 12 S yếu tố từ (bất, vô ) component stem 13 U không xác định undetermined •Từ tắt mang nhãn kép: X = từ loại của từ tắt ; 75 •y = kí hiệu từ tắt. Ví dụ: GDP-Ny ; HIV – Ny. 76 Tập tiểu từ loại tiếng Việt Tập tiểu từ loại tiếng Việt idPOS idSub symbol vnPOS enPOS POS POS idPOS idSub symbol vnPOS enPOS 1 1 Np danh từ riêng proper noun POS POS 1 2 Nc danh từ đơn thể countable noun 417Mcsố từ số lượng cardinal numeral 1 3 Ng danh từ tổng thể collective Noun 418Mosố từ thứ tự ordinal numeral 1 4 Na danh từ trừu tượng abstract noun 519Ppđại từ xưng hô personal pronoun 1 5 Ns danh từ chỉ loại classifier noun 520Pdđại từ chỉ định demonstrative pronoun 1 6 Nu danh từ đơnvn vị unit noun 5 21 Pq đạiti từ số lượng quality pronoun 1 7 Nq danh từ chỉ lượng quantity noun 522Piđại từ nghi vấn interrogative pronoun 28Viđộng từ nội động intransitive verb 623Rphụ từ adverb 29Vtđộng từ ngoại động transitive verb 724Ogiới từ preposition 210Vsđộng từ trạng thái state verb 8 25 C liên từ conjunction 211Vmđộng từ tình thái modal verb 926Itrợ từ auxiliary word 212Vrđộng từ quan hệ relative verb 10 27 E cảm từ emotivity word 3 13 Ap tính từ tính chất property adjective 11 28 Xy từ tắt abbreviation 3 14 Ar tính từ quan hệ relative adjective 12 29 S yếu tố từ (bất, vô ) component stem 3 15 Ao tính từ tượng thanh onomatopoetic adjective 13 30 U không xác định undetermined 3 16 Ai tính từ tượng hình pictographic adjective 77 78