Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương

Từ đa nghĩa, đồng nghĩa
z Từ đa nghĩa (Polysemy): một từ nhiều nghĩa,
biểu thị những đặc điểm, thuộc tính khác nhau
của một đối tượng, hoặc biểu thị những đối
tượng khác nhau của thực tại. Ví dụ
z đi chỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ
một người à nào đó đã h chết
z Đồng nghĩa (Synonymy): là những từ tương
đồng với nhau về nghĩa, khác nhau về âm
thanh. Ví dụ
z cố, gắng
z car, automobile 
pdf 7 trang thamphan 3480
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Nghĩa từ vựng và phân giải nhập nhằng từ - Lê Thanh Hương

  1. Từ đồng âm Nghĩa từ vựng và phân z Từ đồng âm (Homonymy): là những từ trùng nhau về hình thức ngữ âm nhưng khác nhau về giải nhập nhằng từ nghĩa z Từ đồng âm, đồng tự (Homograph) : các từ với cùng cách viết nhưng có nghĩa khác nhau. Ví dụ: Lê Thanh Hương z dove - dive into water, w hite bir d Bộ môn Hệ thống Thông tin z saw Viện CNTT &TT – Trường ĐHBKHN z Từ đồng âm, không đồng tự (Homophone): các từ có Email: huonglt-fit@mail.hut.edu.vn cách viết khác nhau nhưng có cùng âm. Ví dụ: z see, sea; meat, meet 1 2 Phân loại từ đồng âm tiếng Việt Từ đa nghĩa, đồng nghĩa z Đồng âm từ với từ, gồm: z Từ đa nghĩa (Polysemy): một từ nhiều nghĩa, z Đồng âm từ vựng: Tất cả các từ đều thuộc cùng một từ loại. Ví dụ: biểu thị những đặc điểm, thuộc tính khác nhau z đường1 (đắp đường) - đường2 (đường phèn). của một đối tượng, hoặc biểu thị những đối z đường kính1 (đường để ăn) - đường kính2 ( của đường tròn). tượng khác nhau của thực tại. Ví dụ z cất1 (cất vó) - cất2 (cất tiền vào tủ) - cất3 (cất hàng) - cất4 (cất rượu) z đi chỉ việc dịch chuyển bằng hai chi dưới hoặc chỉ z Đồồng âm từ vựng-ngữ pháp: Các từ trong nhóm đồng âm với nhau chỉ một ngườiài nào đó đãhã chết khác nhau về từ loại. Ví dụ: z chỉ (cuộn chỉ) - chỉ (chỉ tay năm ngón) - chỉ (chỉ còn có dăm đồng). 1 2 3 z Đồng nghĩa (Synonymy): là những từ tương z câu (nói vài câu) - câu (rau câu) - câu (chim câu) - câu (câu cá) 1 2 3 4 đồng với nhau về nghĩa, khác nhau về âm z Đồng âm từ với tiếng: các đơn vị khác nhau về cấp độ; kích thanh. Ví dụ thước ngữ âm của chúng đều không vượt quá một tiếng. Ví dụ: z cố, gắng z Con trai Văn Cốc lên dốc bắn cò, đứng lăm le cười khanh khách. Con gái z car, automobile Bát Chàng bán hàng thịt ếch ngồi châu chẫu nói ương ương. 3 4 Ràng buộc về lựa chọn: Mã hóa Nghĩa từ vựng ngữ nghĩa trong văn phạm z Ngữ nghĩa nghiên cứu ý nghĩa của các phát biểu dạng z Vị từ biểu diễn các ràng buộc qua tham số ngôn ngữ z read (human subject, textual object) z Nghĩa từ vựng (Lexical semantics) nghiên cứu: z eat (animate subject) z (quan hệ từ vựng) sự liên hệ về mặt ngữ nghĩa giữa các từ z kill (animate object) z (ràng buộc về lựa chọn) cấu trúc liên hệ ngữ nghĩa bên trong của từng từ z Sử dụng vị từ để phân giải nhập nhằng z bao gồm lý thuyết về phân loại và phân rã nghĩa của từ, sự z Ví dụ "dish": giống và khác trong cấu trúc từ vựng – ngữ nghĩa giữa các ngôn ngữ, và quan hệ nghĩa của từ với cú pháp và ngữ z cái đĩa để ăn nghĩa của câu. z món ăn z phương tiện liên lạc 5 6 1
  2. WordNet: Giới thiệu WordNet: Giới thiệu CSDL từ vựng CSDL từ vựng z Lấy ý tưởng từ lý thuyết về tâm lý ngôn ngữ về khả năng z Wordnet cho các ngôn ngữ khác nhớ từ vựng của con người [www.globalwordnet.org] z Xây dựng một mạng khổng lồ cátác từ vựng vàhà quan hệ từ z Có wordnet cho các ngôn ngữ: Tây Ban Nha, Tiệp, Hà vựng Lan, Pháp, Đức, Ý, Bồ Đào Nha, Thụy Điển, Basque, z Wordnet tiếng Anh Estonian z 4 lớp: danh từ, động từ, tính từ, trạng từ z Wordnets đang được làm cho các tiếng: Bulgary, Đan z Danh từ: 120,000; Động từ: 22,000; Tính từ: 30,000; mạch, Hy lạp, Hebrew, Hindi, Cannada, Latvian, Trạng từ: 6,000 Moldavy, Romany, Nga, Slovenian, Tamil, Thái lan, Thổ Nhĩ Kỳ, Ireland, Nauy, Ba tư, Iran 13 14 Tập từ đồng nghĩa Các quan hệ khác trong WordNet Synonym Sets - Synsets •Các từ nối theo chiều dọc biểu diễn quan hệ rộng (holonymy) - hẹp (hypernymy), theo chiều ngang biểu diễn quan hệ bộ phận meronymy (part_of) và holonymy (has_part) . z Từ có nhập nhằng •Mỗi nghĩa của từ được biểu diễn bằng 1 số synset z Các nút trong Wordnet biểu diễn tập từ đồng nghĩa “synonym sets”, hoặc synsets. Ví dụ: z Fool: 1 ngườidi dễ bị lợidi dụng z {chump, fish, fool, gull, mark, patsy, fall guy, sucker, schlemiel, shlemiel, soft touch, mug} z Synset = tập khái niệm 15 16 Phân giải nhập nhằng sử dụng quan hệ từ vựng Supplement Vitamin_Pill Publication Dietary Pill Nutriment Textual Matter Nutriment Medicine SENSE OF WORD KIND-OF (HYPONYMY) HAS-PART (HOLONYMY) WordNet Similarity Metrics: PART-OF (MERONYMY) 18 3
  3. Nhược điểm của WordNet trong tính quan hệ ngữ nghĩa Cách tiếp cận dựa trên từ điển z Độ đo quan hệ ngữ nghĩa WordNet dựa trên các giả z Các từ điển điện tử (Lesk ‘86) thiết sau: z Cho biết ý nghĩa của các từ trong ngữ cảnh cụ thể nội z Mọi cạnh trong đồ thị có độ dài bằng nhau dung (vd., I’ve often caught bass while out at sea) z Các nhánh trong đồ thị có cùng độ đậm đặc z So sánh sự chồng chéo của các định nghĩa về nghĩa của từ (bass2: a type of fish that lives in the sea) z Tồn tại tất cả các quan hệ ngoại động từ z Chọn nghĩa trùng nhau nhiều nhất z Hạn chế: đường dẫn đến từ ngắn Æ mở rộng ¾ không đáng tin cậy cho các từ liên quan 25 26 Các đặc trưng sử dụng trong Cách tiếp cận học máy WSD z Học việc phân loại để gán từ với một trong các z Các thẻ POS của từ và các từ lân cận nghĩa của nó z Các từ lân cận (có thể lấy gốc từ hoặc không) z Tích lũy tri thức từ tập ngữ liệu có hoặc không gán nhãn z Dấu chấm, viết hoa, định dạng z Con người chỉ can thiệp vào tập ngữ liệu gán nhãn và lựa z PTCP bộ phận để xác định vai trò ngữ pppháp và quan chọn tập đặc trưng sử dụng trong việc huấn luyện hệ giữa chúng z Vào: vectơ đặc trưng z Các thông tin về đồng xuất hiện: z đích (từ cần phân giải nhập nhằng) z Từ và các từ lân cận của nó có thường đồng xuất hiện không z nội dung (các đặc trưng có thể dùng để tiên đoán nghĩa z Đồng xuất hiện của các từ láng giềng đúng) z Ví dụ: sea có thường xuyên xuất hiện với bass không z Ra: các luật phân loại cho văn bản mới 27 28 Các kiểu phân loại Ví dụ z Naïve Bayes: Nghĩa tốt nhất là nghĩa có khả năng xảy ra Tôi ăn cơm với cá. nhất với 1 đầu vào cho trước z DT ĐgT DT GT DT argmax p(V|s)p(s) z ŝ = p(s|V), hoặc arg max z (C (CN (ĐaT Tôi)) (VN (ĐgN (ĐgN (ĐgT ăn) (DT cơm)) (GN (GT s∈S s∈S p(V) với) (DT cá))))) z trong đó s là 1 trong các nghĩa và V là vector đầu vào của các Em bé chỉ thích ăn kẹo thôi. đặctrc trưng z DT TT TT ĐgT DT PT z Chỉ có ít dữ liệu có thông tin vector kết hợp với nghĩa z (C (CN (DT Em bé)) (VN (TN (TN (TT chỉ) (TN (TT thích) (ĐgN (ĐgT z Giả sử các đặc trưng là độc lập, p(V|s) là tích xác suất của các ăn) (DT kẹo)))) (PT thôi)))) đặc trưng n Nó ăn nhiều hoa hồng quá. p(V |s) = ∏ p(v j|s) z ĐaT ĐgT TT DT TT j=1 z (C (CN (ĐaT Nó)) (VN (ĐgN (ĐgN (ĐgT ăn) (TT nhiều) (DT hoa z p(V) là giống nhau với mọi ŝ (không ảnh hưởng đến xếp hạng hồng)) (TT quá)))) cuối cùng) z Tôi tên là Hoa. 29 30 5
  4. Độ chính xác của WSD và IR z Từ đồng nghĩa có ảnh hưởng lớn hơn: z Gonzalo et al. (1998; 1999): sử dụng SemCor (tập ngữ liệu Brown với các thẻ nghĩa của WordNet) cho thấy nếu phân giải nhập nhằng có độ cx = 100% z Đánh ch ỉ số nghĩa (vd synset number) có độ cx IR = 62% z Đánh chỉ số nghĩa của từ (vd canine1) có độ cx IR = 53.2% z Đánh chỉ số từ gốc có độ cx IR = 48% z Gonzalo et al. cho thấy độ cx tối thiểu 90% với WSD cho IR là quá cao. Gần 60% từ giả không hoạt động giông như từ có nhập nhằng thật. 37 7