Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Giới thiệu môn học - Lê Thanh Hương
Các chủ đề trong XLNNTN
Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực
chứng, …
Các bài toán con: gán nhãn từ loại, PTCP, phân giải
nhập nhằng từ, phânt ích cấu trúc diễn ngôn, …
Thuật toán và phương pháp: dựa trên tập ngữ liệu,
dựa trên tri thức, …
Các ứng dụng: trích rút thông tin, phản hồi thông tin,
dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên,
Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực
chứng, …
Các bài toán con: gán nhãn từ loại, PTCP, phân giải
nhập nhằng từ, phânt ích cấu trúc diễn ngôn, …
Thuật toán và phương pháp: dựa trên tập ngữ liệu,
dựa trên tri thức, …
Các ứng dụng: trích rút thông tin, phản hồi thông tin,
dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên,
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Giới thiệu môn học - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf
Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Giới thiệu môn học - Lê Thanh Hương
- Mục đích môn học Xử lý ngôn ngữ tự nhiên z Hiểu các nguyên tắc cơ bản và các cách tiếp cận trong XLNNTN z Họcccác các kỹ thuật vàcôgcà công cụ có thể dùn g để páphát triển các hệ thống (Natural Language Processing) hiểu văn bản hoặc nói chuyện với con người z Thu được một số ý tưởng về các vấn đề mở trong XLNN Lê Thanh Hương Tài liệu tham khảo Bộ môn Hệ thống Thông tin z Christopher Manning and Hinrich Schütze. 1999. Foundations of Viện CNTT &TT – Trường ĐHBKHN Statistical Natural Language Processing. The MIT Press. Email: huonglt-fit@mail. hut. edu.vn z Dan Jurafsky and James Martin. 2000. Speech and Language Processing. PrenticeHall. z James Allen. 1994. Natural Language Understanding. The Benjamins/Cummings Publishing Company Inc. 1 2 Thông tin chung Xử lý NNTN là gì? z Đánh giá z Giữa kỳ: 30% z Điểm danh:10% z Đóng góp trong giờ học:10% z BTL: 10% z Cuối kỳ: thi viết 70% Âm thanh Ý nghĩa z Điều kiện được thi cuối kỳ: z Vắng mặt ít hơn 30% số lần điểm danh z Có tất cả các loại điểm giữa kỳ z Bài tập lớn: z Viết tiểu luận hoặc cài đặt chương trình theo nhóm (<= 4sv) z Bảo vệ kết quả trong 2 tuần cuối của học kỳ z Website: 3 4 z 1
- Nói chuyện với Eliza Nói chuyện với Eliza z H: you’re a program, aren’t you? z E: does it please you to believe i am a program, am not i? z E: what makes you think i am blonde? z H: it sure does z HidH: i don ’tk’t know z E: i see z H: yup z E: don’t you really know? z E: a while back you talk about your face z H: no z H: what about your face? z E: are you saying no just to be negative? z E: what is it you really want to know? z H: no z H: are you my kind of girl? z E: perhaps in your fantasies i am your kind of girl z E: you are being a bit negative z H: in my fantasies you are blonde z H: no i’m not z E: how long have you been not? 9 10 Tại sao nghiên cứu XLNNTN Các chủ đề trong XLNNTN z Nghiên cứu cách con người xác định từ z Mức phân tích: cú pháp, ngữ nghĩa, diễn ngôn, thực chứng, z Nghiên cứu cách con người phân tích câu z Các bài toán con: gán nhãn từ loại, PTCP, phân giải z Nghiên cứu cách con người học một ngôn nhập nhằng từ, phânt ích cấu trúc diễn ngôn, ngữ z Thuật toán và phương pháp: dựa trên tập ngữ liệu, z Nghiên cứu cách ngôn ngữ tiến hóa dựa trên tri thức, z Các ứng dụng: trích rút thông tin, phản hồi thông tin, dịch máy, hỏi đáp, hiểu ngôn ngữ tự nhiên, 11 12 3
- Ngữ pháp: nhập nhằng cấu Gán nhãn từ loại trúc (từ loại) Con ngựa đá con ngựa đá. Time flies like an arrow. z Con ngựa/DT đá/ĐgT con ngựa/DT đá/TT. Time // flies like an arrow. z Ông/ĐaT già/TT đi/Phó_từ nhanh/TT VBZ giới từ so sánh (IN) quá/trạng_từ. z Ông già/DT đi/ĐgT nhanh/TT quá/trạng_từ. Time flies // like an arrow. NNS VBP 17 18 Ngữ pháp: nhập nhằng cấu Ngữ pháp: nhập nhằng cấu trúc (từ loại) trúc (liên kết) Ông già // đi nhanh quá. S Ông // già đi nhanh quá. VP NP NP V NP PP PP I saw the man on the hill with a telescope. 19 20 5
- Diễn ngôn: đồng tham chiếu Thực chứng President John F. Kennedy was assassinated. Bạn rút ra điều gì từ những điều tôi nói? Bạn The president was shot yesterday. phản ứng thế nà?ào? Relatives said that John was a good father. Luật hội thoại JFK was the youngest president in history. z Bạn ơi mấy giờ rồi? His family will bury him tomorrow. z Anh đưa cho em lọ muối được không? Friends of the Massachusetts native will hold a candlelight service in Mr. Kennedy’s home Nói kèm theo diễn tả town. z Tôi cá với bạn 500.000 là đội Việt Nam sẽ thắng. 25 26 Tri thức về ngôn ngữ: Chúng ta biết Tri thức thế giới gì về câu này? z Các từ phải xuất hiện theo một trình tự nhất định: Mai đi ăntn tốiCôi. Cô ấygy gọi món bít tếtCôt. Cô ấy để lại a. Chó kem ăn. bChób. Chó ănnkem kem tiền boa và về nhà. z Các bộ phận cấu thành câu: chó = chủ ngữ (subject); ăn kem = vị ngữ (predicate) z Ai làm gì cho ai: z Mai ăn gì vào bữa tối? chủ thể(chó), hành động(ăn), đối tượng(kem) z Ai mang bữa tối đến cho Mai? z Ai làm bít tết? z Mai có trả tiền không? 27 28 7
- “Phân tích” = gắn bề ngoài với Phân tích câu hỏi cách biểu diễn trong của nó LSAT / (former) GRE z Sáu tượng điêu khắc – C, D, E, F, G, H – được triển lãm trong các phòng 1, 2, 3 của một triển lãm. z Tượng CCàEóth và E có thể không trong c ùng p hòng. z Vì sao XLNNTN khó: What makes NLP hard: z Tượng D và G phỉa trong một phòng. không có tương ứng 1-1 với bất kỳ cách biểu z Nếu tượng E và F trong cùng phòng thì không có tượng nào khác diễn nào. trong phòng đó z Có íta nhất 1 tượng triển lãm trong một phòng, không có nhiều z Ta cần biết cấu trúc dữ liệu và thuật toán để hơn 3 tượng trong bất cứ phòng nào thực hiện, mặc dù có thể xảyyg ra bùng nổ tổ z Nếu tượng D được triển lãm trong phòng 3 và các tượng E, F trong hợp ở bất cứ công đoạn xử lý nào phòng 1, trong các phát biểu dưới đây, phát biểu nào đúng: A. Tượng C trong phòng 1 B. Tượng H trong phòng 1 C. Tượng G trong phòng 2 D. Tượng C và H trong cùng phòng 33 34 E. Tượng G và F trong cùng phòng Giải quyết đồng tham chiếu Tại sao XLNNTN lại khó? U: A Bug’s Life được chiếu tại chỗ nào của Mountain View? NNTN: S: A Bug’s Life được chiếu ở rạp Summit. U: Khi nào nó được chiếu ở đó? z Nhập nhằng tại mọi mức S: Nó được chiếu lúc 2pm, 5pm, và 8pm. z Phức tạp và mờ U: Tôi muốn 1 người lớn, 2 trẻ con cho buổi chiếu đầu z Liên quan lập luận về thế giới tiên. Nó giá bao nhiêu? z Các nguồn tri thức: z Tri thức miền (Domain knowledge) z Tri thức về diễn ngôn (Discourse knowledge) z Tri thức thế giới (World knowledge) 35 36 9
- Các ứng dụng của XLNNTN z Khó: xử lý tiếng nói (speech processing), dịch máy (machine translation), trích rút thông tin (information extraction), giao diện hội thoại = NNTN (dialog interface), hỏi đáp (question answering) z Ứng dụng hiện nay: sửa lỗi chính tả, phân loạivi vănbn bản, 41 11
- Google News [02] 49 13