Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại văn bản - Lê Thanh Hương

Các trường hợp đo độ chính xác phức
tạp hơn
z Phân lớp nhiều lớp
{Độ chính xác trung bình ( hoặc precision hoặc recall)
của các phân lớp 2 lớp: thể thao hoặc không, tin tức
hoặc không
{Tốt hơn, đánh giá chi phí của các lớp lỗi
ấ ề
zvd, đánh giá ảnh hưởng của các v n đ sau:
• đặt các bài về Thể thao vào mục Tin tức
• đặt các bài về Mốt vào mục Tin tức
• đặt các bài về Tin tức vào mục Mốt
zđiều chỉnh hệ thống để giảm thiểu tổng chi phí
z Với các hệ thống xếp hạng:
{Mức độ liên quan đến xếp hạng của con người
{Lấy các phản hồi tích cực từ người dùng 
pdf 4 trang thamphan 27/12/2022 3060
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại văn bản - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại văn bản - Lê Thanh Hương

  1. Phân loại văn bản z Phân loại: (Text Categorization) Đầuvàocủa bài toán là tập Phân loại văn bản các vănbản đã được phân lớp sẵn, cho một văn bản Lê Thanh Hương mớivào,ứng dụng phảichỉ ra vănbản đóthuộcchủđề Bộ môn Hệ thống thông tin nào trong các chủđểban Viện CNTT&TT đầu. 1 2 Phân nhóm văn bản Tại sao cần PLVB? zLà tiếng Việt? z Phân nhóm: (Text Clustering) Là bài toán cho mộttậpvăn zLọc tin bảnchưa được phân lớpgì zChuyển hướng cuộc gọi cả, ứng dụng phải chia tập vănbản này thành các nhóm zPhân loại thư (cuộc hẹn, công việc, khẩn, dựatrênđộ tương đồng giữa bạn bè, thư rác, ) chúng. 4 Đo độ chính xác Đo độ chính xác Precision vs. Recall of Precision vs. Recall of OK for search Good (non-spam) Email z Precision = các thư được giữ (đúng) Good (non-spam) Email engines (maybe) 100% tất cả các thư giữ high threshold: 100% would prefer 75% all we keep is good, to be here! ision 50% c n but we don ’ t keep much z RllRecall = 75% 25% Pre các thư được giữ (đúng) 0% 0% 25% 50% 75% 100% các thư đúng 50% point where low threshold: Recall precision=recall keep all the good stuff, Precisio 25% (often reported) but a lot of the bad too OK for spam 0% filtering and 0% 25% 50% 75% 100% legal search 5 Recall 6 1
  2. slide courtesy of D. Yarowsky (modified) slide courtesy of D. Yarowsky (modified) Kết hợp các dấu hiệu và Naive Bayes Kết hợp các dấu hiệu và Naive Bayes các giá trị này được tính từ các bài c ủaacáctác các tác giả đã biết trước (học có giám sát) 1 2 1 2 Câu này là câu của sinh Mô hình “Naïve Bayes” cho phân lớp văn viên A hay B? bản (Chú ý giả thiết độc lập) 13 14 example from Manning & Schütze Cây quyết định Các đặc trưng ngoài Unigrams Bài báo Reuters này thuộc lĩnh vực Lợi nhuận? z Các cách tiếp cận trên (trừ mô hình n-gram ) có thể sử dụng các đặc trưng khác, không chỉ unigrams. 2301/7681 = 0.3 of all docs z Vấn đề lựa chọn đặc trưng contains “cents” ≥ 2 times contains “cents” < 2 times { Sử dụng tập lớn các đặc trưng lưu trongpg 1 template { Có thể tìm các đặc trưng có ích khi xét 1 cách độc lập? 1607/1704 = 0.943 694/5977 = 0.116 { Thêm lần lượt các đặc trưng contains contains z Đo hoặc đoán khả năng cải thiện của mỗi đặc trưng contains contains { Cuối cùng, loại bỏ các đặc trưng làm giảm tính chính xác của hệ “versus” “versus” “net” “net” thống khi tiến hành thử nghiệm trên bộ dữ liệu mới ≥ 2 times < 2 times ≥ 1 time < 1 time z Chương trình SpamAssassin sử dụng các đặc trưng gì 1398/1403 209/301 422/541 272/5436 = 0.996 = 0.694 = 0.780 = 0.050 15 16 “yes” “no” Các đặc trưng trong SpamAssassin Các đặc trưng trong SpamAssassin 100 From: địa chỉ trong danh sách đen 3.198 Forged eudoramail.com 'Received:' header found 4.0 Người gửi trong danh sách www.habeas.com Habeas Infringer 3.193 Free Investment 3.994 Ngày không hợp lệ: tiêu đề (timezone không tồn tại) 3.180 Received via SBLed relay, see 3.970 Viết bằng 1 ngôn ngữ lạ 3.140 Character set doesn't exist 3.910 Liệt kê trong Razor2, xem 3.123 Dig up Dirt on Friends 3.801 Tiêu đề là các ký tự lấp đầy 8-bit 3.090 No MX records for the From: domain 3.472 Thông báo tuân theo Senate Bill 1618 3.072 X-Mailer contains malformed Outlook Expressversion 3.437 exists:X-Precedence-Ref 3.044 Stock Disclaimer Statement 3.371 Ngày đảo ngược 3.009 Apparently, NOT Multi Level Marketing 3.350 Thông báo bạn có thể bị loại khỏi danh sách 3.005 Bulk email software fingerprint (jpfree) found inheaders 3.284 Tài sản bí mật 2.991 exists:Complain-To 3.283 Thông báo yêu cầu rời khỏi danh sách 2.975 Bulk email software fingerprint (VC_IPA) found inheaders 3.261 Có chứa từ “Stop Snoring" 2.968 Invalid Date: year begins with zero 3.251 Received: chứa tên với địa chỉ IP giả 2.932 Mentions Spam law "H.R. 3113" 3.250 Nhận được qua chuyển tiếp trong list.dsbl.org 2.900 Received forged, contains fake AOL relays 3.200 Tập ký tự chỉ một ngôn ngữ lạ 17 2.879 Asks for credit card details 18 3