Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân lớp văn bản Tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương

Các phương pháp biểu diễn văn bản (tt)
ƒ Mô hình Lexical Chain:
ƒ “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa
các từ trong văn bản có mối liên quan với nhau về mặt ngữ
nghĩa
ƒ Một số loại quan hệ về ngữ nghĩa giữa các từ:
ƒ Lặp lại (Repeatation)
ƒ Đồng nghĩa (synonyms )
ƒ Trái nghĩa ()
ƒ Bộ phận-Toàn thể (hypernyms, hyponyms )
ƒ …
ƒ Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường}
pdf 6 trang thamphan 3520
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân lớp văn bản Tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân lớp văn bản Tiếng Việt theo hướng tiếp cận lexical chain - Lê Thanh Hương

  1. 4/21/2011 PHẦN I: PHÂN LỚP VĂN BẢN TIẾNG VIỆT THEO HƯỚNG TIẾP CẬN LEXICAL CHAIN TỔNG QUAN V Ề BÀI TOÁN PHÂN LỚP VĂN BẢN Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản ƒ Mô hình tần số kết hợp TF x IDF ƒ Mô hình vector ƒ Xét: ƒ Văn bản = 1 vector n chiều + trọng số cho mỗi giá trị của nó ƒ Tập dữ liệu gồm m văn bản: D = {d , d , d }. ƒ Mô hình vector thưa 1 2 m ƒ Mỗi văn bản biểu diễn dưới dạng một vector gồm n thuật ƒ số từ vớiti trọng số khác 0 n hỏ hơn rấtthi nhiều so với số từ có ngữ T = {t , t , t }. trong Cơ sở dữ liệu 1 2 n ƒ fij là số lần xuất hiện củathuật ngữ ti trong văn bảndj ƒ m là số lượng văn bản ƒ hi là số văn bảnmà thuật ngữ ti xuất hiện ƒ Gọi W = {wij } là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti trong văn bản dj Các phương pháp biểu diễn văn bản Các phương pháp biểu diễn văn bản (tt) ƒ Mô hình Lexical Chain: ƒ Ma trận trọng số TFxIDF được tính như sau: ƒ “Lexical Chain” là một khái niệm nhằm duy trì tính cố kết giữa các từ trong văn bản có mối liên quan với nhau về mặt ngữ nghĩa ⎧ ⎛ m ⎞ ƒ Một số loại quan hệ về ngữ nghĩa giữa các từ: ⎜ ⎟ ƒ ⎪[1+ log( fij )]log⎜ ⎟ nÕu hij ≥1 Lặp lại (Repeatation) wij = ⎨ ⎝ hi ⎠ ƒ Đồng nghĩa (synonyms ) ⎪ ƒ Trái nghĩa () ⎩0 nÕu ng−îc l¹i ƒ Bộ phận-Toàn thể (hypernyms, hyponyms ) ƒ ƒ Ví dụ : C1= {kinh tế, thương mại, lĩnh vực, vốn, thị trường} 1
  2. 4/21/2011 Các tác động của đặc trưng ngôn Mô hình giải quyết bài toán ngữ Tiếng Việt đến bài toán Input Text ƒ Cần phải thiết kế thêm giải thuật để tách từ Từ điển ƒ Không cần phải giải quyết bài toán Stemming Tiếng 1.Tiền xử lý Từ điển Việt Stop- ƒ Hiện tượng từ đồng âm: nhập nhằng ngữ nghĩa word ƒ Tiếng Việt chưa có một WordNet hoàn chỉnh để biểu đạt 2. Xây dựng Lexical Chains (LC) các mối quan hệ ngữ nghĩa một cách phong phú và đầy đủ như Tiếng Anh Cây Kho văn phân 3.Tính độ tương đương với cấp bản đã các văn bản mẫu bằng LC huấn ngữ luyện nghĩa 4.Quyết định lớp cho văn bản Categorized Text Các yếu tố ngôn ngữ được sử dụng Tiền xử lý văn bản begin các dấu “.”, “, “ , “;” , “:” ƒ Từ điển Tiếng Việt : 70.000 từ (có gắn nghĩa) ƒ Tách từ Chia văn bản thành các truy vấn nhỏ hơn ƒ Từ điển từ dừng ƒ Gán nhãn từ loại, lọc Xét từng truy vấn (các ƒ Cây phân cấp ngữ nghĩa ra các danh từ tiếng) F Là từ Bỏ qua 1 ROOT khoá ? ƒ Loạiib bỏ từ dừng. tiếng ở bên T phải K ConcreteThing SEMDIST = N Cắt từ khỏi truy vấn Mức trừu tượng chung thấp nhất Cây phân cấp animal ngữ nghĩa Tiếng Việt K N Truy vấn Mammal Bird Fish rỗng ? F T Từ Bò Gấu Chim sẻ Vàng anh Cá trắm Cá thu end Giải thuật xây dựng Lexical Chain Đồ thị khử nhập nhằng nghĩa ƒ Bước 1: Với mỗi danh từ trong văn bản, liệt kê tất cả các nghĩa mà ƒ Gọi: nó có thể có. ƒ T = {T1 , T2, Tn} là tập các danh từ trong văn bản. ƒ Bước 2: Sử dụng WSDG để xác định nghĩa phù hợp nhất của mỗi ƒ Si (i=1, mi) là tập hợp các nghĩa mà danh từ Ti có thể có từ trong số tập hợp nghĩa xác định ở bước 1. được (mi là số lượng nghĩa của Ti) ƒ Bước 3: Xây dựng các Lexical Chain dựa vào nghĩa duy nhất vừa ƒ G=(V,E) tìm được cho mỗi từ. ƒ Vi biểu diễn Ti, nhưng chia làm mi phần ƒ Xuất phát từ tập chain rỗng. ƒ Mỗi phần Vij biểu diễn nghĩa Sij của Ti ƒ Với mỗi từ w: ƒ Mỗi cạnh trong E nối Vij và Vi’j’ ƒ kết nạp nó vào chain c nếu độ tương đồng của nó với tất cả các từ wV(, V )= simS ( S ) trong c đều đủ gần (vượt ngưỡng α lập trước) ƒ Mỗi cạnh được gán trọng số: ij i'' j ij , i '' j ƒ Ngược lại, lập chain mới và kết nạp nó là từ đầu tiên ƒ Trọng số của mỗi nghĩa Vij: wV()ij=≠=∑ wV (, ij V i'' j )(',,'1,) i i ii n 3
  3. 4/21/2011 Xây dựng các Lexical Chain Chức năng Phân lớp văn bản Tập văn bản Từ điển Tiếng Cây phân cấp (biểu diễn dưới Việt (có gắn ngữ nghĩa Từ điển Tập V.bản dạng các danh nghĩa) tiếng Chủ đề phù Văn bản đầu đã huấn từ ) Việt+ ngữ hợp nhất vào (cần phân luyện nghĩa cho văn bản lớp) Xây dựng Chọn Thu WSD nghĩa phù Tiền xử Xác định Gán chủ thập tập Graph hợp nhất lý độ liên đề nghĩa Tập danh quan từ+ tập nghĩa PHÂN LỚP VĂN BẢN Cấu trúc nên các chain Tập các XÂY DỰNG TẬP LEXICAL chain cho Tập các Các văn bản phù hợp CHAINS văn bản chains mạnh nhất (có kèm chủ đề) Thiết kế dữ liệu Thiết kế dữ liệu ¾Từ điển Tiếng Việt (nguồn: trung tâm từ điển học Vietlex): ¾Cây phân cấp nghĩa (nguồn: trung tâm từ điển học Vietlex): cá quả composite word Organization Root/ConcreteThing/LivingThing/People/Organization Animal _ _ cá dữởnướcngọt, thân tròn, dài, có nhiều đốm đen, đầunhọn, khoẻ,bơi nhanh Thiết kế dữ liệu Giao diện chính ƒ Lưu các Lexical Chain: ƒ Tập lexical chain của mỗi văn bản lưu trong một file .txt ƒ Các lexical chain cách nhau 1 dòng trống ƒ Trong 1 lexical chain: ƒ Mỗiti từ đượclc lưu trên 1 dòng ƒ Câu trúc mỗi từ như sau: Từ Nghĩa Số lần xuất hiện ƒ Ví dụ: luật sư|People|4 bị cáo|People|1 thẩm phán|People|3 cán bộ|People|2 người làm|People|1 5