Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại tin tự động cho báo điện tử - Lê Thanh Hương

1. Tổng quan
Ứng dụng của Phân loại văn bản
„ Phân loại các tài liệu trong các thư viện
„ Phân loại trong quá trình tác nghiệp của các báo điện tử.
„ Phân chia sắp xếp lại các luận văn, đồ án trong các
trường Đại học.
„ Bộ máy tìm kiếm muốn phân chia các tài liệu trả về
thành các chuyên mục Æ người đọc dễ nắm bắt được
nội dung ban đầu của các kết quả tìm được. 
pdf 4 trang thamphan 27/12/2022 3240
Bạn đang xem tài liệu "Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại tin tự động cho báo điện tử - Lê Thanh Hương", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbai_giang_xu_ly_ngon_ngu_tu_nhien_natural_language_processin.pdf

Nội dung text: Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing) - Bài: Phân loại tin tự động cho báo điện tử - Lê Thanh Hương

  1. 1. Tổng quan Ứng dụng của Phân loại văn bản „ Phân loại các tài liệu trong các thư viện „ Phân loại trong quá trình tác nghiệp của các báo điện tử. PHÂN LO ẠIITINT TIN TỰ ĐỘNG CHO BÁO ĐIỆNNT TỬ „ Phân chia sắp xếp lại các luận văn, đồ án trong các trường Đại học. „ Bộ máy tìm kiếm muốn phân chia các tài liệu trả về thành các chuyên mục Æ người đọc dễ nắm bắt được nội dung ban đầu của các kết quả tìm được. 1 2 1. Tổng quan 1. Tổng quan Sơ đồ minh họa quá trình phân loại „ Ứng dụng “Phân loạitintựđộng cho báo điệntử” Mô hình hóa VB nhằmtìmhiểuvàthử nghiệm các phương pháp phân Document loạivănbảnápdụng trên Tiếng Việt. Vector VB cần phân lớp Tính độ Kết luận „ Kếthợpgiữahaiphương pháp đã đượcchứng minh có tương tự phân nhóm hiệuquả cao để giải quyết hai bài toán khác nhau là Pha lập nhóm Phân loạivàLập nhóm vănbản Æ đề xuấtmộtmôhình Vector trọng tâm cảitiến, phù hợpvới bài toán mỗi nhóm Các VB mẫu đã phân lớp Kết luận phân loại 3 4 2. Các phương pháp thực hiện 2. Các phương pháp thực hiện (tiếp) Pha lập nhóm Tạisaocầnsử dụng các phương pháp lậpnhómvăn bảndựatrênthuậtngữ xuấthiệnthường xuyên ? „ Kỹ thuậtlập nhóm này phù hợpvớiyêucầu “offline”, các thuậttoánáp Vector trọng tâm dụng cho phương pháp này có độ chính xác cao tuy thờigianxử lý mỗihói nhóm chậmvà chi phí lớn, nhưng không cần thiết lắm khi xử lý offline. Pha lập nhóm „ Thuật ngữ thường xuyên là các thuật ngư xuất hiện nhiều lần trong văn Các VB mẫu đã phân lớp bản hoặc trong một tập văn bản, các thuật ngữ phải có ý nghĩa, chúng đại diện cho nội dung toàn văn bản. „ Các thuật ngữ thường xuyên tạo nền tảng của việc khai thác quy tắc „ Pha lập nhóm được thực hiện trước, một cách “offline” Æđể xác định vector trọng tâm cho mỗi nhóm cùng các thông tin kết hợp. truy hồi „ Làm giảm được số chiều của vector biểu diễn tài liệu. 5 6 1
  2. 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm Phần tiền xử lý văn bản. Phân tích tổ chức dữ liệu: Xây dựng 3 File đầu vào „ Phân tích tổ chức dữ liệu: (1) Tổ chức từ điển dưới dạng cấu trúc như sau: Ví dụ nội dung 1 file ClassID.txt 1. File ClassID.txt là 0: Dulich file chứa ID và tên 1: Giaoduc của các class, được 2: Oto xe may tạo bằng cách duyệt 3: Suckhoe qua tất cả các thư 4: The thao mục con của thư mục 5: Vitinh chứa tập văn bản 6: Kinhdoanh mẫu. 13 14 3.Chương trình thực nghiệm 3.Chương trình thực nghiệm 2. File ThreeLine.txt chứa các thông số chung củaquá 3. File InputForYou.txt chứa các vectơ trọng tâm của tất trình lập nhóm, gồm 3 dòng: cả các nhóm, 1 vectơ / dòng. „ Tổng số nhóm phân ra từ tậpvănbảnmẫu „ Thông tin trên 1 dòng „ Số lớp ( số thư mục con ) của tập văn bản mẫu. „ Số vănnb bảnnth thuộc nhóm/ v ectơ trọng tâm đó; „ Số lượng các nhóm phân bổ vào từng lớptương ứng „ ID của lớp mà nhóm đó thuộc về; bên file ClassID.txt. „ ID của nhóm đó trong lớp; „ Các cặp (Term ID – Trọng số) thể hiện cho các chiều của vector „ Ví dụ nội dung một file ThreeLine.txt : trọng tâm 174 8 20 22 22 16 27 14 14 39 15 16 4. Đánh giá kết quả 4. Đánh giá kết quả Xây dựng mẫu kiểm thử „ Mô hình cải tiến đạt được độ chính xác cao. „ Dữ liệu nói chung đã tối ưu „ Tập kiểm thử được xây dựng từ các bài báo thuộc các lĩnh vực khác nhau của báo điệnnt tử VnExpress ( vnexpress.net ) „ Các chức năng được ppgghân tách rõ ràng làm giảm chi phí tài nguyên và tăng tốc độ phân lớp lên rất nhiều. „ Dữ liệu kiểm thử là 56 bản tin mới nhất trên VNExpress thuộc các chủ đề Giáo dục, Du lịch, Kinh doanh, Ô tô xe máy, Thể Thao, Pháp „ Hai thuật toán Apriori, FIHC tuy đạt được độ chính xác cao luật, Vi Tính, Sức khoẻ (theo sự phân chia chủ đề của báo) đã được nhưng chưa ổn định. ghi lại theo chủ đề từ trước. „ Độ chính xác : 94,64%. 17 18 3