Bài tập lớn Xác suất thống kê - Câu 3, 4
Câu 3. Chọn một biến định lượng nào đó và thực hiện:
- Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
- Tìm các đặc trưng từ mẫu dữ liệu.
Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
*Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán.
*Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai.
Hàm QUARTILE có dạng: QUARTILE(array,quart), với:
- Array: Là list các giá trị trong một colunm.
- Quart: Các option để lựa chọn cho phù hợp với mục đích tính toán.
Bạn đang xem tài liệu "Bài tập lớn Xác suất thống kê - Câu 3, 4", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_tap_lon_xac_suat_thong_ke_cau_3_4.docx
- Câu 3-4.xls
Nội dung text: Bài tập lớn Xác suất thống kê - Câu 3, 4
- Câu 3. Chọn một biến định lượng nào đó và thực hiện: • Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý • Tìm các đặc trưng từ mẫu dữ liệu. Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý: *Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán. Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán. *Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai. Hàm QUARTILE có dạng: QUARTILE(array,quart), với: • Array: Là list các giá trị trong một colunm. • Quart: Các option để lựa chọn cho phù hợp với mục đích tính toán. *Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để khảo sát. Q1: Tứ phân vị thứ nhất( là phân vị thứ 25) Q3: Tứ phân vị thứ ba ( là phân vị thứ 75) IQR: Là độ rộng từ giá trị Q1 đến Q3. Tình bằng: IQR = Q3-Q1. Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác định dựa theo định nghĩa trong thống kê. Uppon Bound = Q3+(1.5*IQR): Biên trên của miền dữ liệu. Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values < Lower Bound) là TRUE. Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao nhiêu giá trị ngoại lai xuất hiện. *Kết quả:
- Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để thực hiện tính toán các giá trị đặc trưng. Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu. Option thì chọn Summary statistics Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như sau:
- 푖 0 = ∑1 푖 ở đây: 푖 = ni là tần số từ thực nghiệm 푖= npi là tần số lý thuyết theo giả thuyết 0 đúng 2 2 Nếu 0 ≤ 훼 thì chấp nhận H 2 2 Nếu 0 > 훼 thì bác bỏ H - Trường hợp X là đại lượng ngẫu nhiên liên tục Viết lại mẫu đã cho dưới bảng: 푖 푛푖 (-∞ ; 1) 푛1 ( 1; 2) 푛2 ( 2; 3) 푛3 ( ―1; +∞) 푛 ∑ 푛푖 = n Từ mẫu ta tìm được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số này chưa biết. Từ đó ta tính được: 1 = P(X ―1) Ta có quy tắc kiểm định như sau: 2 2 2 B1: Tìm 훼 = 훼(k-r-1) từ bảng phân phối , ở đây là tham số của F(x) 2 2 ( 푖 ― 푖) B2: Tính thống kê => 0 = ∑1 푖 ở đây: 푖 = ni là tần số từ thực nghiệm 푖= npi là tần số lý thuyết theo giả thuyết 0 đúng 2 2 Nếu 0 ≤ 훼 thì chấp nhận H 2 2 Nếu 0 > 훼 thì bác bỏ H * Thực hiện câu hỏi: Ở bài này, dùng biến Huyết áp lúc nghỉ ngơi(tạm gọi là A) để kiểm định dạng phân phối Để thuận tiện cho việc kiểm định, đầu tiên ta phân tổ dữ liệu:
- Kiểm định A: Với mức ý nghĩa 5%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? Giả thuyết kiểm định 0 : Mẫu phù hợp với phân phối chuẩn Giả thuyết kiểm định 1: Mẫu không phù hợp với phân phối chuẩn Tính các đặc trưng của mẫu : n = 150 = 128.8267 푠= 16.16323 (Excel: =STDEV.P(D2:D151)) + là ước lượng hợp lý cực đại cho a => a= 128.8267 + 푠2 là ước lượng hợp lý cực đại cho 휎2 => 휎 = 16.16323 Nếu X có phân phối chuẩn thi X ~ N(128.8267;(16.16)2) 훽 ― 훼 ― Khoảng Tần số 푃 = Kết quả 푃푖 푖 P( 휎 ) -P( 휎 ) Hàm NORMSDIST -∞ - 107 12 =(NORM.S.DIST((106-O16)/O17,TRUE)) - 0 0.07893 107- 120 45 =(NORM.S.DIST((118-O16)/O17,TRUE)- 0.17254 NORM.S.DIST((106-O16)/O17,TRUE)) 120 – 133 37 =(NORM.S.DIST((130-O16)/O17,TRUE)- 0.27745 NORM.S.DIST((118-O16)/O17,TRUE)) 133 – 146 35 =(NORM.S.DIST((142-O16)/O17,TRUE)- 0.26353 NORM.S.DIST((130-O16)/O17,TRUE)) 146 – 159 14 =(NORM.S.DIST((154-O16)/O17,TRUE)- 0.14784 NORM.S.DIST((142-O16)/O17,TRUE)) 159 – 172 5 =(NORM.S.DIST((166-O16)/O17,TRUE)- 0.04895 NORM.S.DIST((154-O16)/O17,TRUE)) 172- +∞ 2 =(NORM.S.DIST((178-O16)/O17,TRUE)- 0.00955 NORM.S.DIST((166-O16)/O17,TRUE)) Số tham số của phân phối chuẩn là r =2, nên: 2 2 Với k = 8, r = 2=> 훼 = 0.04(7 ― 2 ― 1) = 9.487729 (Excel =CHIINV(0.05,4)) Miền bác bỏ 푊훼 = (9.487729 ; +∞)