Bài giảng Phân tích dữ liệu khách hàng bằng chương trình MS-Excel - Chương 2: Áp dụng MS-Excel trong thống kê suy lí - Nguyễn Đình Huy
B- SO SÁNH GIÁ TRỊ TRUNG BÌNH DỮ LIỆU TƯƠNG ỨNG TỪNG CẶP
4.3 Khái niệm thống kê
Trong trường hợp hai mẫu nhỏ (N < 30) phụ thuộc (thí dụ: kết quả của một nhóm chuột
được xét nghiệm máu hai lần - trước và sau khi uống thuốc - hay một nhóm bệnh nhân trải qua
hai thí nghiệm - được thử thuốc trên tay này và giả được trên kia) và không giả định rằng phương
sai của hai mẫu bằng nhau, bạn có thể áp dụng trắc nghiệm t để so sánh giá trị trung bình của hai
mẫu dữ liệu tương ứng từng cặp
4.3 Khái niệm thống kê
Trong trường hợp hai mẫu nhỏ (N < 30) phụ thuộc (thí dụ: kết quả của một nhóm chuột
được xét nghiệm máu hai lần - trước và sau khi uống thuốc - hay một nhóm bệnh nhân trải qua
hai thí nghiệm - được thử thuốc trên tay này và giả được trên kia) và không giả định rằng phương
sai của hai mẫu bằng nhau, bạn có thể áp dụng trắc nghiệm t để so sánh giá trị trung bình của hai
mẫu dữ liệu tương ứng từng cặp
Bạn đang xem tài liệu "Bài giảng Phân tích dữ liệu khách hàng bằng chương trình MS-Excel - Chương 2: Áp dụng MS-Excel trong thống kê suy lí - Nguyễn Đình Huy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- bai_giang_phan_tich_du_lieu_khach_hang_bang_chuong_trinh_ms.pdf
Nội dung text: Bài giảng Phân tích dữ liệu khách hàng bằng chương trình MS-Excel - Chương 2: Áp dụng MS-Excel trong thống kê suy lí - Nguyễn Đình Huy
- 9 Chương 4 Chương 2 ÁP DỤNG MS-EXCEL TRONG THỐNG KÊ SUY LÍ So sánh giá trị trung bình Phương sai biết trước Dữ liệu tương ứng từng cặp Phương sai bằng nhau Phương sai khác nhau So sánh tỉ số So sánh phương sai BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 11 Giá trị thống kê: (X X ) ( ) (X X ) z 1 2 1 2 1 2 Phân phối chuẩn 2 2 2 2 1 2 1 2 N1 N2 N1 N2 Biện luận Nếu z < z (hai bên) hay z /2 (một bên) Chấp nhận giả thuyết H0 4.2 Áp dụng Ms-EXCEL Thí dụ 6: Người ta chọn hai mẫu, mỗi mẫu có 10 máy, từ hai lô (I và II được sản xuất với phương sai biết trước tương ứng là 1 và 0,98) để khảo sát thời gian hoàn thành công việc (phút) của chúng: I 6 8 9 10 6 15 9 7 13 11 II 5 5 4 3 9 9 6 13 17 12 Hỏi khả năng hoàn thành công việc của hai máy có khác nhau? Nhập dữ liệu vào bảng tính Book1 A B C D E F G H I J K 1 I 6 8 9 10 6 15 9 7 13 11 2 II 5 5 4 3 9 9 6 13 17 12 Hình 4.1: Hộp thoại z-Test: Two Sample for Means Áp dụng “z-test: Two Sample for Means” a. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis. b. Chọn chương trình z-Test: Two Sample for Means trong hộp thoại DataAnalysis rồi nhấn nút OK. BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 13 D D t D Phân phối Student với = N – 1 SD / N SD / N Biện luận Nếu t < t hay t /2 ( = N – 1) Chấp nhận giả thuyết H0 4.4 Áp dụng MS-EXCEL Thí dụ 7: Hàm lượng (mg) của một chế phẩm được xác định trước và sau khi được lão hoá cấp tốc như sau: Trước 7,5 6,8 7,1 7,5 7,2 6,8 6,9 6,7 6,8 6,8 Sau 6,1 6,3 6,5 6,4 6,8 6,3 6,1 6,4 6,5 6,3 Hãy cho biết hàm lượng hoạt chất có giảm sau thí nghiệm? Nhập dữ liệu vào bảng tính A B C D E F G H I J K 1 Trước 7.5 6.8 7.1 7.5 7.2 6.8 6.9 6.7 6.8 6.8 2 Sau 6.1 6.3 6.5 6.4 6.8 6.3 6.1 6.4 6.5 6.3 4.5 Áp dụng “t-Test: Paired Two Sample for Means” a. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis. b. Chọn chương trình t-Test: Paired Two Sample for Means trong hộp thoại Data Analysis rồi nhấp nút OK. c. Trong hộp thoại t-Test: Paired Two Sample for Means, lần lượt ấn định các chi tiết: - Phạm vi của dữ liệu 1 (Variable 1 Range), - Phạm vi của dữ liệu 2 (Variable 2 Range), - Nhãn dữ liệu (Labels), - Ngưỡng tin cậy (Alpha), - Sai biệt giữa hai giá trị trung bình ước tính (Hypothesized Mean Difference), - Phạm vi đầu ra (Output Range). BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 15 C- SO SÁNH GIÁ TRỊ TRUNG BÌNH VỚI PHƯƠNG SAI BẰNG NHAU 4.6 Khái niệm thống kê Trong trường hợp hai mẫu nhỏ (N < 30) độc lập và có phương sai bằng nhau*, bạn có thể áp dụng trắc nghiệm t đồng phương sai (homoscedastic t-test) để so sánh giá trị trung bình của hai mẫu ấy. Giả thuyết Như trường hợp “hai mẫu có dữ liệu tương ứng từng cặp” Giá trị thống kê (X X ) ( ) 1 2 1 2 1 1 2 S p N1 N 2 (X X ) 1 2 2 1 1 Sp N1 N2 Phân phối Student N1 N2 2 2 1 2 (N1 1)S1 (N2 1)S2 Sp N1 N2 2 Biện luận Nếu t < t hay t /2 ( = N1 + N2 - 2) Chấp nhận giả thuyết H0. 4.7 Áp dụng MS-EXCEL Thí dụ 8: Người ta cho 10 bệnh nhân uốngthuốc hạ cholesterol đồng thời cho bệnh nhân khác uống giả được (placebo) rồi xét nghiệm về nồng độ cholesterol trong máu (g/L) của cả hai nhóm: Thuốc 1,10 0,99 1,05 1,01 1,02 1,07 1,10 0,98 1,03 1,12 Giả được 1,25 1,31 1,28 1,20 1,18 1,22 1,22 1,17 1,19 1,21 Theo bảng kết quả trên, thuốc có tác dụng hạ cholesterol trong máu? Nhập dữ liệu vào bảng tính A B C D E F G H I J K 1 Thuốc 1,10 0,99 1,05 1,01 1,02 1,07 1,10 0,98 1,03 1,12 2 Giả được 1,25 1,31 1,28 1,20 1,18 1,22 1,22 1,17 1,19 1,21 4.8 Áp dụng “t-Test: Two-Sample Assuming Equal Variances” a. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis. BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 17 D- SO SANH GIÁ TRỊ TRUNG BÌNH VỚI PHƯƠNG SAI KHÁC NHAU 4 9 Khái niệm thống kê Với hai mẫu nhỏ (N < 30) độc lập và có phương sai khác nhau (hai mẫu phân biệt), bạn có thể áp dụng trắc nghiệm t dị phương sai (betero – scedastic – test) để so sánh giá trị trung bình của hai mẫu ấy. Giả thuyết Tương tự như trường hợp “hai mẫu với phương sai bằng nhau”. Giá trị thống kê (X X ) ( ) (X X ) t 1 2 1 2 t 1 2 S2 S2 S2 S2 1 2 1 2 N1 N2 N1 N2 Phân phối Student 2 S2 S2 1 2 N1 N2 2 2 S2 / N S2 / N 1 1 2 2 N1 1 N2 1 (Smith - Satterthwaite) Biện luận Nếu t < t hay t /2 ( ước tính) Chấp nhận giả thuyết H0. 4.10 Áp dụng MS-EXCEL Thí dụ 9: Thời gian tan rã (phút) của một loại viên bao từ hai xí nghiệp dược phẩm (XNDP) khác nhau được kiểm nghiệm như sau: XNDP I 61 71 68 73 71 70 69 74 XNDP II 62 69 65 65 70 71 68 73 Thời gian tan rã của viên bao thuộc hai XNDP có giống nhau? Nhập dữ liệu vào bảng tính A B C D E E G H I J 1 XNDP I 61 71 68 73 71 70 69 74 2 XNDP II 62 69 65 65 70 71 68 73 4.11 Áp dụng “t-Test: Two-Sample Assuming Unequal Variances” a. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis. b. Chọn chương trình t-Test: Two-Sample Assuming Unequal Variances trong hộp thoại Data Analysis rồi nhấp nút OK. BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 19 E- SO SÁNH TỈ SỐ 4.12 Khái niệm thống kê Đối với một thí nghiệm có hai kết quả (binomial experiment) – thí dụ, đối với một thuốc được kê đơn: có hay không - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (X2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. X2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một các xác suất thực nghiệm là Pi(i = 1, 2, k). Nếu gọi Pi,0 là các giá trị lí thuyết tương ứng 2 với Pi thì các tần số lí thuyết sẽ là Ei = NPi,0. Điều kiện để áp dụng trắc nghiệm X một cách thành công là các tần số lí thuyết Ei phải 5. Giả thuyết H0 : P1 = P1,0, P2 = P2,0, , Pk,0 “Các cặp Pi và Pi,0 giống nhau”. H1: “ Ít nhất có một cặp Pi và Pi,0 khác nhau”. Giá trị thống kê k (O E )2 2 i i ; i 1 Ei Oi: các tần số thực nghiệm (observed frequency);Ei: các tần số lí thuyết (expected frequency) Biện luận 2 2 Nếu a Bác bỏ giả thuyết H0 (DF = k – 1) Trong chương trình MS-EXCEL có hàm số CHITEST có thể tính: r c 2 (Oij Eij ) - Giá trị 2 theo biểu thức: 2 j 1 j 1 Eij Oij: tần số thực nghiệm của ô thuộc hàng i và cột j; Eij: tần số lí thuyết của ô thuộc hàng I với cột j, r: số hàng; và c: số cột. - Xác suất P(X > 2 ) với bậc tự do DF = (r – 1)(c – 1); trong đó, r là số hàng và c là số cột trong bảng ngẫu nhiên (contingency table). 2 Nếu P(X > ) > Chấp nhận giả thuyết H0, và ngược lại. 4.13 Áp dụng MS-EXCEL Thí dụ 10: Kết quả điều trị trên hai nhóm bệnh nhân: ruột nhóm dùng thuốc và một nhóm giả dược được tóm tắt như sau: BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 21 2 Kết quả: P(X> ) = 0,17 > = 0,05 nhận giả thuyết H0. Vậy tỉ lệ khỏi bệnh do thuốc và do giả dược không khác nhau. F- SO SÁNH PHƯƠNG SAI 4.14 Khái niệm thống kê Trắc nghiệm so sánh hai phương sai thường được áp dụng để so sánh độ chính xác của hai phương pháp định lượng khác nhau. 2 2 H0 : 1 2 Giả thuyết: 2 2 H1 : 1 2 2S2 S2 S2 Giá trị thống kê: F 2 1 1 1 2 2 2 2 1S2 S2 S2 Phân phối Fischer: 1 N1 1; 2 N2 2 Biện luận Nếu F < F (1, 2) Chấp nhận giả thuyết H0 với xác suất (1 - )100% 4.15 Áp dụng MS-EXCEL Thí dụ 11: Một mẫu được phân tích bởi hai phương pháp A và B với kết quả được tóm tắt trong bảng sau: A 6,4 5,2 4,8 5,2 4,3 4,4 5,1 5,8 B 2,6 3,5 3,4 3,2 3,4 2,8 2,9 2,8 Cho biết phương pháp nào chính xác hơn? Nhập dữ liệu vào bảng tính A B C D E F G H I 1 6,4 5,2 4,8 5,2 4,3 4,4 5,1 5,8 2 2,6 3,5 3,4 3,2 3,4 2,8 2,9 2,8 Áp dụng “F-Test Two-Sample for Variances” BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy
- Chương 4 23 BỘ MÔN TOÁN GVGD: Nguyễn Đình Huy