Bài báo cáo Xác suất thống kê - Nguyễn Đình Huy

BÀI LÀM

1/ Cơ sở lí thuyết:

Nhận xét: Đây là bài toán Phân tích phương sai ba yếu tố:

- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị quan sát G (yếu tố A:i=1,2..r, yếu tố B: j=1,2..r, yếu tố C: k=1,2..r)

- Mô hình: khi nghiên cứu ảnh hưởng của 2 yếu tố, mỗi yếu tố có n mức thì người ta dùng mô hình hình vuông latin  nn. Ví dụ:

docx 28 trang thamphan 28/12/2022 2460
Bạn đang xem 20 trang mẫu của tài liệu "Bài báo cáo Xác suất thống kê - Nguyễn Đình Huy", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docxbai_bao_cao_xac_suat_thong_ke_nguyen_dinh_huy.docx
  • docxCâu 1.docx
  • docxCâu 2.docx
  • docxCâu 3.docx
  • docxCâu 4.docx
  • docxCâu 5.docx
  • xlsxKết quả.xlsx
  • xlsxThực hành.xlsx

Nội dung text: Bài báo cáo Xác suất thống kê - Nguyễn Đình Huy

  1. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Câu 1.Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Sách BT XSTK 2012 (N.Đ.HUY). Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo 3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong Yếu tố Yếu tố B A B1 B2 B3 B4 A1 C1 9 C2 14 C3 16 C4 12 A2 C2 12 C3 15 C4 12 C1 10 A3 C3 13 C4 14 C1 11 C2 14 A4 C4 10 C1 11 C2 13 C3 13 bảng sau: Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng ? BÀI LÀM 1/ Cơ sở lí thuyết: Nhận xét: Đây là bài toán Phân tích phương sai ba yếu tố: - Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị quan sát G (yếu tố A:i=1,2 r, yếu tố B: j=1,2 r, yếu tố C: k=1,2 r) - Mô hình: khi nghiên cứu ảnh hưởng của 2 yếu tố, mỗi yếu tố có n mức thì người ta dùng mô hình hình vuông latin n n. Ví dụ: B C D A C D A B D A B C A B C D - Mô hình vuông latin 3 yếu tố được trình bày như sau: Yếu tố C (T k : vd T 1 = Y111+Y421+Y331+Y241) Yếu Yếu tố B tố B1 B2 B3 B4 T A i A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1 A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2 A3 C3 Y313 C4 Y324 C1 Y334 C2 Y342 T3 A4 C4 Y414 C1 Y421 C2 Y412 C3 Y443 T4 T.j. T.1. T.2. T.3. T.4.
  2. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Tính các giá trị Ti (tổng theo hàng từ B đến E) Chọn ô B7 và nhập vào biểu thức =SUM(B2:E2) Chọn ô C7 và nhập vào biểu thức =SUM(B3:E3) Chọn ô D7 và nhập vào biểu thức =SUM(B4:E4) Chọn ô E7 và nhập vào biểu thức =SUM(B5:E5) Tính các giá trị T.j.(tổng theo cột từ hàng thứ 2 đến hàng thứ 5) Chọn ô B8 và nhập vào biểu thức =SUM(B2:B5) Dùng con trỏ kéo kí hiệu điền từ ô B8 đến ô E8 Tính các giá trịT k Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3) Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4) Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5) Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2) Tính giá trịT (tổng các phần tử trong bảng) Chọn ô B10 và nhập biểu thức =SUM(B2:E5) *Tính các giá trị퐆 và퐆 - Các giá trị퐆 vaø 퐆 Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7) Dùng con trỏ kéo kí hiệu điền từ ô G7 đến ô G9 - Giá trị퐆 Chọn ô G10 và nhập biểu thức =POWER(B10,2) - Giá trị퐆 Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5) *Tính các giá trị SSR,SSC,SSF,SST và SSE - Các giá trị SSR,SSC và SSF Chọn ô I7 và nhập vào biểu thức =G7/4-39601/POWER(4,2) Dùng con trỏ kéo kí hiệu điền từ ô I7 đên ô I9 -Giá trị SST Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2) -Giaù trò SSE Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9) *Tính các giá trị MSR,MSC,MSF và MSE -Các giá trị MSR,MSC và MSF -Giá trị SST Chọn ô K7 và nhập biểu thức =I7/(4-1) Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9 -Giá trị MSE Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2)) *Tính các giá trị퐆 và F Chọn ô M7 và nhập vào biểu thức =K7/0.3958 Dùng con trỏ kéo kí hiệu điền từ ô M7 đến ô M9 Kết quả và biện luận
  3. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy 1 1 k 1 1 = + k N N N Bảng ANOVA Nguồn sai Bậc tự Tổng số bình Bình phương trung Giá trị số do phương bình thống kê 푆푅 Hồi quy k SSR MSR=SSR/k F = 푆 Sai số N – k – 1 SSE MSE = SSE/( N – k – 1) Tồng cộng N – 1 SST=SSR + SSE Giá trị thống kê: Giá trị R-bình phương: Giá trị R2 được hiệu chỉnh (Adjusted R Square) 푆푆푅 퐹 R2 = = (R3 0.81 là tốt nhất) 푆푆 ( – – 1 ) + 퐹 ≥ Giá trị R2 được hiệu chỉnh (Adjusted R Square) 2 2 2 ( ― 1)푅 - 2 (1 ― 푅 ) R ii = ( – – 1 ) = R – ( – – 1 ) 2 2 (R ii sẽ trở nên âm hay không xác định nếu R hay N nhỏ). Độ lệch chuẩn: 푆푆 S = (S ≤ 0.30 là khá tốt) ( – – 1 )
  4. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy a/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: Phạm vi của biến số Y (Input Y Range): $C$1:$C$10 Phạm vi của biến số X (Input X Range): $A$1:$A$10 Nhãn dữ liệu (Labels) Mức tin cậy (Confidence Level): chọn mức 95% Tọa độ đầu ra (Output Range): $A$14 Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)
  5. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy b/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: Phạm vi của biến số Y (Input Y Range): $C$1:$C$10 Phạm vi của biến số X (Input X Range): $B$1:$B$10 Nhãn dữ liệu (Labels) Mức tin cậy (Confidence Level): chọn mức 95% Tọa độ đầu ra (Output Range): $A$45 Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots)
  6. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy c/Trong hộp thoại Regression, lần lượt ấn định các chi tiết: Phạm vi của biến số Y (Input Y Range): $C$1:$C$10 Pham vi của biến số X (Input X Range): $A$1:$B$10 Nhãn dữ liệu (Labels) Mức tin cậy (Confidence Level): chọn mức 95% Tọa độ đầu ra (Output Range): $A$76 Và một số tùy chọn khác như đường hồi quy (Line Fit Plots), biểu thức sai số (Residuals Plots) Phương trình hồi quy: Ŷ푿 ,푿 = ƒ( 1, 2) 2 Ŷ푿 ,푿 = -12.7 + 0.0445X1 + 0.1286X2 (R =0.9777; S=0.3297); N=9; k=2
  7. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Câu 2: Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính các giá trị của cặp ĐLNN (X, Y): X 0,9 1,22 1,32 0,77 1,3 1,2 Y -0,3 0,1 0,7 -0,28 -0,25 0,02 X 1,32 0,95 1,45 1,3 1,2 Y 0,37 -0,70 0,55 0,35 0,32 a) Tìm đường hồi quy của Y đối với X. b) Tính sai số tiêu chuẩn của đường hồi quy. c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo X. Bài làm Nhận xét: Đây là bài toán phân tích hồi quy tuyến tính Cơ sở lý thuyết Ŷ x = B0 + BX B0 = Ȳ - BẊ ∑ 푖푌푖 – ∑ 푖푌푖 B = ∑ 푖2 ― (Ẋ)2 X - biến số phụ thuộc (dependent / reponse variable) Y – biến số độc lập (independent / predictor variable) B0 và B – các hệ số hồi quy (regression coefficients) Bảng ANOVA Trung bình Tổng bình Bậc tự do bình Nguồn phương Tỷ số F (DF) phương (SS) (MS) MSR Hồi quy 1 SSR MSR F MSE Sai số n – 2 SSE MSE Tổng cộng n – 1 SST Giá trị thống kê Giá trị R-bình phương (R-square):
  8. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Nếu F chấp nhận giả thiết H0 Áp dụng excel Bước 1: Nhập bảng số liệu Bước 2: vào Data /Data analysis, chọn Regression. Bước 3: Nhập các số liệu vào bảng sau:
  9. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Câu 3: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 – 50 tuổi và nhóm từ 50 – 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930. Nhóm Thu nhập tuổi 0 – 1 1 – 2 2 – 3 3 – 4 4 – 6 6 40 – 50 71 430 1072 1609 1178 158 50 – 60 54 324 894 1202 903 112 Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa = 2%. Bài làm I. Cơ sở lý thuyết: a. Dạng bài toán: Kiểm định tính độc lập b. Khái niệm thống kê: Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. 2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k kết quả và mỗi kết quả mang một trong các xác suất thực nghiệm là Pi (i = 1, 2, k). Nếu gọi Pi,0 là các giá trị lý thuyết tương ứng với Pi thì các tần số lí thuyết 2 sẽ là Ei = NPi,0. Điều kiện để áp dụng trắc nghiệm  một cách thành công là các tần số lí thuyết Ei phải ≥ 5. c. Giả thuyết: H0: P1 = P1,0; P2 = P2,0; ; Pk = Pk,0 “Các cặp Pi và Pi,0 giống nhau”. H1: “Ít nhất có một cặp Pi và Pi,0 khác nhau”. k 2 (Oij Eij ) Giá trị thống kê:  2  i 1 Eij Oi: các tần số thực nghiệm (observed frequency); Ei: các tần số lý thuyết (expected frequency). Biện luận: 2 2 • Nếu   Bác bỏ giả thuyết H0 (DF = k-1) Trong chương trình MS-EXCEL có hàm CHITEST có thể tính: r c (O E )2 - Giá trị 2 theo biểu thức:  2 [ ij ij j 1 i 1 Eij
  10. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Dùng con trỏ kéo kí hiệu tự điền từ ô B9 đến G9.Sau đó kéo từ ô G9 đến ô G10. Bước 3: Tính giá trị, sử dụng hàm CHITEST và hàm CHIINV Chọn ô B12: Nhập hàm =CHITEST(B3:G4,B9:G10) Chọn ô B13: Nhập hàm =CHIINV(0.05,5) Chọn ô B14: Nhập hàm =CHIINV(B12,5) 2 P(X > ) =0.511582 > α=0.02 Chấp nhận giả thuyết H0. 2 2 Hoặc  0 = 4.2675<  a = 11.0705 Chấp nhận giả thuyết H0. Kết luận: Nên phân bố thu nhập giữa 2 nhóm tuổi trong số các công nhân lành nghề là như nhau\ Câu 4. Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hàng năm và tuổi của họ. Kết quả thu được như sau: Thu nhập Trên Tuổi Dưới Từ 100 000 $ - 399 599 400 000 100 000 $ $ $ Dưới 40 6 9 5 Từ 40 đến 18 19 8 54 Trên 54 11 12 17 Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập không có quan hệ với nhau. Bài làm I. Cơ sở lý thuyết: a. Dạng bài toán: Kiểm định tính độc lập b. Khái niệm thống kê: Đối với một thí nghiệm có hai kết quả (binomial experiment) - thí dụ, đối với một thuốc được kê đơn: có hay không – bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả (multinomial experiment) – thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều trị bởi thuốc trong một khoảng thời gian – bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi” bình phương (2) cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc xác suất) một cách tiện lợi. 2 là phân phối về xác suất, không có tính đối xứng và chỉ có giá trị ≥ 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử nghiệm có k
  11. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Bước 2: Dùng hàm SUM tính tổng Tính các tổng hàng : Chọn ô E4 và nhập biểu thức =SUM(B4:D4) Dùng con trỏ kéo kí hiệu tự điền ô E4 đến ô E6. Tính các tổng cột : Chọn ô B7 và nhập biểu thức =SUM(B4:B6) Dùng con trỏ kéo kí hiệu tự điền ô B7 đến ô E7. Chọn ô B10 nhập biểu thức =B$7*$E4/$E$7. Dùng con trỏ kéo ký hiệu từ điền từ ô B10 tới ô D10, D10 tới D12 Bước 3: Dùng hàm CHITEST Tính giá trị “P” : Chọn ô B14 và nhập biểu thức =CHITEST(B4:D6,B10:D12)
  12. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy c r n jk 2 SST xijk x  r c 2 k 1 j 1 i 1 2 T   Yij i 1 j 1 r + Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức: c 2 SSFB  nok xok x k 1 + Tổng bình phương cho nhân tố B, ký hiệu là SSFB được tính theo công thức: c 2 SSFB  nok xok x k 1 +Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức c r n jk 2 SSF  xijk x jk k 1 j 1 i 1 + Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức C r 2 SSI   x jk x jo xko x k 1 j 1 + Trung bình bình phương của nhân tố A, ký hiệu là MSF A, được tính theo công thức SSF MSF A A r 1 r – 1 gọi là bậc tự do của A bằng số mức của A trừ 1 +Trung bình bình phương của nhân tố B, ký hiệu là MSF B, được tính theo công thức SSF MSF B B c 1 c – 1 gọi là bậc tự do của A bằng số mức của A trừ 1 + Trung bình bình phương của sai số, ký hiệu là MSE, được tính bởi SSE MSE n cr n – crgọi là bậc tự do của sai số + Trung bình bình phương của tương tác, ký hiệu là MSI, được tính bởi
  13. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy T Tjo Tok xijk n njo nok 2 A xijk  (3) Ta có các đẳng thức sau: T2 SST A n (4) 2 r T T2 SSF jo A  n n j 1 jo (5) c T2 T2 SSF ok B  n n k 1 ok (6) c r T2 SSE A  jk njk k 1 j 1 (7) SSI SST SSF SSF SSE A B (8) Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì: njo cm, nok rm r T2  jo 2 j 1 T SSFA do đó cm n (5’) r T2  ok 2 k 1 T SSFB rm n (6’) 2 Tjk SSE A k j m (7’) Trước hết ta cần tính các đại lượng T jk. Tiếp theo tính các giá trị Tjo, njo, nok, Tok, n, T và A theo các công thức (1), (2), (3).
  14. ĐH.Bách Khoa TP.HCM XÁC SUẤT THỐNG KÊ PGS.TS Nguyễn Đình Huy Nhấn OK, ta thu được bảng sau: