Báo cáo Bài tập lớn Xác suất thống kê - Năm 2014

Bài 1.

  1. Đề bài.

Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy)

Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:

Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng?

  • Dạng bài.

          Phân tích phương sai 3 yếu tố (A, B, C)

  • Cơ sở lý thuyết.

Phương pháp giải:

Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B: k = 1, 2...r: yếu tố C).

docx 36 trang thamphan 28/12/2022 2200
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Bài tập lớn Xác suất thống kê - Năm 2014", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • docxbao_cao_bai_tap_lon_xac_suat_thong_ke_nam_2014.docx

Nội dung text: Báo cáo Bài tập lớn Xác suất thống kê - Năm 2014

  1. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Bài 1. a) Đề bài. Trình bày ví dụ 3.4 trang 207 sách BT XSTK 2012(N.Đ.Huy) Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo ba yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau: Yếu tố B Yếu tố A B1 B2 B3 B4 A1 C1 9 C2 14 C3 16 C4 12 A2 C2 12 C3 15 C4 12 C1 10 A3 C3 13 C4 14 C1 11 C2 14 A4 C4 10 C1 11 C2 13 C3 13 Hãy đánh giá về ảnh hưởng của các yếu tố trên đến hiệu suất phản ứng? ❖ Dạng bài. Phân tích phương sai 3 yếu tố (A, B, C) ❖ Cơ sở lý thuyết. Phương pháp giải: Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2 r: yếu tố A; j = 1, 2 r: yếu tố B: k = 1, 2 r: yếu tố C). Mô hình: Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4: B C D A C D A B D A B C A B C D GVHD: GS-TS: NGUYỄN ĐÌNH HUY1
  2. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Nếu F < Fα(r-1)(r-2)→ Chấp nhận H 0 đối với yếu tố C ❖ Bài làm. Các bước thực hiện trên MS Excel: • Nhập số liệu bảng tính: • Tính toán các giá trị + Tính các giá trị Ti C20=SUM(C16:F16) Dùng con trỏ ký tự cho các ô từ C20:F20 +Tính các giá trị Tj C21=SUM(C16:C19) Dùng con trỏ ký tự cho các ô từ C21:F21 +Tính các giá trị Tk C22=SUM(C16,D19,E18,F17) +Tính giá trị Tk C 2 3 = S U M ( C16:F19) + Gính các giá trị G H20=SUMSQ(C20:F20) GVHD: GS-TS: NGUYỄN ĐÌNH HUY3
  3. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ 15 135 5.03 30 135 6.45 Hãy cho biết yếu tố nhiệt độ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu? ❖ Dạng bài: Hồi quy tuyến tính đa tham số. ❖ Cơ sở lý thuyết. HỒI QUY TUYẾN TÍNH ĐA THAM SỐ Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến số độc lập X i (i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản. Phương trình tổng quát Ŷx0,x1, ,xk = B0 + B1X1 + + BkXk Bảng ANOVA Nguồn Tổng số bình Bình phương Giá trị Bậc tự do sai số phương trung bình thống kê Hồi SSR MSR K SSR MSR= F= quy k MSE MSE = Sai số N-k-1 SSE SSE (N k 1) Tổng SST = SSR + N-1 cộng SSE Giá trị thống kê Giá trị R-bình phương: SSR kF R 2 ( R 2 0.81 là khá tốt) SST (N k 1) kF Độ lệch chuẩn: SSE S ( S 0.30là khá tốt) (N k 1) GVHD: GS-TS: NGUYỄN ĐÌNH HUY5
  4. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Trong hộp thoại Regression, lần lượt ấn định các chi tiết: • Phạm vi của biến số Y (input Y range) • Phạm vi của biến số X (input X range) • Nhãn dữ liệu(Labels) • Mức tin cậy(Confidence level) • Tọa độ đầu ra(Output range) • Đường hồi quy (Line Fit Plots), GVHD: GS-TS: NGUYỄN ĐÌNH HUY7
  5. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Phương trình hồi quy: Ŷx2=f(X2) 2 Ŷx2= -11.141 +0.129X2 (R =0.76, S=0.99) 2 t0=3.418> t0.05=2.365(hay Pv =0.011>α=0.05) =>Bác bỏ giả thiết H0 t1= 4.757>t0.05=2.365(hay Pv =0.00206 Bác bỏ giả thiết H0 F=22.631>F=5.590(hay Fs=0.00206 Bác bỏ giả thiết H0 Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2=-11.141 +0.129X2 đều có ý nghĩa thống kê. Nói cách khác phương trình hồi quynày thích hợp. Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp. Phương trình hồi quy: Ŷx1, x2=f(X1, X2) 2 Ŷx1, x2 =-12.70+0.04X1+0.13X2(R =0.97; S=0.33) 2 -5 Pv =2.260.10 Bác bỏ giả thiết H0 Pv=0.00027 Bác bỏ giả thiết H0 -5 Fs=1.112*10 Bác bỏ giả thiết H0 Vậy cả hai hệ số -12.70 (B0),0.04(B1)và 0.13(B1)của phương trình hồi quy Ŷx1,x2 =-12.7 +0.04X1+0.13X2 đều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp. Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt độ. Sự tuyến tính của phương trình Ŷx 1, x2 =-12.70+0.04X1+0.13X2. Có thể được trình bày trong biểu đồ phân tán (scatterplots): GVHD: GS-TS: NGUYỄN ĐÌNH HUY9
  6. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Bài 2: Đề bài. Bảng sau đây cho ta một mẫu gồm 11 quan sát (xi, yi) từ tập hợp chính các giá trị của cặp ĐLNN (X,Y): X 0,9 1,22 1,32 0,77 1,3 1,2 Y -0,3 0,1 0,7 -0,28 -0,25 0,02 X 1,32 0,95 1,45 1,3 1,2 Y 0,37 -0,70 0,55 0,35 0,32 a) Tìm đường hồi quy của Y đối với X. b) Tính sai số tiêu chuẩn của đường hồi quy c) Tính tỷ số F để kiểm định sự đúng đắn của giả thiết: Có hồi quy tuyến tính của Y theo X. ❖ Dạng bài. Phân tích hồi quy tuyến tính ❖ Cơ sở lý thuyết. Phương trình hồi quy tuyến tính: S a r y y x a bx ; ; b y ax Sx Kiểm định hệ số a, b: Giả thuyết Ho: Hệ số quy hồi không có ý nghĩa (= 0) H1: Hệ số hồi quy có ý nghĩa (≠ 0) Trắc nghiệm t < tα, n-2: chấp nhận Ho Kiểm định phương trình hồi quy: Giả thuyết Ho: “Phương trình hồi quy tuyến tính không phù hợp” H1: “Phương trình hồi quy tuyến tính phù hợp” Trắc nghiệm F < Fα, 1, n-2: chấp nhận Ho GVHD: GS-TS: NGUYỄN ĐÌNH HUY 11
  7. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ B3: Sau khi nhập đủ các thông số, ta có được bảng sau: GVHD: GS-TS: NGUYỄN ĐÌNH HUY 13
  8. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ = 0.28965 b) Tỷ số F = 0.289645 Với mức ý nghĩa a=0.05, Ta thấy F=0.249645 > c=4.41 (bảng Fisher [1, 18]) Vậy có hồi quy tuyến tính giữa Y và X c) Tỷ số F = 0.006169 Với mức ý nghĩa a=0.05, ta thấy F=0.006169 =6 40 – 50 71 430 1072 1609 1178 158 50 – 60 54 324 894 1202 903 112 Có sự khác nhau về phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề hay không? Mức ý nghĩa = 2%. ❖ Dạng toán: Bài toán kiểm định tính độc lập. ❖ Cơ sở lí thuyết: Ta sẽ xét bài toán kiểm tra tính độc lập của hai dấu hiệu. Trước hết, chúng ta xét bài toán kiểm định tính độc lập của dấu hiệu định tính A và B. Ta chia dấu hiệu A ra làm r mức độ A 1, A2, , Ar, và chia đặc tính B làm k mức độ B1, B2, , Bk. Xét một mẫu ngẫu nhiên gồm n cá thể. Mỗi cá thể sẽ mang dấu hiệu A ở mức Ai nào đó và mang dấu hiệu B ở mức B j nào đó. Giả sử n ij là số cá thể có các dấu hiệu Ai và Bj. Các số liệu n ij được ghi trong bảng sau đây gọi là bảng liên hợp các dấu hiệu (Contingency Table). A B B B Tổng B 1 2 k A1 n11 n12 n1k n10 A2 n21 n22 n2k n20 GVHD: GS-TS: NGUYỄN ĐÌNH HUY 15
  9. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: GS-TS: NGUYỄN ĐÌNH HUY 17
  10. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Ta được tổng hàng và tổng cột Bước 3: Tính tần số lý thuyết. Tần số = (tổng hàng * tổng cột) / tổng cộng. Ô B23 nhập lệnh = $H11*B$13/$H$13 rồi enter. Sau đó ta kéo chọn từ B16:G17 , sau đó ta ấn tổ hợp phím F2+ctrl+enter. Ta có bảng tần số lý thuyết GVHD: GS-TS: NGUYỄN ĐÌNH HUY 19
  11. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Rồi nhập các giá trị tần số quan sát vào mục Expected_range. Nhấn OK Ta được P = 0.511582 Vì giá trị P > α = 2% => Chấp nhận giả thuyết H0 .Kết luận: Phân bố thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề là như nhau. Bài 4: Đề bài. Một nhóm gồm 105 nhà doanh nghiệp Mỹ được phân loại căn cứ theo thu nhập hằng năm và tuổi thọ của họ. Kết quả thu được như hình sau: Thu nhập Tuổi Từ 100 000 $ Dưới 100 000 $ Trên 400 000 $ đến 399 599 $ Dưới 40 6 9 5 Từ 40 18 19 8 đến 54 Trên 54 11 12 17 Với mức ý nghĩa 1%, kiểm định giả thiết cho rằng tuổi và mức thu nhập có quan hệ với nhau hay không? GVHD: GS-TS: NGUYỄN ĐÌNH HUY 21
  12. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ và số cá thể có đồng thời dấu hiệu Ai và Bj sẽ xấp xỉ bằng ˆ nionoj n np ij ij n ˆ Các số nij được gọi là các tần số lý thuyết (TSLT), còn các số nij được gọi là các tần số quan sát (TSQS). Khoảng cách giữa các TSLT và TSQS được đo bằng đại lượng sau: k r ˆ 2 (nij nij) T ˆ   n j 1 i 1 ij Người ta đã chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn 5 thì T 2 sẽ có phân bố xấp xỉ phân bố  với bậc tự do là (k–1).(r–1). Thành thử Ho sẽ bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức của phân bố  2 với (k–1).(r–1) bậc tự do. Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (n ij,γij), với lưu ý số lượng các giá trị của nij và γij phải bằng nhau. ✓ Kết luận 2 2 Nếu 0  → Chấp nhận giả thiết H0. Hoặc kết quả hàm CHITEST > α =0.01 → Chấp nhận giả thiết H0. ❖ Bài làm. 1. Kết quả tính bằng tay H0: Tuổi và thu nhập không phụ thuộc nhau. k r ˆ 2 (nij nij) Áp dụng công thức T ˆ => Tqs = 6.854861   n j 1 i 1 ij Ta có bậc tự do: (3-1)(3-1)=4 và mức ý nghĩa 1% tra bảng ta được c = 13.28 Tqs < c chấp nhận giả thiết H0. Kết luận tuổi và thu nhập không phụ thuộc nhau. 2. Tính bằng excel Bước 1: Lập giả thiết H0: Tuổi và thu nhập không phụ thuộc nhau. Nhập bảng số liệu GVHD: GS-TS: NGUYỄN ĐÌNH HUY 23
  13. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Bước 3: Tính tần số lý thuyết. Tần số = (tổng hàng * tổng cột) / tổng cộng. Ô B23 nhập lệnh = B$17*$E14/$E$17 rồi enter. Sau đó ta kéo chọn từ B23:D25 , sau đó ta ấn tổ hợp phím F2+ctrl+enter Ta có bảng tần số lý thuyết GVHD: GS-TS: NGUYỄN ĐÌNH HUY 25
  14. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Rồi nhập các giá trị tần số quan sát vào mục Expected_range. Nhấn OK Ta được P = 0.14376 Vì giá trị P > α = 1% => Chấp nhận giả thuyết H 0, tuổi và thu nhập không phụ thuộc nhau. Kết luận: Tuổi và thu nhập không phụ thuộc nhau. Bài 5: Đề bài. Với mức ý nghĩa 1%, Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên sơ sở số liệu về doanh thu của một số cửa hàng như sau: GVHD: GS-TS: NGUYỄN ĐÌNH HUY 27
  15. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ n jk x jk xijk k i k x jo trung bình của mức Aj n jo n jo n jk x jk xijk j i j xok trung bình của mức Bk nok nok x jk x = trung bình chung = x ok n Ta có bảng sau đây ghi các kết quả tính toán trên: A Trung bình B1 B2 Bk Bc B dòng Aj x A1 x11 x12 x1k 1c x10 x A2 x21 x22 x2k 2c x20 x x x x x Aj j1 j2 jk jc j0 x x x x x Ar r1 r2 rk r c ro Trung bình cột x o1 x o2 x oc x Bk + Tổng bình phương chung, ký hiệu là SST, được tính theo công thức sau: c r n jk 2 SST  xijk x k 1 j 1 i 1 + Tổng bình phương cho nhân tố A, ký hiệu là SSFA được tính theo công thức sau: c 2 SSFB  nok xok x k 1 + Tổng bình phương do sai số, ký hiệu là SSE, được tính theo công thức c r n jk 2 SSF  xijk x jk k 1 j 1 i 1 + Tổng bình phương do tương tác (Sum of Squares for Interaction) ký hiệu là SSI, được tính theo công thức. C r 2 SSI  x jk x jo xko x k 1 j 1 GVHD: GS-TS: NGUYỄN ĐÌNH HUY 29
  16. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ B Ho : “Các mức B1, B2, Bc có hiệu quả trung bình như nhau” Nếu FAB> f ((r – 1)(c – 1), n – rc) Ta bác bỏ giả thiết: AB Ho : “Có sự tương tác giữa A và B”. Trên thực hành tính toán chúng ta thực hiện như sau: Giả sử Tjk là tổng các giá trị trong mẫu (j, k). Ký hiệu c r Tjo  Tjk , Tok Tjk k 1 j 1 c r n jo  n jk , nok n jk k 1 j 1 T Tjo Tok xijk n n jo nok 2 A xijk (3) Ta có các đẳng thức sau: T2 SST A (4) n r 2 2 Tjo T SSFA  (5) j 1 n jo n c 2 2 Tok T SSFB  (6) k 1 nok n c r T2 SSE A  jk (7) k 1 j 1 n jk SSI SST SSFA SSFB SSE (8) Đặc biệt nếu tất cả các mẫu bằng nhau njk = m với mọi j, k thì: njo cm, nok rm r 2 Tjo T2 do đó SSF j 1 (5’) A cm n r T2  ok 2 T SSF k 1 (6’) B rm n GVHD: GS-TS: NGUYỄN ĐÌNH HUY 31
  17. July 23, 2014 BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Trong hộp thoại Anova: Two-Factor With Replication lần lượt ấn định các chi tiết: • Phạm vi đầu vào (Input Range): $A$9:$E$21 • Số hàng mỗi mẫu (Rows per sample): 4 • Ngưỡng tin cậy (Alpha): 0.01 (mức ý nghĩa = 1%) • Phạm vi đầu ra (Output Range): $A$23 Nhấn OK. Ta được bảng sau: GVHD: GS-TS: NGUYỄN ĐÌNH HUY 33