Báo cáo bài tập lớn Xác suất thống kê - Đề tài 5

BÀI 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu
đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 95% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị 
pdf 39 trang thamphan 2640
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo bài tập lớn Xác suất thống kê - Đề tài 5", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbao_cao_bai_tap_lon_xac_suat_thong_ke_de_tai_5.pdf

Nội dung text: Báo cáo bài tập lớn Xác suất thống kê - Đề tài 5

  1. TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI 5 GVHD: NGUYỄN KIỀU DUNG THỰC HIỆN: NHÓM 3 – L02 1) 21300205 – Nguyễn Văn Ba 2) 21300382 – Trần Minh Chiến (NT) 3) 21300730 – Vương Phạm Phi Dương 4) 21300814 – Phùng Tiến Đạt 5) 21301031 – Chế Minh Hải 6) 21301189 – Phan Đức Hiếu 7) 81301915 – Hoàng Văn Khương Thành phố Hồ Chí Minh, tháng 11 năm 2014
  2. 1) Thực hiện phương pháp phân tổ dữ liệu A:  Nhập dữ liệu (A) vào Excel: + Xác định số tổ cần chia: = (2 × ) Chọn ô A6 nhập vào biểu thức =(2*Count(A1:J4))^(1/3) Kết quả 4.31 Chọn k = 4 ( ) + Xác định trị số khoảng cách h theo công thức: ℎ = Chọn ô A7 nhập vào biểu thức =(Max(A1:J4)-Min(A1:J4))/4 Kết quả 4.25 Chọn h =4 + Ta xác định được các cận trên và cận dưới các tổ lần lượt là: Tổ 1: 12 – 16 Tổ 2: 16 – 20 Tổ 3: 20 – 24 Tổ 4: 24 – 29 Nhập vào các ô từ A9 đến A13 lần lượt các giá trị:  Chọn chức năng Data/ Data Analysis/Histogram. + Input Range: địa chỉ tuyệt đối chứa dư liệu.
  3. 2) Vẽ đồ thị phân phối tần số và đa giác tần số (A):  Vẽ đồ thị phân phối tần số: + Quét chọn bảng tần số B2:B5 + Dùng chức năng Insert Column Chart trên menu Insert.  Kết quả sau khi chỉnh sửa:  Vẽ đa giác tần số: + Sử dụng bảng phân phối tần số của dữ liệu (A): + Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
  4.  Nhập dữ liệu vào bảng tính:  Chọn chức năng Data/Data Analysis/Descriptive Statistics. + Input Range: địa chỉ tuyệt đối chứa dư liệu. + Output options: vị trí xuất kết quả. + Confidence Level for Mean: độ tin cậy cho trung bình.
  5.  Tính tỉ lệ sinh viên cho các ngành: Nhập vào C3: =B3/$B$10, copy cho các ô còn lại.  Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành. + Quét chọn cột Số sinh viên (B3:B9) + Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu Insert.  Kết quả thu được:
  6. - Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thuyết H0. Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngược lại. - Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất gọi tên là phân phối Fisher. Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số ( = − 1) gắn liền với mậu thứ nhất và bậctuự do mẫu số gắn liền với mẫu thứ hai ( = − 1). - Quy tắc thực sự để bác bỏ H0 với kiểm định hai bên khi = − 1 và = − 1, mức ý nghĩa là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên = ;;/ của phân phối F hoặc bé hơn giá trị tới hạn dưới = ;;/ tức là ;;/. - Nếu chúng ta kiểm định bên phải: : = : > Quy tắc bác bỏ H0 là khi > (;;). Giả thiết: : = : > Giá trị thống kê: = = Phân phối Fischer: = − 1; = − 1 Biện luận: Nếu < (,) Chấp nhận giả thuyết H0 với xác xuất (1- )100%.  Thực hiện bài toán bằng excel: Nhập dữ liệu vào bảng tính:
  7.  Biện luận: Giả thiết : = “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”. : > : “Doanh số bán hàng của 2 cửa hàng không phân tán như nhau”. F = 1.5727 < F 0.03 = 3.2192 Chấp nhận giả thuyết H0. Vậy: Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau.
  8. Với mức ý nghĩa ta kiểm định giả thiết: o H0: a1=a2= = ak o H1: “Tồn tại j1≠j2 sao cho aj1≠aj2 Đặt: Tổng quan sát: = Trung bình nhóm j (j=1, , k): 1 ̅ = = ớ = Trung bình mẫu chung: 1 ̅ = = ớ = = Phương sai hiệu chỉnh nhóm j: 1 = − − 1 Tổng bình phương các độ lệch: 2 = − Tổng bình phương độ lệch riêng của các nhóm so với ̅ : = − =1 2 = = − = −
  9. Chọn các mục như hình: + Input Range: địa chỉ tuyệt đối chứa dư liệu. + Output options: vị trí xuất kết quả. + Apha: mức ý nghĩa .  Kết quả:  Biện luận: Giả thiết H0: Mức độ nhiễm bụi của các khu vực là như nhau.
  10. BÀI 4: Bảng số liệu sau cho biết số người chết về bệnh ung thư ở 3 nước Mỹ, Nhật, Anh trong thời gian khảo sát. Người chết được phân loại theo cơ quan bị ung thư. Bộ phận bị Nước ung thư Mỹ Nhật Anh Ruột 11 5 5 Ngực 15 3 7 Dạ dày 3 22 3 Bộ phận khác 41 30 15 Với mức ý nghĩa = 1%, hãy so sánh phân bố tỉ lệ chết về ung thư của 3 nước nói trên. BÀI LÀM:  Dạng bài: Kiểm định giả thiết về tỉ lệ.  Phương pháp giải: Áp dụng Kiểm định chi bình phương 2.  Công cụ giải: hàm CHITEST trên Excel.  Cơ sở lý thuyết: - Trong thống kê, kiểm định chi bình phương hay kiểm tra 2. (đôi khi đọc là "khi bình phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê kiểm định tuân theo phân bố 2 nếu giả thuyết không là đúng. Chúng gồm: Kiểm định chi bình phương Pearson Kiểm định chi bình phương Yates Kiểm định chi bình phương Mantel-Haenszel - Dạng thống kê kiểm định thông dụng nhất là: ( − ) = Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.
  11. k r n n Ký hiệu: io ij ; noj  n ij j 1 i 1 Như vậy n0j là kích thước của mẫu thứ j, còn nio là tổng số cá thể có tính trạng Ai trong toàn bộ k mẫu đang xét: r k n  nio  n oj là tổng số tất cả các cá thể của k mẫu đang xét. i 1 j 1 . Nếu giả thiết H0 là đúng nghĩa là: 1 2 k p1 p 1  p 1 p 1 p1 p 2  p k p 2 2 2 2 1 2 k pi p i  p i p i 1 2 k pr p r  p r p r  nio thì các tỷ lệ chung p1, p2, pr được ước lượng bởi: p i n Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai. khi đó số cá thể có tính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:   noj n io nij n p oj i n  Các số nij (i 1,2, r; j 1,2, k) được gọi là các tần số lý thuyết (TSLT), các số nij được gọi là các tần số quan sát (TSQS). Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường. Khoảng cách giữa TSQS và TSLT được đo bằng test thống kê sau đây: 2  2 k r nij nij (TSQS TSLT) T   f 1 i 1 nij TSLT Người ta chứng minh được rằng nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do. Thành thử miền bác bỏ có dạng {T > c} ở đó c
  12. Sử dụng hàm CHITEST tính xác suất P(X> 2 ):  Kết quả và biện luận: Giả thiết H0: Phân bố tỉ lệ chết về ung thư của 3 nước như nhau. H1: Phân bố tỉ lệ chết về ung thư của 3 nước khác nhau. Ta có: P(X> 2 ) = 4.36401E-05 < α=0.05 Bác bỏ giả thiết H0, chấp nhận giả thiết H1 Vậy: phân bố tỉ lệ chết về ung thư của 3 nước khác nhau.
  13. Nếu || → 0 thì X, Y có tương quan không chặt (tương quan yếu).  Thực hiện trên Excel: Nhập số liệu vào bảng tính: Chọn chức năng Data/Data Analysis/Correlation.  Kết quả: Ta có hệ số tương quan là R = 0.790711973 chứng tỏ giữa thời gian và khối lương phoi thu được có quan hệ khá chặc chẻ và có tương quan thuận. 2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.  Cơ sở lý thuyết: Giả thiết H0: X và Y không có tương quan tuyến tính: √ − 2 = √1 −
  14. Nhập số liệu vào bảng tính: Dùng chức năng Data/Data Analysis/Regression. Kết quả:
  15. Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được hệ số hồi quy: R2 = 0.6252 4) Tìm sai số chuẩn của ước lượng: Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số chuẩn của ước lượng: - Đối với biến tự do: SE = 151,2200 - Đối với biến X: SE = 4.2594 b) Ví dụ 4.2: Người ta dùng ba mức nhiệt độ gồm 105, 120 và 135oC kết hợp với ba khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:
  16. Tổng N - 1 SST = SSR + SSE cộng Giá trị thống kê: Giá trị R-bình phương: Giá trị R2: = = (R3 ≤ 0.81 là khá tốt) () Giá trị R2 được hiệu chỉnh (Adjusted R Square) ( − 1) − (1 − ) = = − ( − − 1) ( − − 1) 2 ( sẽ trở nên âm hay không xác định nếu R hay N nhỏ) o Độ lệch chuẩn: = (S ≤ 0.30 là khá tốt) ()  Trắc nghiệm thống kê: Trắc nghiệm t: H : B = 0 “Các hệ số hồi quy không có ý nghĩa” : B ≠ 0 “Có ít nhất vài hệ số hồi quy có ý nghĩa” Bậc tự do của t: = N - k - 1 || = ; = ∑() Trắc nghiệm F: H : B = 0 “phương trình hồi quy không thích hợp” : B ≠ 0 “phương trình hồi quy thích hợp” với ít nhất vài B. Bậc tự do của giá trị F: v1 = 1, v2 = N -k – 1  Thực hiện trên Excel: Giả thiết H0: Phương trình hồi quy không thích hợp.
  17.  Kết quả:  Phương trình hồi quy: ŶX1 = f(X1) = 2.7267 + 0.0445X1 với R2 = 0.2139 và S = 1.8112 t0 = 2.1290 α = 0.05 Chấp nhận giả thiết H0. t1 = 1.3802 α = 0.05
  18. Bác bỏ giả thiết H0. F = 22.6309 > . = 5.590 hay = 0.0021 t0.05 = 2.365 hay = 2.5607*10 < α = 0.05
  19. đoán (Y’) đoán ự ng d ng ợ Hàm lư Hàm Hàm lượng thực nghiệm (Y)  Dự đoán hiệu suất của phản ứng bằng phương trình hồi quy tại nhiệt thời gian o (X1) 50 phút, nhiệt độ (X2) 115 C:  Thực hiện: Công thức ô E3: =B1+B2*E1+B3*E2  Kết quả: 4.3109 Vậy hiệu suất của phản ứng bằng phương trình hồi quy tại nhiệt thời gian (X1) 50 o phút, nhiệt độ (X2) 115 C là 4.3109