Báo cáo Bài tập lớn Xác suất thống kê - Đề tài 4

ài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử
dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 94% (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. 
pdf 28 trang thamphan 28/12/2022 2500
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Bài tập lớn Xác suất thống kê - Đề tài 4", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfbao_cao_bai_tap_lon_xac_suat_thong_ke_de_tai_4.pdf

Nội dung text: Báo cáo Bài tập lớn Xác suất thống kê - Đề tài 4

  1. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1) Thực hiện phương pháp phân tổ dữ liệu (A). 2) Vẽ đồ thị phân phối tần số và đa giác tần số (A). 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 94% (A). 4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị. Bài làm:  Dạng bài: Thống kê mô tả  Dữ liệu (A): Khảo sát điểm thi cuối kỳ môn Giải tích mạch của 40 sinh viên khoa Điện - điện tử: 8 8 8 3 4 3 4 4 7 9 6 8 4 5 5 4 9 2 4 5 10 6 4 9 3 2 8 7 4 6 3 8 6 7 8 3 5 8 6 9  Dữ liệu (B): Kết quả phân ngành sinh viên khoa Điện – điện tử khóa 2012 Đại học Bách khoa TP. Hồ Chí Minh: Kỹ sư tài năng Tự động hóa 21 Kỹ sư tài năng Điện tử viễn thông 21 Kỹ sư tài năng Điện năng 17 Tự động hóa 128 Điện tử viễn thông 211 Điện năng 145 Page | 1
  2. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 - Bin Range: Địa chỉ chứa bảng phân nhóm. - Output options: Vị trí xuất kết quả. - Confidence Level for Mean: Độ tin cậy cho trung bình. - Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel sẽ chỉ tính tần số.  Kết quả: hay 2) Vẽ đồ thị tần số và đa giác tần số (A):  Vẽ đồ thị phân phối tần số: Page | 3
  3. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Đa giác tần số 16 14 12 10 8 Tầnsố 6 4 2 0 4 6 8 10 Điểm 3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 94% (A)  Nhập dữ liệu vào bảng tính:  Chọn chức năng Data/Data Analysis/Descriptive Statistics - Input Range: Địa chỉ tuyệt đối chứa dữ liệu. - Output options: Vị trí xuất kết quả. Page | 5
  4. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 4) Trình bày dự liệu định tính (B) dạng phân loại bằng các đồ thị  Nhập dữ liệu vào bảng tính:  Tính tỉ lệ sinh viên cho các ngành: Nhập vào C2: =B2/$B$8, copy cho các ô còn lại. Kết quả:  Vẽ biểu đồ đứng thể hiện số lượn sinh viên ở các chuyên ngành - Quét chọn cột Số sinh viên (B2:B7). - Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert.  Kết quả: Page | 7
  5. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Bài 2: Hàm lượng (%) của chất C trong cùng một loại sản phẩm của 2 công ty được công bố xấp xỉ nhau. Đo kiểm tra hàm lượng chất C có trong một số sản phẩm được chọn ngẫu nhiên trên thị trường, người ta thu được số liệu sau: Sản phẩm của công ty A 37 38 35 40 42 34 37 39 Sản phẩm của công ty B 42 35 40 38 36 43 38 41 Hãy so sánh mức độ đồng đều của hàm lượng chất C trong các sản phẩm của 2 công ty với mức ý nghĩa 3%. Giả thiết hàm lượng này phân bố theo quy luật chuẩn. Bài làm: Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.  Công cụ: F-Test Two-Sample for Variances  Cơ sở lý thuyết: Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau: 2 푆1 F = 2 푆2 Trong đó: 푆1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1 푆2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2. - Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất. - Giả thiết đặt ra là kiểm định hai bên: 2 2 2 2 1: 휎1 = 휎1 푣à 0: 휎1 ≠ 휎2 - Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng Page | 9
  6. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Vào Data/ Data Analysis/ F-Test Two-Sample for Variances. Chọn các mục như hình: + Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2. + Output options: vị trí xuất kết quả. + Apha: mức ý nghĩa (chọn tại ô alpha) Page | 11
  7. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 2 2 + 1 : 휎1 > 휎2 “mức độ đồng đều của hàm lượng chất C trong 1 loại sản phẩm của 2 công ty A, B khác nhau ”. F = 0.8351 > 퐹0.03 = 0.2148 Bác bỏ giả thuyết 0 , chấp nhận giả thuyết H1. Bài 3: Nồng độ chì trong không khí đo được ở một số giao lộ trong thành phố được thể hiện trong kết quả sau: Địa điểm Nồng độ chì ( mg/m3) I 0,42 0,53 0,62 0,71 0,83 0,61 0,51 0,32 II 0,70 0,32 0,64 0,44 0,53 III 0,39 0,37 0,43 0,45 0,41 0,52 0,42 IV 0,35 0,45 0,54 0,56 0,6 0,62 Có thể coi nồng độ chì trong không khí ở các giao lộ là giống nhau hay không, với mức ý nghĩa 5%? Tìm hệ số xác định R2 của bài toán và giải thích ý nghĩa của nó. Bài làm:  Dạng bài: Kiểm định giá trị trung bình một nhân tố.  Phương pháp giải: Phân tích phương sai một nhân tố.  Công cụ giải: Anova single factor.  Cơ sở lý thuyết: 2 Giả sử nhân tố A có k mức X1, X2, , Xk với Xj có phân phối chuẩn N(a,σ ) có mẫu điều tra: X1 X2 Xk X11 X12 X1k X21 X22 X2k Xn(1)1 Xn(2)2 Xn(k)k Page | 13
  8. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 - Trung bình bình phương của sai số Mean Square for Error: 푆푆 푆 = 푛 − Trong đó, n-k là bậc tự do của sai số. - Tỷ số F: 푆퐹 퐹 = 푆 - Bảng ANOVA Tổng bình Trung bình Nguồn Bậc tự do Tỷ số F phương bình phương Nhân tố SSF k-1 MSF MSF/MSE Sai số SSE n-k MSE Tổng số SST n-1 So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận: - Nếu F > F lý thuyết, ta bác bỏ H0. - Nếu F < F lý thuyết, H0 đúng. 푆푆퐹 Hệ số xác định R2 = chính là tỷ lệ hay số phần trăm chiến trong tổng số 푆푆 100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng.  Thực hiện bài toán: Nhập dữ liệu vào bảng tính. Vào Data/ Data Analysis/Anova: Single Factor. Chọn các thư mục như hình: - Input Range: địa chỉ tuyệt đối chứa dữ liệu. - Output options: vị trí xuất kết quả. Page | 15
  9. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 H1: Nồng độ chì trong không khí ở các giao lộ không giống nhau. Vì F = 1.667233 < F critical = 3.049125 nên ta giả thiết H0 đúng. Vậy nồng độ chì trong không khí ở các giao lộ là giống nhau.  Tính hệ số xác định R2: Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R2 theo công thức: 푆푆퐹 푅2 = 푆푆  Thực hiện trên Excel: - Chọn ô đưa ra kết quả của R2 - Nhập công thức: =B20/B23 Ta thu được kết quả sau: Vậy hệ số xác định R2 = 0.185236. Điều đó có nghĩa là nhân tố nơi lấy mẫu để đo chỉ ảnh hưởng 18,52% đến sự biến động của nồng độ chì trong không khí. Bài 4: Một nông trường nuôi 3 giống bò sữa A,B,C. Lượng sữa của các con bò này được thể hiện trong bảng theo dõi sau: Page | 17
  10. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Chúng ta muốn kiểm định xem A=( 1, 2, . . , ) có cùng phân số trong X và Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y. 푖 Tổng quát hơn, giả sử ta có k tập hợp chính 1, 2, . . , gọi = 푖 1 1 ( 1, 2, . . ) là phân bố của A =( 1, 2, . . , ) trong tập hợp chính 푖. Ta muốn kiểm định giả thuyết sau: 1 2 0: = = ⋯ = (Các phân bố này là như nhau trên các tập hợp chính 푖). Chú ý rằng 0 tương đương với hệ đẳng thức sau: 1 2 1 = 1 = ⋯ = 1 1 2 2 = 2 = ⋯ = 2 1 2 푖 = 푖 = ⋯ = 푖 1 2 { = = ⋯ = Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên. Mẫu ngẫu nhiên chọn từ tập hợp chính 푖 được gọi là ngẫu nhiên thứ i (i = 1,2, k). Giả sử trong mẫu ngẫu nhiên thứ i: Có 푛1푖 cá thể có tính trạng 1 푛2푖 cá thể có tính trạng 2 푛 푖 cá thể có tính trạng Ký hiệu: 푛푖0 = ∑푗=1 푛푖푗 ; 푛0푗 = ∑푖=1 푛푖푗 Như vậy 푛0푗 là kích thước của mẫu thứ j, còn 푛푖0 là tổng số cá thể có tính trạng 푖 trong toàn bộ k mẫu đang xét: 푛 = ∑푖=1 푛푖0 = ∑푗=1 푛0푗 là tổng số tất cả các cá thế của k mẫu đang xét. - Nếu giả thuyết 0 là đúng nghĩa là: 1 2 1 = 1 = ⋯ = 1 = 1 1 2 2 = 2 = ⋯ = 2 = 2 − − − − − − − 1 2 푖 = 푖 = ⋯ = 푖 = 푖 − − − − − − − 1 2 { = = ⋯ = = Page | 19
  11. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4  Tính tổng các số: Tổng hàng: Chọn E3, nhập =SUM(B3:D3), rồi Enter, dùng con trỏ kéo nút tự điều khiển từ điền từ E4 đến E5. Tổng cột: Chọn B6, nhập =SUM(B3:B5), rồi Enter, dùng con trỏ kéo nút tự điều khiển từ B6 đến D6. Tổng cộng: chọn E8 và nhập =SUM(E3:E5).  Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng A: Chọn B11: nhập =E3*$B$6/$E$6, rùi Enter, dùng con trỏ kéo nút tự điều khiển từ B11 đến B13. B: Chọn C11: nhập =E3*$C$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự điều khiển từ C11 đến C13. C: Chọn D11: nhập =E3*$D$6/$E$6, rồi Enter, dùng con trỏ kéo nút tự điều khiển từ D11 đến D13. Page | 21
  12. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4  Kết luận: Ba giống bò này có tỉ lệ khác nhau (không thuần) về phương diện sữa. Bài 5: Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu: 1) Tìm hệ số tương quan giữa X,Y. 2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ. 3) Tìm hệ số xác định R2. 4) Tìm sai số chuẩn của ước lượng. Bài làm:  Cơ sở lý thuyết : 1) Tìm hệ số tương quan X và Y: - Hệ số tương quan: ∑ −∑ ∑ R= 푖 푖 푖 푖 2 2 2 2 √[푛∑ 푖 −(∑ 푖) ][푛∑ 푖 −(∑ 푖) ] - Nếu R>0 thì X,Y tương quan thuận. - Nếu R<0 thì X,Y tương quan nghịch. - Nếu R=0 thì X,Y không tương quan. - Nếu |R|=1 thì X,Y có quan hệ hàm bậc nhất. - Nếu |R| 1 thì X,Y có tương quan chặt (tương quan mạnh). - Nếu |R| 0 thì X,Y có tương quan không chặt (tương quan yếu). 2) Quan hệ giữa X và Y có được coi là tuyến tính hay không : Giả thiết H0: X và Y không có tương quan tuyến tính: 푛−2 T = √ √1− 2 Ước lượng hồi quy tuyến tính Y theo X: Page | 23
  13. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4  Kết quả: Ta có hệ số tương quan là R = 0.790711973 chứng tỏ giữa thời gian và công suất tiêu thụ có quan hệ khá chặt chẽ và có tương quan thuận. 2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.  Thực hiện trên Excel: Tính T : chọn ô B5 và nhập biểu thức =B3*SQRT(12-2)/SQRT(1- B3^2). Tính c: chọn ô B6 và nhập biểu thức =TINV(0.05,10) (c là phân vị mức α/2=0.025 của phân bố Student với n-2=10 bậc tự do). Page | 25
  14. Báo cáo Bài tập lớn Xác suất thống kê Nhóm 4 Kết quả: X Line Fit Plot 1500 1000 Y 500 Y 0 Predicted Y 0 10 20 30 40 50 60 70 -500 X Page | 27