F Test Là Gì

  -  

Kiểm định F, khi được sử dụng để phân tích hồi quy, cho phép bạn so sánh hai mô hình hồi quy cạnh tranh về khả năng “giải thích” phương sai trong biến phụ thuộc.

Bạn đang xem: F test là gì

Kiểm định F được sử dụng chủ yếu trong ANOVA và trong phân tích hồi quy. Chúng tôi sẽ nghiên cứu việc sử dụng nó trong hồi quy tuyến tính .

Tại sao sử dụng kiểm định F trong phân tích hồi quy

Trong hồi quy tuyến tính, kiểm định F có thể được sử dụng để trả lời các câu hỏi sau:

Bạn sẽ có thể cải thiện mô hình hồi quy tuyến tính của mình bằng cách làm cho nó phức tạp hơn, tức là bằng cách thêm nhiều biến hồi quy tuyến tính vào nó?Nếu bạn đã có một mô hình hồi quy phức tạp, liệu bạn có nên giao dịch mô hình phức tạp của mình với mô hình chỉ đánh chặn (là mô hình hồi quy tuyến tính đơn giản nhất mà bạn có thể xây dựng) không?

Mô hình bị hạn chế được cho là được lồng trong mô hình không bị hạn chế.


*
Mô hình hồi quy tuyến tính: không hạn chế, hạn chế và chỉ giới hạn đánh chặn (Hình ảnh của Tác giả)

Hãy cùng khám phá cách sử dụng F-test bằng ví dụ về chuỗi thời gian trong thế giới thực. Chúng tôi sẽ bắt đầu bằng cách xây dựng một mô hình chỉ đánh chặn — mô hình hạn chế.

Một cái nhìn ngắn gọn về mô hình chỉ đánh chặn

Chuỗi thời gian sau đây cho thấy giá đóng cửa hàng ngày của Chỉ số Công nghiệp Dow Jones trong khoảng thời gian 3 tháng.


*
Giá đóng cửa trung bình công nghiệp của Dow Jones trong khoảng thời gian 3 tháng (Ảnh của tác giả)

Giả sử chúng ta muốn tạo một mô hình hồi quy cho chuỗi thời gian này. Nhưng chúng tôi không biết những yếu tố nào ảnh hưởng đến Giá đóng cửa. Chúng tôi cũng không muốn giả định bất kỳ lạm phát, xu hướng hoặc tính thời vụ nào trong tập dữ liệu.

Trong trường hợp không có bất kỳ giả định nào về lạm phát, xu hướng, tính thời vụ hoặc sự hiện diện của các biến giải thích, điều tốt nhất chúng ta có thể làm là mô hình chỉ đánh chặn (đôi khi được gọi là mô hình trung bình ). Nó có dạng sau cho ví dụ chuỗi thời gian của chúng tôi:


*
Mô hình chỉ đánh chặn cho tập dữ liệu DJIA (Hình ảnh của Tác giả)

Trong mô hình chỉ chặn, tất cả các dự báo nhận giá trị của hệ số chặn Beta_0. Biểu đồ sau cho thấy mô hình chỉ đánh chặn được trang bị trong bối cảnh của chuỗi thời gian thực tế:


*
Giá đóng cửa thực tế và dự đoán của DJIA sử dụng mô hình trung bình (Hình ảnh của tác giả)

Đây là mã Python để tạo ra các kết quả trên:

Nhập tất cả các gói được yêu cầu:

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt

df = pd.read_csv("djia.csv", header=0, infer_datetime_format=True, parse_dates=<0>, index_col=<0>)

mean = round(df<"Closing Price">.mean(),2)y_pred = np.full(len(df<"Closing Price">), mean)

fig = plt.figure()fig.suptitle("DJIA Closing Price")actual, = plt.plot(df.index, df<"Closing Price">, "go-", label="Actual Closing Price")predicted, = plt.plot(df.index, y_pred, "ro-", label="Predicted Closing Price")plt.xlabel("Date")plt.ylabel("Closing Price (USD)")plt.legend(handles=)plt.show()

Một mô hình cạnh tranh

Giả sử bằng một số phân tích, chúng tôi đã suy luận rằng giá trị hôm nay của Giá đóng cửa của DJIA có thể trở thành một dự đoán tốt về Giá đóng cửa ngày mai.

Để kiểm tra lý thuyết này, chúng tôi sẽ phát triển một mô hình hồi quy tuyến tính bao gồm một biến hồi quy duy nhất. Biến này sẽ là giá trị trễ thời gian của chuỗi thời gian. Đoạn mã Python sau minh họa quá trình hồi quy:

Nhập các gói bắt buộc:

import pandas as pdimport numpy as npimport statsmodels.api as sm

df = pd.read_csv("djia.csv", header=0, infer_datetime_format=True, parse_dates=<0>, index_col=<0>)

df<"CP_LAGGED"> = df<"Closing Price">.shift(1)

df_lagged = df.drop(df.index<0>)

split_index = round(len(df_lagged)*0.8)split_date = df_lagged.indexdf_train = df_lagged.loc.copy()X_train = df_train<"CP_LAGGED">.values#Add a placeholder for the constant so that model computes an intercept value. The OLS regression equation will take the form: y = Beta_0 + Beta_1*xX_train = sm.add_constant(X_train)y_train = df_train<"Closing Price">.valuesX_test = df_test<"CP_LAGGED">.values#Add a placeholder for the constantX_test = sm.add_constant(X_test)y_test = df_test<"Closing Price">.values

ols_model = sm.OLS(y_train,X_train)ols_results = ols_model.fit()

y_pred_train = ols_results.predict(X_train)y_pred_test = ols_results.predict(X_test)

fig = plt.figure()fig.suptitle("DJIA Closing Price")actual, = plt.plot(df_test.index, y_test, "go-", label="Actual Closing Price")predicted, = plt.plot(df_test.index, y_pred_test, "ro-", label="Predicted Closing Price")plt.xlabel("Date")plt.ylabel("Closing Price (USD)")plt.legend(handles=)plt.show()


*
Dự đoán so với giá đóng cửa thực tế của DJIA bằng cách sử dụng mô hình hồi quy OLS trên tập dữ liệu thử nghiệm (Hình ảnh của tác giả)

Thoạt nhìn, hiệu suất của mô hình này trông tốt hơn nhiều so với những gì chúng tôi nhận được từ mô hình trung bình. Nhưng kiểm tra kỹ hơn cho thấy rằng tại mỗi bước thời gian, mô hình chỉ đơn giản là học cách dự đoán về cơ bản giá trị quan sát trước đó được bù đắp bởi một lượng nhất định.

Tuy nhiên, mô hình biến trễ này thể hoạt động tốt hơn về mặt thống kê so với mô hình chỉ đánh chặn trong việc giải thích lượng phương sai trong Giá đóng cửa. Chúng tôi sẽ sử dụng F-test để xác định xem điều này có đúng không.

Phương pháp thử nghiệm

Phương pháp thử nghiệm của chúng tôi sẽ như sau:

Chúng tôi bắt đầu với hai giả thuyết:

H_0: Giả thuyết Null: Mô hình biến trễ không giải thích phương sai trong Giá đóng cửa của DJIA tốt hơn bất kỳ mô hình chỉ đánh chặn nào.H_1: Giả thuyết thay thế: Mô hình biến trễ thực hiện công việc tốt hơn (theo cách có ý nghĩa thống kê) trong việc giải thích phương sai trong Giá đóng cửa của DJIA so với mô hình chỉ chặn.Giả thuyết rỗng có thể bị bác bỏ (và giả thuyết thay thế được chấp nhận) trong phạm vi sai số nào đó, HOẶCGiả thuyết vô hiệu nên được chấp nhận.

Để hoàn thành các mục tiêu trên, chúng tôi sẽ làm theo các bước sau:

Xây dựng kiểm định thống kê cho F-test còn gọi là F-statistic .Xác định tính khả vi P khả năng xảy ra D tính xác định F của biến ngẫu nhiên mà thống kê F biểu diễn dưới giả thiết rằng giả thuyết rỗng là đúng .Cắm các giá trị vào công thức cho F-statistic và tính toán giá trị xác suất tương ứng bằng cách sử dụng P robability D ensity F bôi tìm thấy trong bước 2. Đây là khả năng quan sát các giá trị F-statistic giả định rằng giả thuyết là đúng .Nếu xác suất tìm thấy ở bước 3 nhỏ hơn ngưỡng lỗi, chẳng hạn như 0,05, bác bỏ giả thuyết rỗng và chấp nhận giả thuyết thay thế ở mức tin cậy (1,0 - ngưỡng lỗi), ví dụ: 1–0,05 = 0,95 (tức là độ tin cậy 95% cấp độ). Nếu không, hãy chấp nhận giả thuyết rỗng với xác suất sai bằng sai số ngưỡng, ví dụ: 0,05 hoặc 5%.

BƯỚC 1: Phát triển trực giác cho thống kê thử nghiệm

Nhớ lại rằng kiểm định F đo lường mức độ tốt hơn của một mô hình phức tạp so với một phiên bản đơn giản hơn của cùng một mô hình về khả năng giải thích phương sai của biến phụ thuộc.

Hãy xem xét hai mô hình hồi quy 1 và 2:

Cho Mô hình 1 có k_1 tham số. Mô hình 2 có k_2 tham số.Cho k_1 Như vậy, mô hình 1 là phiên bản đơn giản hơn của mô hình 2. tức là mô hình 1 là mô hình hạn chế và mô hình 2 là mô hình không hạn chế. Mô hình 1 có thể được lồng trong mô hình 2.Gọi RSS_1RSS_2 là tổng bình phương của sai số dư sau khi Mô hình 1 và Mô hình 2 được lắp vào cùng một tập dữ liệu.Gọi n là số mẫu dữ liệu.
*
Công thức cho thống kê F khi áp dụng cho phân tích hồi quy (Hình ảnh của Tác giả)

Công thức thống kê F cho phép bạn tính toán bao nhiêu phương sai trong biến phụ thuộc, mô hình đơn giản hơn không thể giải thích được so với mô hình phức tạp, được biểu thị dưới dạng một phần của phương sai không giải thích được từ mô hình phức tạp.

Trong phân tích hồi quy, sai số bình phương trung bình của mô hình được điều chỉnh là một phép đo tuyệt vời cho phương sai không giải thích được. Trong đó giải thích các điều khoản RSS ở tử số và mẫu số.

Tử số và mẫu số được chia tỷ lệ thích hợp bằng cách sử dụng các bậc tự do có sẵn tương ứng.

Xem thêm: Canxi Nên Uống Trước Hay Sau Khi Uống Canxi Không Nên Ăn Gì ?

Thống kê F tự nó là một biến ngẫu nhiên.

Hãy xác định P khả năng biến đổi D tính F mà thống kê F tuân theo.

BƯỚC 2: Xác định Hàm Mật độ Xác suất của thống kê F

Chú ý rằng cả tử số và mẫu số của thống kê thử nghiệm đều chứa tổng bình phương sai số dư. Cũng nhớ lại rằng trong hồi quy, lỗi dư xảy ra là một biến ngẫu nhiên với một số hàm mật độ xác suất (hoặc khối lượng xác suất), nghĩa là PDF hoặc PMF tùy thuộc vào việc nó liên tục hay rời rạc. Trong trường hợp này, chúng tôi quan tâm đến việc tìm PDF của thống kê F.

Nếu chúng ta giả định rằng các sai số dư từ hai mô hình là 1) độc lập và 2) phân phối chuẩn, ngẫu nhiên xảy ra là yêu cầu của hồi quy O rdinary L đông S quares, thì có thể thấy rằng tử số và mẫu số của F- công thức thống kê chứa tổng bình phương của các biến ngẫu nhiên độc lập, phân phối chuẩn.

Có thể chứng minh rằng tổng bình phương của k biến ngẫu nhiên chuẩn, độc lập chuẩn tuân theo PDF của phân phối Chi bình phương (k).


*

Do đó, tử số và mẫu số của công thức thống kê F có thể được hiển thị cho mỗi phiên bản tỷ lệ tuân theo hai phân phối chi bình phương.

Với một chút toán học, cũng có thể chỉ ra rằng tỷ lệ của hai biến ngẫu nhiên có phân phối Chi-bình phương được chia tỷ lệ thích hợp, bản thân nó là một biến ngẫu nhiên tuân theo phân phối F , có PDF được hiển thị bên dưới.


*
*
(Hình ảnh của Tác giả)

khi đó, X có thể được biểu thị bằng tỷ lệ của hai biến ngẫu nhiên được chia tỷ lệ thích hợp X_1X_2 , mỗi biến có PDF của phân phối Chi bình phương. I E :


*
Biến ngẫu nhiên có phân phối F X, được biểu thị bằng tỷ lệ của hai biến ngẫu nhiên phân phối Chi bình phương được chia tỷ lệ X_1 và X_2 (Hình ảnh của Tác giả)

Bây giờ hãy nhớ lại rằng k_1 và k_2 là số biến trong các mô hình đơn giản và phức tạp M1 và M2 đã giới thiệu trước đó, và n là số lượng mẫu dữ liệu.

Thay thế d_1 và d_2 như sau:

d_1 = (k_2 - k_1) là hiệu số bậc tự do của các phần dư của hai kiểu M1 và M2 được so sánh, và

d_2 = (n - k_2) là bậc tự do của các phần dư của mô hình phức tạp M2,

Với những thay thế này, chúng ta có thể viết lại công thức của phân phối F như sau:


*
Công thức thay thế cho tệp PDF của phân phối F (Hình ảnh của tác giả)

Hãy so sánh công thức trên với công thức cho thống kê F (được tái hiện bên dưới), trong đó chúng ta biết rằng tử số và mẫu số chứa các tệp PDF được chia tỷ lệ thích hợp của phân phối Chi bình phương:


So sánh hai công thức này, rõ ràng là:

Bậc tự do " a" của phân phối Chi bình phương trong tử số là (k1 - k2).Bậc tự do " b" của phân phối Chi bình phương ở mẫu số là (n - k2).Thống kê kiểm định của kiểm định F có cùng PDF với thống kê của phân phối F.

BƯỚC 3: Tính giá trị của thống kê F

Nếu bạn sử dụng statsmodels" s OLS ước lượng, bước này là một hoạt động một dòng. Tất cả những gì bạn cần làm là in OLSResults.summary () và bạn sẽ nhận được:

Giá trị của thống kê F và,Giá trị "p" tương ứng, tức là xác suất gặp phải giá trị này, từ PDF của phân phối F.

print(ols_results.summary())


BƯỚC 4: Xác định xem giả thuyết vô hiệu có thể được chấp nhận hay không

OLSResults.summary () in ra xác suất xuất hiện của thống kê F theo giả định rằng giả thuyết rỗng là đúng, chúng ta chỉ cần so sánh xác suất này với giá trị alpha ngưỡng của chúng ta. Trong ví dụ của chúng tôi, giá trị p được trả về bởi .summary () là 4,84E-16, là một số cực kỳ nhỏ. Nhỏ hơn nhiều so với thậm chí alpha = 0,01. Do đó, có ít hơn 1% khả năng thống kê F là 136,7 có thể xảy ra một cách tình cờ dưới giả thiết của một giả thuyết Null hợp lệ.

Do đó, chúng tôi bác bỏ giả thuyết Null và chấp nhận giả thuyết thay thế H_1 rằng mô hình phức hợp, tức là mô hình biến trễ, mặc dù có những sai sót rõ ràng, có thể giải thích phương sai trong biến phụ thuộc Giá đóng cửa tốt hơn so với mô hình chỉ đánh chặn.

Đây là mã nguồn Python hoàn chỉnh được hiển thị trong bài viết này:

Tệp dữ liệu chứa giá đóng cửa của DJIA ở đây .

Phần kết luận

Kiểm định F có thể được sử dụng trong phân tích hồi quy để xác định xem liệu một mô hình phức tạp có tốt hơn một phiên bản đơn giản hơn của cùng một mô hình trong việc giải thích phương sai trong biến phụ thuộc hay không.Thống kê kiểm định của phép kiểm định F là một biến ngẫu nhiên có P khả năng xác định D độ phân giải F là phân phối F theo giả định rằng giả thuyết rỗng là đúng.Quy trình kiểm tra đối với kiểm định F để hồi quy giống với cấu trúc của nó về cấu trúc của các kiểm định tham số khác có ý nghĩa như kiểm định t.

Xem thêm: Top 10 Game Đá Bóng Hay Cho Android Và Ios Hay Nhất, Top 5 Game Bóng Đá Mobile Hay Nhất 2021

Nếu bạn thích bài viết này, hãy theo dõi tôi tại Sachin Date để nhận các mẹo, hướng dẫn và lời khuyên lập trình về các chủ đề dành cho phân tích và dự báo chuỗi thời gian.


Năm 1973, các nhà toán học tài chính Fischer Black và Myron Scholes đã xuất bản một bài báo học thuật có tiêu đề "Định giá các quyền chọn và nợ công ty", trong đó có những gì sẽ trở thành một trong những phương trình quan trọng nhất trong tất cả tài chính toán học, mô hình Black-Scholes < 1>. Mô hình là một phương trình vi phân ngẫu nhiên-riêng phần được sử dụng để chỉ định giá trị cho một quyền chọn kiểu châu Âu, một loại tài sản cho phép người nắm giữ mua hoặc bán cổ phiếu ở mức giá hiện tại bất kể hành vi trong tương lai của nó.