Cách phát hiện các yếu tố ngoại lai: 10 bước (có hình ảnh)

Mục lục:

Cách phát hiện các yếu tố ngoại lai: 10 bước (có hình ảnh)
Cách phát hiện các yếu tố ngoại lai: 10 bước (có hình ảnh)

Video: Cách phát hiện các yếu tố ngoại lai: 10 bước (có hình ảnh)

Video: Cách phát hiện các yếu tố ngoại lai: 10 bước (có hình ảnh)
Video: MẸO TỰ THIẾT KẾ GIÀY VÀ VỚ || 32 MẸO THỜI TRANG TÀI TÌNH 2024, Có thể
Anonim

Trong thống kê, giá trị ngoại lệ hoặc “ngoại lệ” là một số liệu lệch rất xa so với bất kỳ số liệu nào khác trong một mẫu hoặc một tập hợp các số liệu (tập hợp các số liệu được gọi là dữ liệu). Thông thường, một giá trị ngoại lệ trong tập hợp dữ liệu có thể đóng vai trò như một cảnh báo cho nhà thống kê về sự bất thường hoặc lỗi thực nghiệm trong các phép đo được thực hiện, điều này có thể khiến nhà thống kê loại bỏ giá trị ngoại lệ khỏi tập dữ liệu. Nếu nhà thống kê loại bỏ các giá trị ngoại lệ khỏi tập dữ liệu, các kết luận rút ra từ nghiên cứu có thể rất khác. Do đó, biết cách tính toán và phân tích các giá trị ngoại lệ là rất quan trọng để đảm bảo hiểu đúng về tập hợp dữ liệu thống kê.

Bươc chân

Tính toán các giá trị ngoại lai Bước 1
Tính toán các giá trị ngoại lai Bước 1

Bước 1. Tìm hiểu cách xác định các mức dữ liệu ngoại lệ tiềm năng

Trước khi chúng tôi quyết định có xóa các dữ liệu ngoại lệ khỏi tập dữ liệu hay không, tất nhiên chúng tôi phải xác định những dữ liệu nào có khả năng trở thành ngoại lệ. Nói chung, một giá trị ngoại lệ là một giá trị dữ liệu lệch rất xa so với các mức dữ liệu khác trong một tập hợp dữ liệu - nói cách khác, một giá trị ngoại lệ nằm “bên ngoài” các mức dữ liệu khác. Thường dễ dàng phát hiện các điểm khác biệt trong bảng dữ liệu hoặc (cụ thể là) một biểu đồ. Nếu một tập hợp dữ liệu được mô tả trực quan bằng biểu đồ, thì tập dữ liệu ngoại lệ sẽ có vẻ "rất xa" so với các tập dữ liệu khác. Ví dụ: nếu hầu hết các mức dữ liệu trong một tập hợp dữ liệu tạo thành một đường thẳng, thì mức dữ liệu ngoại lệ sẽ không được hiểu một cách hợp lý là tạo thành đường thẳng đó.

Hãy xem xét một bộ dữ liệu đại diện cho nhiệt độ của 12 đối tượng khác nhau trong một căn phòng. Nếu 11 đối tượng có nhiệt độ khoảng 70 Fahrenheit (21 độ C), nhưng đối tượng thứ 12, một lò nướng, có nhiệt độ 300 Fahrenheit (150 độ C), có thể thấy ngay rằng nhiệt độ của lò rất có thể là một ngoại lệ

Tính toán các giá trị ngoại lai Bước 2
Tính toán các giá trị ngoại lai Bước 2

Bước 2. Sắp xếp các số liệu trong một tập hợp các số liệu từ thấp nhất đến cao nhất

Bước đầu tiên để tính toán giá trị ngoại lệ trong tập dữ liệu là tìm giá trị trung bình (giá trị giữa) của tập dữ liệu đó. Nhiệm vụ này trở nên rất đơn giản nếu các mức dữ liệu trong một tập hợp các mức dữ liệu được sắp xếp từ nhỏ nhất đến lớn nhất. Vì vậy, trước khi tiếp tục, hãy sắp xếp các dữ liệu trong một tập hợp dữ liệu như vậy.

Hãy tiếp tục ví dụ trên. Đây là tập hợp dữ liệu của chúng tôi đại diện cho nhiệt độ của một số đối tượng trong phòng: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Nếu chúng ta sắp xếp các mức dữ liệu từ thấp nhất đến cao nhất, thứ tự của các mức dữ liệu sẽ trở thành: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Tính toán các giá trị ngoại lai Bước 3
Tính toán các giá trị ngoại lai Bước 3

Bước 3. Tính giá trị trung bình của tập dữ liệu

Giá trị trung bình của tập dữ liệu là tập dữ liệu trong đó nửa còn lại của tập dữ liệu nằm trên tiêu chuẩn đó và nửa còn lại ở dưới - về cơ bản, tập dữ liệu đó là tiêu chuẩn nằm ở "giữa" của tập dữ liệu. Nếu số lượng dữ liệu trong một tập hợp dữ liệu là số lẻ, thì rất dễ tìm thấy - giá trị trung bình là tập hợp dữ liệu có cùng một số ở trên và dưới nó. Tuy nhiên, nếu số lượng dữ liệu trong tập hợp dữ liệu là số chẵn, thì do không có dữ liệu nào phù hợp ở giữa, nên 2 dữ liệu ở giữa được tính trung bình để tìm giá trị trung bình. Cần lưu ý rằng, khi tính toán các giá trị ngoại lai, trung vị thường được gán cho biến Q2-ni vì Q2 nằm giữa Q1 và Q3, phần tư dưới và phần tư trên, mà chúng ta sẽ thảo luận sau.

  • Đừng nhầm lẫn với một tập hợp dữ liệu trong đó số lượng dữ liệu là số chẵn-trung bình của 2 tập dữ liệu giữa thường sẽ trả về một số không có trong chính tập hợp dữ liệu - điều này không sao cả. Tuy nhiên, nếu 2 số liệu ở giữa là cùng một con số, thì trung bình, tất nhiên, cũng sẽ là cùng một con số, điều này cũng tốt.
  • Trong ví dụ trên, chúng ta có 12 mức dữ liệu. 2 tập dữ liệu ở giữa lần lượt là tập dữ liệu thứ 6 và 7. 70 và 71. Vì vậy, trung bình của tập hợp dữ liệu của chúng tôi là giá trị trung bình của 2 con số này: ((70 + 71) / 2), = 70.5.
Tính toán các giá trị ngoại lai Bước 4
Tính toán các giá trị ngoại lai Bước 4

Bước 4. Tính toán phần tư dưới

Giá trị này, mà chúng tôi cung cấp cho biến Q1, là mức dữ liệu đại diện cho 25 phần trăm (hoặc một phần tư) của mức dữ liệu. Nói cách khác, đó là mức dữ liệu chia đôi các mức dữ liệu nằm dưới mức trung bình. Nếu số lượng dữ liệu dưới mức trung bình là chẵn, bạn phải lấy lại trung bình của 2 mức dữ liệu ở giữa để tìm Q1, giống như cách bạn tự tìm giá trị trung bình.

Trong ví dụ của chúng tôi, có 6 mức dữ liệu nằm trên mức trung bình và 6 mức dữ liệu nằm dưới mức trung bình. Điều này có nghĩa là, để tìm phần tư thấp hơn, chúng ta sẽ cần tính trung bình của 2 dữ liệu ở giữa 6 dữ liệu dưới mức trung bình. Dữ liệu thứ 3 và thứ 4 trong số 6 dữ liệu dưới mức trung bình đều là 70. Vì vậy, mức trung bình là ((70 + 70) / 2), = 70. 70 trở thành Q1 của chúng tôi.

Tính toán các giá trị ngoại lai Bước 5
Tính toán các giá trị ngoại lai Bước 5

Bước 5. Tính toán phần tư trên

Giá trị này, mà chúng tôi cung cấp cho biến Q3, là mức dữ liệu mà trên đó có 25 phần trăm dữ liệu trong tập dữ liệu. Tìm Q3 khá giống với việc tìm Q1, ngoại trừ rằng, trong trường hợp này, chúng tôi đang xem xét các mức dữ liệu trên mức trung bình, không phải dưới mức trung bình.

Tiếp tục ví dụ của chúng tôi ở trên, 2 dữ liệu ở giữa 6 dữ liệu trên mức trung bình là 71 và 72. Trung bình của 2 dữ liệu này là ((71 + 72) / 2), = 71, 5. 71, 5 là Q3 của chúng tôi.

Tính toán các giá trị ngoại lai Bước 6
Tính toán các giá trị ngoại lai Bước 6

Bước 6. Tìm khoảng cách giữa các phần tư

Bây giờ chúng ta đã tìm thấy Q1 và Q3, chúng ta cần tính khoảng cách giữa hai biến này. Khoảng cách từ Q1 đến Q3 được tìm thấy bằng cách trừ Q1 cho Q3. Các giá trị bạn nhận được cho khoảng cách giữa các phần tư là rất quan trọng để xác định ranh giới của các dữ liệu không ngoại lệ trong tập dữ liệu của bạn.

  • Trong ví dụ của chúng tôi, giá trị Q1 và Q3 của chúng tôi là 70 và 71, 5. Để tìm khoảng cách giữa các phần tư, chúng tôi trừ Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Cần lưu ý rằng điều này cũng đúng ngay cả khi Q1, Q3 hoặc cả hai đều là số âm. Ví dụ: nếu giá trị Q1 của chúng tôi là -70, khoảng cách giữa các phần tư chính xác của chúng tôi sẽ là 71,5 - (-70) = 141, 5.
Tính toán các giá trị ngoại lai Bước 7
Tính toán các giá trị ngoại lai Bước 7

Bước 7. Tìm “hàng rào bên trong” trong tập dữ liệu

Các giá trị ngoại lai được tìm thấy bằng cách kiểm tra xem liệu dữ liệu có nằm trong các ranh giới số được gọi là “hàng rào bên trong” và “hàng rào bên ngoài” hay không. Một số liệu nằm ngoài hàng rào bên trong của tập hợp số liệu được gọi là “giá trị ngoại lệ nhỏ”, trong khi một số liệu nằm ngoài hàng rào bên ngoài được gọi là “giá trị ngoại lệ chính”. Để tìm hàng rào bên trong trong tập dữ liệu của bạn, trước tiên hãy nhân khoảng cách giữa các phần tư với 1, 5. Sau đó, cộng kết quả với Q3 và cũng trừ nó cho Q1. Hai giá trị bạn nhận được là ranh giới hàng rào bên trong của tập dữ liệu của bạn.

  • Trong ví dụ của chúng tôi, khoảng cách giữa các phần tư là (71,5 - 70) hoặc 1,5. Nhân 1,5 với 1,5 được kết quả là 2,25. Chúng tôi cộng số này với Q3 và trừ Q1 cho số này để tìm ranh giới của hàng rào bên trong như sau:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Vì vậy, ranh giới của hàng rào bên trong của chúng tôi là 67, 75 và 73, 75.
  • Trong tập hợp dữ liệu của chúng tôi, chỉ có nhiệt độ lò, 300 Fahrenheit - là nằm ngoài các giới hạn này và do đó, dữ liệu này là một ngoại lệ nhỏ. Tuy nhiên, chúng tôi vẫn chưa tính toán được liệu nhiệt độ này có phải là một ngoại lệ lớn hay không, vì vậy đừng vội kết luận cho đến khi chúng tôi thực hiện xong các tính toán của mình.

    Tính toán các giá trị ngoại lai Bước 7Bullet2
    Tính toán các giá trị ngoại lai Bước 7Bullet2
Tính toán các giá trị ngoại lai Bước 8
Tính toán các giá trị ngoại lai Bước 8

Bước 8. Tìm “hàng rào bên ngoài” trong tập dữ liệu

Điều này được thực hiện tương tự như cách tìm hàng rào bên trong, ngoại trừ khoảng cách giữa các phần tư được nhân với 3 thay vì 1,5. Kết quả sau đó được cộng vào Q3 và trừ đi Q1 để tìm giới hạn trên và dưới của hàng rào bên ngoài.

  • Trong ví dụ của chúng tôi, nhân khoảng cách giữa các phần tư với 3 sẽ cho (1, 5 x 3) hoặc 4, 5. Chúng tôi tìm thấy các ranh giới của hàng rào bên ngoài theo cùng một cách như trước:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Ranh giới của hàng rào bên ngoài là 65,5 và 76.
  • Các dữ liệu nằm ngoài ranh giới của hàng rào bên ngoài được gọi là các giá trị ngoại lệ chính. Trong ví dụ này, nhiệt độ lò, 300 Fahrenheit, rõ ràng nằm ngoài hàng rào bên ngoài, vì vậy mức dữ liệu này "chắc chắn" là một ngoại lệ lớn.

    Tính toán các giá trị ngoại lai Bước 8Bullet2
    Tính toán các giá trị ngoại lai Bước 8Bullet2
Tính toán các giá trị ngoại lai Bước 9
Tính toán các giá trị ngoại lai Bước 9

Bước 9. Sử dụng đánh giá định tính để xác định xem có nên “loại bỏ” dữ liệu ngoại lệ hay không

Sử dụng phương pháp được mô tả ở trên, nó có thể được xác định liệu một dữ liệu là một dữ liệu nhỏ, một dữ liệu chính, hay không phải là một giá trị ngoại lệ nào cả. Tuy nhiên, đừng nhầm lẫn - việc tìm kiếm dữ liệu dưới dạng giá trị ngoại lệ chỉ đánh dấu dữ liệu đó là “ứng cử viên” cần được loại bỏ khỏi tập hợp dữ liệu, chứ không phải là dữ liệu “nên” bị loại bỏ. "Lý do" khiến một mức dữ liệu ngoại lệ lệch khỏi các mức dữ liệu khác trong tập hợp dữ liệu là rất quan trọng trong việc xác định xem có nên loại bỏ nó hay không. Nói chung, một lỗi ngoại lệ gây ra bởi lỗi trong đo lường, ghi chép hoặc lập kế hoạch thử nghiệm, chẳng hạn - có thể bị loại bỏ. Mặt khác, các ngoại lệ không phải do lỗi và cho biết thông tin hoặc xu hướng mới mà trước đây không được dự đoán thường “không” bị loại bỏ.

  • Một tiêu chí khác cần xem xét là liệu giá trị ngoại lệ có ảnh hưởng lớn đến giá trị trung bình của tập dữ liệu hay không, tức là liệu giá trị ngoại lệ có làm nó nhầm lẫn hoặc làm cho nó có vẻ sai hay không. Điều này rất quan trọng cần xem xét nếu bạn định đưa ra kết luận từ mức trung bình của tập dữ liệu của mình.
  • Hãy nghiên cứu ví dụ của chúng tôi. Trong ví dụ này, vì có vẻ "rất khó" khi lò đạt đến 300 Fahrenheit thông qua các lực tự nhiên không thể đoán trước, chúng ta có thể kết luận gần như chắc chắn rằng lò đã vô tình bị bật, dẫn đến nhiệt độ cao bất thường. Ngoài ra, nếu chúng tôi không loại bỏ các ngoại lệ, trung bình tập dữ liệu của chúng tôi là (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Fahrenheit (32 độ C), trong khi mức trung bình nếu chúng ta loại bỏ các giá trị ngoại lai là (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 F (21 độ C).

    Vì những ngoại lệ này là do lỗi của con người và bởi vì sẽ không chính xác khi nói rằng nhiệt độ phòng trung bình đạt gần 90 Fahrenheit (32 độ C), chúng ta tốt hơn nên chọn “vứt bỏ” những ngoại lệ của mình

Tính toán các giá trị ngoại lai Bước 10
Tính toán các giá trị ngoại lai Bước 10

Bước 10. Biết tầm quan trọng (đôi khi) của việc duy trì các yếu tố ngoại lệ

Mặc dù một số giá trị ngoại lệ nên được loại bỏ khỏi tập dữ liệu vì chúng gây ra lỗi và / hoặc làm cho kết quả không chính xác hoặc sai sót, một số giá trị ngoại lệ nên được duy trì. Ví dụ, nếu một ngoại lệ dường như có được một cách tự nhiên (nghĩa là không phải do lỗi) và / hoặc cung cấp một quan điểm mới về hiện tượng đang được nghiên cứu, thì ngoại lệ đó không nên bị loại bỏ khỏi tập dữ liệu. Nghiên cứu khoa học thường là một tình huống rất nhạy cảm khi đề cập đến các ngoại lệ - việc loại bỏ các ngoại lệ không chính xác có thể đồng nghĩa với việc loại bỏ thông tin chỉ ra một xu hướng hoặc khám phá mới.

Ví dụ, giả sử chúng tôi đang thiết kế một loại thuốc mới để tăng kích thước cá trong ao cá. Chúng tôi sẽ sử dụng tập hợp dữ liệu cũ của mình ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ngoại trừ lần này, mỗi tập dữ liệu sẽ đại diện cho trọng lượng của một con cá (tính bằng gam) sau khi được dùng một loại thuốc thử nghiệm khác với lúc mới sinh. Nói cách khác, loại thuốc đầu tiên khiến một con cá nặng 71 gam, loại thuốc thứ hai khiến một con cá khác nặng 70 gam, v.v. Trong trường hợp này, 300 "vẫn" là một giá trị ngoại lệ lớn, nhưng chúng ta không nên loại bỏ số liệu này bởi vì, giả sử rằng nó được lấy mà không có lỗi, nó thể hiện sự thành công trong nghiên cứu. Loại thuốc có thể làm cho cá nặng 300 gram hoạt động tốt hơn tất cả các loại thuốc khác, vì vậy mức tiêu chuẩn này thực sự là "quan trọng" nhất trong tập dữ liệu của chúng tôi, không phải là "ít quan trọng nhất"

Đề xuất: