Giới Thiệu Về Tiền Xử Lý Dữ Liệu Trong Machine Learning, Ví Dụ Cụ Thể

tiền xử lý dữ liệu trong nghành nghề dịch vụ học máy (Phần 1) tiền xử lý dữ liệu trong lĩnh vực học thiết bị (Phần 2) tiền xử lý tài liệu trong nghành nghề học sản phẩm (Phần 3) khám phá đặc trưng Pipeline vào Sklearn

Các phương pháp xử lý dữ liệu chung

Như bọn họ đã thảo luận ở phần trước, một đặc thù thường được phân loại vào một trong những trong nhị dạng là nằm trong tính dạng số và thuộc tính dạng nhóm. Các xử lý tài liệu bị khuyết cũng trở nên khác nhau ứng với hai một số loại thuộc tính này. Trong phần này, họ cùng nhau chăm chú các cách thức điền vào dữ liệu bị khuyết nhằm được bộ dữ liệu không hề thiếu trước khi bước vào huấn luyện.

Bạn đang xem: Tiền xử lý dữ liệu

Với một đặc thù dữ liệu dạng số, có không ít lựa lựa chọn mà bạn cũng có thể xem xét khi điền vào một trong những giá trị bị khuyết, ví dụ:

Một cực hiếm hằng có chân thành và ý nghĩa trong miền xác minh của dữ liệu, ví dụ như 0.Một cực hiếm của một đặc trưng từ một mẫu tài liệu ngẫu nhiên vào tập dữ liệu.Các quý giá thống kê cơ phiên bản như quý hiếm trung bình, quý hiếm trung vị hay cực hiếm mốt (mode) của cột.Một giá trị được ước lượng từ bỏ một mô hình dự đoán khác.

### Mean, Median, Mode imputation #### create another datasetmmmdataset = datasetprint(mmmdataset.describe())# get values of datasetvalues = mmmdataset.values# create Imputerimputer = Imputer(missing_values="NaN", strategy="mean") # strategy can be changed to lớn "median" or "most_frequent"# impute missing data by meantransformed_values = imputer.fit_transform(values)print(values)Các đặc thù dữ liệu dạng nhóm rất cần được tinh chỉnh một cách khôn khéo hơn, do vậy chúng ta cần để ý nhiều đến hiệu năng của quy mô sau khi chúng ta tinh chỉnh (so sánh trước và sau khi áp dụng tinh chỉnh). Một số cách điền vào cực hiếm bị khuyết trong tài liệu dạng đội là:

Thay thế bằng giá trị xuất hiện thêm nhiều tuyệt nhất của đặc thù đó trong toàn thể tập dữ liệu. Tuy nhiên, biện pháp này thường phát sinh độ lệch nhất định cho mô hình.Coi những giá trị bị khuyết là một trong giá trị mới trong tập giá trị đặc thù nhóm.Sử dụng một quy mô dự đoán để cầu lượng giá chỉ trị thay thế sửa chữa cho giá trị bị khuyết. Vào trường hòa hợp này, họ chia bộ tài liệu ra thành nhị phần bao gồm: một phần chứa những dữ liệu không thiếu để huấn luyện, phần còn lại chứa các điểm dữ liệu bị khuyết. Một số cách thức có thể nói tới như hồi quy logistic (logistic regression), KNN hoặc phương pháp ANOVA.

Multiple Imputation

Multiple Imputaion (MI) là một phương pháp để xử lý với tài liệu bị khuyết hiệu quả. Cùng với các cách thức điền đơn năng lực (giá trị) vào dữ liệu bị thiếu như thể giá trị trung bình, trung vị hay ngẫu nhiên một đặc thù thống kê nào không giống thì đều đi kèm theo một mức độ không chắc chắn rằng nhất định về kĩ năng nhận định rằng gần như giá trị nào thì cần được điền vào. Phương pháp sử dụng tổ hợp đa tài năng để điền vào giá trị bị thiếu thốn giúp sút thiểu sự không chắc chắn trên bằng việc tính toán trên một vài chọn lọc khác nhau. Theo đó, một vài ba phiên bạn dạng dữ liệu triển khai xong của dữ liệu được chế tác ra. Cuối cùng, gần như phiên bạn dạng dữ liệu này được tổ phù hợp với nhau để tạo nên một phiên bạn dạng cuối cùng với những giá trị sẽ điền vào dữ liệu bị khuyết được xem là “chắc chắn” nhất.

Tiến trình tiến hành MI

Với phương pháp MI, những giá trị bị khuyết được sửa chữa bởi m năng lực khác nhau, với cùng một

Item	Y	X
1	9	7
2	?	10
3	11	19
4	?	10
5	15	14
6	19	18
7	21	5
8	8	4
9	19	21
10	21	17
Bảng 3.2. Bảng dữ liệu bị khuyết

Năm 1987, Rubin đã tạo ra một phương thức để triển khai điền đa kĩ năng vào tài liệu bị khuyết theo quá trình sau:

Đưa dữ liệu của công ty vào một mô hình thích hợp. Quy mô thích phù hợp lấy những mẫu tài liệu và cố gắng để tìm ra mô hình phù xuất sắc nhất, như thể phân phối chuẩn chỉnh hoặc bày bán chi bình phương (chi-square distribution). Các mô hình này cũng có thể là một số mô hình tham số không giống thu được tự dữ liệu. Như vào bảng dữ liệu trên, bạn có thể tạo ra hai mô hình đơn giản và dễ dàng (tương ứng với hai khả năng rất có thể điền vào tài liệu bị thiếu) là: mô hình láng giềng ngay sát nhất (nearest neighbor), quy mô này lấy giá trị của bóng giềng làm việc trên hoặc sống dưới cùng mô hình làng giềng gần nhất + 25% (nearest neighbor + 25%), mô hình này lấy những giá trị trơn giềng sớm nhất rồi tăng thêm thêm 25%.Ước lượng một điểm dữ liệu bị khuyết sử dụng mô hình đã lựa chọn. Ví dụ, mô hình láng giềng gần nhất sẽ điền giá trị 9 vào Y2 (9 là cực hiếm của bóng giềng gần nhất của Y2 là Y1.Lặp lại cách hai cách trên (bạn hoàn toàn có thể sử dụng cùng một mô hình, hoặc các quy mô khác nhau) 2 – 5 lần cho mỗi điểm tài liệu bị khuyết.

Model 1 (nearest neighbors)
Item 2	9	11
Item 4	15	11
Model 2 (model 1 + 25%)
Item 2	11	14
Item 4	19	14

Thực hiện nay phân tích dữ liệu của ban. Chúng ta có thể chạy một phép kiểm demo t-test hoặc một phép kiểm thử ANOVA. Phép kiểm thử nhưng mà bạn sử dụng nên được chạy qua toàn bộ các bộ tài liệu thu được trường đoản cú các kĩ năng đã điền vào. Như vào ví dụ đã xét, chúng ta sẽ thu được tư tập tài liệu mới từ bước thứ ba, vì vậy ta cũng cần kiểm thử bốn lần (mỗi tập một lần).

Tính trung bình của các ước lượng thông số như phương sai, độ lệch chuẩn từ mỗi mô hình để thu được giá trị cuối cùng. Hay nói cách khác, bạn có thể tổng vừa lòng các hiệu quả từ hai bộ tài liệu đã tạo nên từ quy mô 1, và chúng ta cũng có thể tổng hợp kết quả của nhị bộ dữ liệu đã tạo ra từ mô hình 2.

Mặc mặc dù ví dụ chúng ta lấy ở nội dung bài viết này là kha khá trực quan, tuy nhiên trong thực tiễn việc đo lường và thống kê các quý giá bị khuyết gần chính xác là rất tinh vi vì nó liên quan nhiều đến việc tổng hợp tin tức có trước về một tham số cơ mà bạn thân thương với những thông tin mới từ một mẫu trong so với Bayes (Bayesian analysis). Kề bên đó, việc đo lường và tính toán cũng liên quan đến sự việc lấy lại mẫu mã (resampling) trong số phân phối dự đoán, khi mà một số lớn những mẫu bé dại cùng form size được tiếp tục rút ra (cùng với việc thay thế) xuất phát từ 1 mẫu đối chọi ban đầu.

Người ta sẽ viết ra một module call là fancyimpute vào Python để cung ứng việc cách xử lý cho bọn chúng ta:

### Multiple imputation by chained equationsfrom fancyimpute import MICE# create another dataset for MImi = datasetprint(mi.describe())# create Multiple imputation chained equations with 100 times of imputation và 5 nearest neighborsmice = MICE(n_imputations=100, n_pmm_neighbors=5,init_fill_method="mean")# impute datamice.complete(mi)print(mi.describe())Maximum Likelihood vào xử lý tài liệu bị khuyết

Giả định

Để tiến tới câu hỏi xử lý tài liệu bị khuyết với phương thức Maximum Likelihood, chúng ta phải tạo ra một số trong những giả định rằng sự khuyết dữ liệu trên ngẫu nhiên biến (đặc trưng) làm sao đều links nhất định tới những biến khác. Bạn ta thường giả sử rằng tài liệu thuộc dạng thiếu trọn vẹn ngẫu nhiêu (MCAR). MCAR đưa sử rằng chỉ tất cả một thay đổi Y bị khuyết tài liệu và tập những biến còn lại (gọi là vec-tơ X) đều phải có dữ liệu. Tài liệu sẽ trực thuộc dạng MCAR nếu tỷ lệ để Y bị khuyết không phụ thuộc vào vào vec-tơ X cùng chính đặc thù Y (Rubin 1976). Màn biểu diễn dưới dạng công thức, ta hotline R là một trong “chỉ số làm phản hồi” có giá trị bằng 1 giả dụ Y bị khuyết với giá trị bởi 0 ví như Y được quan ngay cạnh thấy. Lúc đó, MCAR được bộc lộ dưới dạng công thức như sau:

P(R = 1| X,Y) = P(R = 1)

Công thức bên trên ta hoàn toàn có thể hiểu là tỷ lệ để R = 1 (Y bị khuyết) trên đk X, Y chủ yếu bằng xác suất để R = 1. Nghĩa là tỷ lệ để R = 1 không phụ thuộc vào cả X với Y.

Ví dụ, nếu call Y biểu lộ mức độ phạm pháp và X là số năm học (năm lớp 1, năm lớp 2, …) của một học tập sinh, MCAR sẽ có nghĩa là xác suất để dữ liệu bị khuyết trên mức độ phạm pháp là không liên quan tới cả đặc trưng mức độ phi pháp và đặc trưng số năm học. Rất nhiều kĩ thuật xử lý tài liệu bị khuyết truyền thống lâu đời chỉ chạy được khi có giả định dữ liệu thuộc dạng MCAR (như hai phương thức listwise cùng pairwise đã nói trong phần trước).

Một giả thiết yếu hơn (nhưng vẫn cực kỳ quan trọng) là tài liệu thuộc dạng khuyết ngẫu nhiên (MAR). Cũng giống như MCAR, ta trả định rằng chỉ một thay đổi Y bị khuyết tài liệu còn tập các biến sót lại X đông đảo được quan gần kề thấy. Lúc đó, ta nói tài liệu trên thay đổi Y bị khuyết thốt nhiên nếu tỷ lệ để Y bị khuyết không dựa vào vào Y, nhưng dựa vào vào X. Một giải pháp công thức hóa, ta có:

Pr(R = 1| X,Y) = pr (R = 1|X)

Trong đó, R vẫn là chỉ số phản nghịch hồi. Vì chưng vậy, MAR chất nhận được sự khuyết tài liệu trên biến Y dựa vào vào các biến (quan gần kề thấy) khác. Nó chỉ không nhờ vào vào thiết yếu nó (Y) mà thôi.

Vẫn với ví dụ như nêu trên, nếu gọi Y là mức độ bất hợp pháp và X là số năm học của một học sinh thì MAR sẽ xẩy ra nếu tỷ lệ để mức độ phạm pháp bị khuyết nhờ vào vào số năm học tập của một học sinh, nhưng trong những năm học, xác suất để đặc thù mức độ phạm pháp bị khuyết không phụ thuộc vào vào mức độ bất hợp pháp chung.

Xem thêm:

Về mặt bản chất, MAR được cho phép dữ liệu bị khuyết dựa vào vào các đặc trưng không bị khuyết, nhưng mà không phụ thuộc vào những giá trị bị khuyết. Vì vậy, nếu một tài liệu là MCAR thì nó cũng chính là MAR.

Việc đánh giá xem liệu tài liệu có đề nghị là khuyết trọn vẹn MCAR hay là không là ko khó. Ví dụ, ta hoàn toàn có thể so sánh giữa một người phụ nữ và một người đàn ông xem liệu chúng ta có khác nhau về tỉ lệ các trường vừa lòng bị khuyết dữ liệu về thu nhập cá nhân hay không. Bất kỳ sự khác biệt nào cũng vi phạm luật đến MCAR. Mặc dù vậy, rất cạnh tranh để bình chọn xem liệu dữ liệu là khuyết thốt nhiên MAR nhưng không phải là khuyết trọn vẹn ngẫu nhiên MCAR. Lý do rất rõ ràng, bọn họ không thể chắc hẳn rằng rằng liệu rất nhiều đứa trẻ phi pháp có nhiều khả không cung cấp dữ liệu về nút độ phi pháp hơn là đa số đứa trẻ không phạm pháp.

Điều gì sẽ xảy ra nếu dữ liệu bị khuyết không thiên nhiên (NMAR)? Thực tế, những trẻ em phạm pháp thường không nhiều muốn share về mức độ phi pháp của chúng. Nếu tài liệu thực sự là NMAR, thì chính sách khuyết dữ liệu phải được mô hình hóa như một trong những phần của các bước ước lượng để sinh ra các ước lượng tham số không lệch mang lại mô hình. Nghĩa là, nếu tài liệu trên phát triển thành Y bị khuyết, ta phải xác định xem xác suất để Y bị khuyết phụ thuộc vào vào Y và các biến khác như thế nào. Điều này là rất khó bởi có vô vàn mô hình khác biệt mà ta có thể xác định được. Không tồn tại gì vào dữ liệu có thể giúp ta xác minh được những quy mô nào là đúng. Cùng khi đó chúng ta sẽ phải lựa chọn các mô hình phù hợp theo cảm tính. Một phân tích đã kể đến sự việc về dữ liệu bị khuyết không thiên nhiên NMAR, và một trong những tiến trình đã có được đề xuất. Nhưng các phương thức được khuyến nghị là rất tinh vi ngay cả trên gần như trường hợp tài liệu đơn giản.

Vì những vì sao đó, số đông các phương thức nâng cao trong xử lý tài liệu bị khuyết đều dựa vào giả định rằng tài liệu bị khuyết ngẫu nhiên.

Maximum Likelihood

Bây giờ họ đã sẵn sàng để chăm chú maximum likelihood (ML), một phương thức cạnh tranh với cách thức multiple imputation. Cả hai cách thức đều sinh ra những ước lượng bao gồm tính đồng điệu và kha khá hiệu quả.

Bước trước tiên của cầu lượng ML là xuất bản hàm likelihood. đưa sử chúng ta có n quan liêu sát hòa bình (i = 1, 2, …, n) bên trên k biến hóa (yi1, yi2, …, yik) mà lại không điểm dữ liệu nào bị khuyết. Lúc đó, hàm likelihood được đến dưới dạng:

Trong đó, fi

(.) là hàm xác suất tầm thường (joint probability function) xuất xắc hàm mật độ xác suất (probability density function), của quan gần cạnh thứ i, và θlà một cỗ tham số được mong lượng. Để thu được những ước lượng ML, chúng ta tìm quý giá của θđể L bự nhất. Gồm rất nhiều phương pháp có thể giải quyết và xử lý được sự việc này và ngẫu nhiên phương pháp đúng nào cũng đều có mặt các công dụng giống nhau.

Bây giờ, ta mang sử rằng sinh hoạt quan gần cạnh thứ i, hai thay đổi y1và y2bị khuyết tài liệu và chúng thỏa mãn nhu cầu giả định MAR. Tỷ lệ chung mang đến quan gần đó chỉ là phần trăm quan sát những biến sót lại từ yi3

tới yik

. Ví như y1và y2là tách rạc, tỷ lệ chung sinh hoạt trên là tổng trên toàn bộ các giá trị hoàn toàn có thể có của hai biến hóa với dữ liệu bị khuyết:

Nếu các biến bị khuyết dữ liệu thuộc dạng liên tục, họ sử dụng tích phân tại nơi của tổng:

Về mặt bản chất, cùng với mỗi xác suất thành phần của một quan liêu sát đóng góp vào hàm likelihood, họ cộng tổng hoặc lấy tích phân trên những biến bị khuyết dữ liệu để thu được phần trăm cận biên của giá chỉ trị những biến này nhưng quan gần kề được.

Như thông thường, cực hiếm likelihood tổng thể và toàn diện chỉ là sự phối hợp của những likelihood của toàn bộ quan sát. Ví dụ, nếu tất cả m quan lại sát không trở nên khuyết tài liệu và n - m quan cạnh bên bị khuyết dữ liệu trên hai đổi mới y1

và y2

, hàm likelihood cho tổng thể tập dữ liệu sẽ là:

Trong đó, những quan ngay cạnh được thu xếp theo quy biện pháp là m điểm dữ liệu thứ nhất không bị khuyết với n - m điểm dữ liệu tiếp theo sau bị khuyết. Likelihood này rất có thể được về tối ưu để đạt cực đại để thu được những ước lượng tốt nhất của θ.

Dựa vào cơ sở định hướng đã trình bày, ta thấy rằng cách thức sử dụng Maximum Likelihood không sửa chữa hoặc điền vào tài liệu bị khuyết nhưng các dữ liệu bị khuyết sẽ tiến hành xử lý bên trong mô hình phân tích. Quy mô được cầu lượng bởi phương thức Full Information Maximum Likelihood (FIML), cách thức này sử dụng toàn bộ các tài liệu có sẵn (full information) để ước lượng tế bào hình. Qua đó, các thông số của bộ tài liệu được mong lượng sẽ tương tự với các thông số kỹ thuật của những dữ liệu mẫu vừa đủ đã được phân tích.

Chú ý: chúng ta đã cùng nhau khám phá rất rất nhiều cách xử lý dữ liệu bị khuyết khác nhau. Nhưng chúng ta cần để ý rằng dù bất kỳ cách xử lý dữ liệu nào đã tiến hành trên tập dữ liệu huấn luyện cũng biến thành phải được thực hiện trên tài liệu kiểm test hoặc dữ liệu mới trong tương lai để bảo đảm tính đồng bộ của dữ liệu.