A Comparison of Six Methods for Missing Data Imputation

Peter  Schmitt; Jonas  M; el; Mickael  Guedj

A Comparison of Six Methods for Missing Data Imputation

Abstract

Peter Schmitt, Jonas Mandel and Mickael Guedj

Missing data are part of almost all research and introduce an element of ambiguity into data analysis. It follows that we need to consider them appropriately in order to provide an efficient and valid analysis. In the present study, we compare 6 different imputation methods: Mean, K-nearest neighbors (KNN), fuzzy K-means (FKM), singular value decomposition (SVD), bayesian principal component analysis (bPCA) and multiple imputations by chained equations (MICE). Comparison was performed on four real datasets of various sizes (from 4 to 65 variables), under a missing completely at random (MCAR) assumption, and based on four evaluation criteria: Root mean squared error (RMSE), unsupervised classification error (UCE), supervised classification error (SCE) and execution time. Our results suggest that bPCA and FKM are two imputation methods of interest which deserve further consideration in practice.

Отказ от ответственности: Этот реферат был переведен с помощью инструментов искусственного интеллекта и еще не прошел проверку или верификацию

Поделиться этой статьей

Основные моменты журнала

Индексировано в

Индекс Коперника
Google Scholar
Шерпа Ромео
База данных академических журналов
Открыть J-ворота
Генамика ЖурналSeek
Академические ключи
ЖурналТОС
ИсследованияБиблия
Национальная инфраструктура знаний Китая (CNKI)
Справочник периодических изданий Ульриха
Доступ к глобальным онлайн-исследованиям в области сельского хозяйства (AGORA)
Библиотека электронных журналов
РефСик
Университет Хамдарда
EBSCO A-Z
Каталог реферативного индексирования журналов
OCLC- WorldCat
Онлайн-каталог SWB
Виртуальная биологическая библиотека (вифабио)
Публикации
Евро Паб

Журнал биометрии и биостатистики