Wir freuen uns, heute den Support für die Reduzierung der Dimensionalität mithilfe der Hauptkomponentenanalyse (Principal Components Analysis (PCA)) in Amazon SageMaker Data Wrangler bekannt geben zu können. Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit Data Wrangler kannst du den Prozess der Datenvorbereitung und des Feature Engineering vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -bereinigung, -erkundung und -visualisierung, über eine einzige visuelle Oberfläche abschließen. PCA ist ein beliebtes Verfahren zur Analyse großer Datensätze mit einer hohen Anzahl von Dimensionen pro Beobachtung und ein hilfreiches statistisches Verfahren zur Reduzierung der Dimensionalität eines Datensatzes für die Verwendung mit gängigen ML-Algorithmen wie XgBoost und Random Forest. Um eine PCA bei einem Datensatz durchzuführen, mussten Datenwissenschaftler bisher geeignete Bibliotheken finden und Code schreiben, um hochdimensionale Daten zu reduzieren.
Quelle: aws.amazon.com
Published by