Wir freuen uns, heute die Unterstützung zur Neuanpassung von Transformationen mit Amazon SageMaker Data Wrangler bekannt zu geben. Damit Daten mit Algorithmen wie XgBoost verwendet werden können, müssen Datenwissenschaftler mit Transformationen, wie One-Hot-Codierung, nicht numerische Werte in numerische Werte umwandeln. Da Transformationen wie One-Hot-Codierung von den Daten abhängen, werden diese Transformationen häufig als aufbereitete angepasste Transformationen bezeichnet. Diese Transformationen müssen aktualisiert oder neu angepasst werden, um Änderungen an den Daten zu berücksichtigen, da sich die Daten im Laufe der Zeit ändern. Darüber hinaus müssen Transformationen, wenn Sie an einem Beispieldatensatz arbeiten, aktualisiert werden, um Änderungen zwischen einem Beispieldatensatz und dem größeren Datensatz zu berücksichtigen. Die Verwendung von Transformationen wie One-Hot-Codierung bringt zusätzliche Informationen mit sich, die in der Datenaufbereitungs-Pipeline verfolgt und erfasst werden müssen. Werden diese Informationen ausgelassen oder falsch verfolgt, kann dies zu Fehlern im Datenaufbereitungsvorgang führen. Ohne Unterstützung für die Neuanpassung von Transformationen hatten viele Datenwissenschaftler keine einfache Möglichkeit, anzugeben, wann an neuen Daten eine angepasste Version einer Transformation verwendet und wann die Transformation neu angepasst werden sollte. Datenwissenschaftlicher hatten außerdem keine einfache Möglichkeit, aktualisierte Versionen Ihrer Transformations-Pipelines zu generieren, wenn sie an neuen Datensätzen neu anpassten.
Quelle: aws.amazon.com
Published by