Mit der EMR-Version 5.26.0 profitieren Spark-Nutzer von allen neuen Performance-Verbesserungen, die bei den EMR-Versionen 5.24.0 und 5.25.0 eingeführt wurden – ohne dafür Konfigurationen oder Codes aktualisieren zu müssen. Die folgenden Optimierungen werden standardmäßig in der Version 5.26.0 aktiviert:
Dynamisches Partition Pruning – Ermöglicht es Spark, relevante Partitionen während der Laufzeit abzuleiten. So werden Zeit und Datenverarbeitungsressourcen gespart, da weniger Daten aus dem Speicher ausgelesen werden müssen und die Anzahl der zu verarbeitenden Datensätze reduziert wird.
DISTINCT before INTERSECT – Verhindert doppelte Werte in jeder Eingabesammlung bereits vor dem Berechnen der Schnittmenge. Dadurch können die Menge der zwischen den Hosts gemischten Daten reduziert und die Performance erhöht werden.
Glätten skalarer Unterabfragen – Hilfreich in Situationen, in denen mehrere unterschiedliche Bedingungen auf Zeilen einer einzigen Tabelle angewendet werden müssen, sodass die Tabelle nicht für jede Bedingung einzeln ausgelesen werden muss.
Optimierte Join-Neuanordnung – Ordnet Joins dynamisch neu an. So können kleinere Joins mit Filtern zuerst ausgeführt werden, wodurch sich die für größere nachfolgende Joins erforderliche Verarbeitung reduziert.
Bloomfilter für Joins – Filtert Tabellenverknüpfungen dynamisch, sodass anschließend nur relevante Zeilen enthalten sind. Dadurch wird die Menge der von Spark verarbeiteten Daten verringert, wodurch sich die Laufzeit-Performance der Abfrage verbessert.
Weitere Informationen zu diesen Optimierungen finden Sie in der Dokumentation zur Optimierung der Spark-Performance und in den Versionshinweisen zu EMR 5.26.0. Auch in EMR 5.26.0 enthalten ist eine Beta-Integration mit AWS Lake Formation und neuen Versionen von Apache HBase 1.4.10 sowie Apache Phoenix 4.14.2. Weitere Informationen zur Integration finden Sie unter Integrieren von Amazon EMR mit AWS Lake Formation (Beta). Amazon EMR Version 5.26.0 ist nun in allen Regionen, in denen Amazon EMR unterstützt wird, verfügbar.
Die Integration zwischen AWS Lake Formation und Amazon EMR liegt als Betaversion vor und ist in den Regionen USA Ost (Nord-Virginia) und USA West (Oregon) erhältlich. Bleiben Sie bezüglich der neuesten EMR-Versionen auf dem neuesten Stand, indem Sie den Feed für EMR-Versionshinweise abonnieren. Verknüpfen Sie die Feed-URL über das Symbol oben im EMR Release Guide direkt mit Ihrem bevorzugten Feed-Reader.
Quelle: aws.amazon.com
Published by