Wir führen die asynchrone Inferenz von Amazon SageMaker ein, eine neue Inferenzoption in Amazon SageMaker, die eingehende Anfragen in eine Warteschlange stellt und sie asynchron verarbeitet. Diese Option ist ideal für Inferenzen mit großen Nutzlastgrößen (bis zu 1 GB) und/oder langen Verarbeitungszeiten (bis zu 15 Minuten), die verarbeitet werden müssen, wenn Anfragen eintreffen. Mit der asynchronen Inferenz können Sie Kosten sparen, indem Sie die Instance-Anzahl automatisch auf null skalieren, wenn keine Anforderungen zu verarbeiten sind. Sie zahlen also nur, wenn Ihr Endpunkt Anforderungen verarbeitet.
Quelle: aws.amazon.com
Published by