Prüfliste für die Entwurfsüberprüfung für Zuverlässigkeit

Artikel
12/01/2023

Diese Checkliste enthält eine Reihe von Empfehlungen, die Sie verwenden können, um die Strategien für Zuverlässigkeit, Resilienz und Fehlerwiederherstellung in Ihrem Architekturentwurf zu bewerten. Um die Zuverlässigkeit sicherzustellen, identifizieren Sie den besten Infrastruktur- und Anwendungsentwurf für Ihre Workload. Treffen Sie diese Entscheidungen basierend auf Ihren Geschäftsanforderungen, die den Zielmetriken für Verfügbarkeit und Wiederherstellung zugeordnet sind.

Um einen zuverlässigen Entwurf zu implementieren, berücksichtigen Sie die Entscheidungspunkte in Ihrem Entwurf gründlich, und beachten Sie, wie sich diese Entscheidungen auf Ihre Workload auswirken. Diese Checkliste und die zugehörigen Leitfäden enthalten Ressourcen, die Ihnen helfen, diese Entscheidungen zu treffen. Berücksichtigen Sie die Workloadsicherheit während des gesamten Workloadentwurfs, der Entwicklung und des Betriebslebenszyklus.

Checkliste

Konzentrieren Sie sich auf Zuverlässigkeit, um sicherzustellen, dass Sie eine Workload entwerfen, die resilient, verwaltbar und wiederholbar ist. Wenn Sie keine Zuverlässigkeitsmethoden einbeziehen und die Kompromisse berücksichtigen, ist Ihr Entwurf potenziell gefährdet. Berücksichtigen Sie sorgfältig alle Punkte, die in der Checkliste behandelt werden, um Vertrauen in den Erfolg Ihres Systems zu schaffen.

	Code	Empfehlung
☐	RE:01	Entwerfen Sie Ihre Workload so, dass sie den Geschäftszielen entspricht, und vermeiden Sie unnötige Komplexität oder Mehraufwand. Verwenden Sie einen praktischen und ausgewogenen Ansatz, um Entwurfsentscheidungen zu treffen, die die gewünschten Ergebnisse liefern. Stellen Sie Ihren Entwurf auf die Notwendigkeiten fest, um Ineffizienzen und potenzielle Probleme zu reduzieren.
☐	RE:02	Identifizieren und Bewerten von Benutzer- und Systemflows Verwenden Sie eine Wichtigkeitsskala basierend auf Ihren Geschäftsanforderungen, um die Flows zu priorisieren.
☐	RE:03	Verwenden Sie die Fehlermodusanalyse (FMA), um potenzielle Fehler in Ihren Lösungskomponenten zu identifizieren und zu priorisieren. Führen Sie FMA aus, um das Risiko und die Auswirkungen der einzelnen Fehlermodi zu bewerten. Bestimmen Sie, wie die Workload reagiert und wiederhergestellt wird.
☐	RE:04	Definieren Sie Zuverlässigkeits- und Wiederherstellungsziele für die Komponenten, die Flows und die Gesamtlösung. Visualisieren Sie die Ziele , um zu verhandeln, Konsens zu erzielen, Erwartungen zu setzen und Aktionen voranzutreiben, um den idealen Zustand zu erreichen. Verwenden Sie die definierten Ziele, um das Integritätsmodell zu erstellen. Das Integritätsmodell definiert, wie fehlerfreie, heruntergestufte und fehlerhafte Zustände aussehen.
☐	RE:05 RE:05 RE:05	Hinzufügen von Redundanz auf verschiedenen Ebenen, insbesondere für kritische Flows. Wenden Sie Redundanz auf die Compute-, Daten-, Netzwerk- und andere Infrastrukturebenen gemäß den identifizierten Zuverlässigkeitszielen an.
☐	RE:06 RE:06	Implementieren Sie eine zeitnahe und zuverlässige Skalierungsstrategie auf Anwendungs-, Daten- und Infrastrukturebene.
☐	RE:07 RE:07 RE:07	Stärken Sie die Resilienz und Wiederherstellbarkeit Ihrer Workload, indem Sie Selbsterhaltungs- und Selbstreparaturmaßnahmen implementieren. Integrieren Sie Funktionen in die Lösung, indem Sie infrastrukturbasierte Zuverlässigkeitsmuster und softwarebasierte Entwurfsmuster verwenden, um Komponentenfehler und vorübergehende Fehler zu behandeln. Integrieren Sie Funktionen in das System, um Fehler von Lösungskomponenten zu erkennen und automatisch Korrekturmaßnahmen zu initiieren, während die Workload weiterhin mit voller oder eingeschränkter Funktionalität ausgeführt wird.
☐	RE:08	Testen Sie Resilienz- und Verfügbarkeitsszenarien, indem Sie die Prinzipien der Chaosentwicklung in Ihren Test- und Produktionsumgebungen anwenden. Verwenden Sie Tests, um sicherzustellen, dass Ihre Implementierungs- und Skalierungsstrategien für die ordnungsgemäße Beeinträchtigung effektiv sind, indem sie aktive Fehlfunktionen und simulierte Auslastungstests ausführen.
☐	RE:09	Implementieren Sie strukturierte, getestete und dokumentierte Pläne für Geschäftskontinuität und Notfallwiederherstellung (BCDR), die den Wiederherstellungszielen entsprechen. Pläne müssen alle Komponenten und das System als Ganzes abdecken.
☐	RE:10	Messen und Modellieren der Integritätssignale der Lösung Erfassen Sie fortlaufend Uptime- und andere Zuverlässigkeitsdaten aus der gesamten Workload sowie von einzelnen Komponenten und Schlüsselflüssen.

Nächste Schritte

Es wird empfohlen, die Kompromisse zur Zuverlässigkeit zu überprüfen, um andere Konzepte zu untersuchen.

Kompromisse bei der Zuverlässigkeit

Freigeben über

Prüfliste für die Entwurfsüberprüfung für Zuverlässigkeit

Checkliste

Nächste Schritte

Feedback

Zusätzliche Ressourcen