Wdrożenie Datadog Observability dla platformy e-commerce

Wyzwanie

Średniej wielkości firma e-commerce działająca na Kubernetesie, on-premise, doświadczała uporczywych problemów wydajnościowych widocznych dla użytkowników końcowych. Czasy odpowiedzi wahały się znacząco, od 200ms do ponad 3000ms dla tych samych transakcji a zespół developerski nie mógł wskazać przyczyny.

Monitoring był rozproszony pomiędzy siedmioma oddzielnymi narzędziami bez korelacji danych:

Proxmox do metryk hostów
Rancher do podstawowych metryk Kubernetes i logów
Grafana do rozszerzonych metryk Kubernetes
Loki do logów aplikacyjnych
Azure Application Insights do APM backendu
CloudFlare do statystyk CDN i ruchu
Google Analytics do metryk biznesowych

Jednym z kluczowych problemów tego zestawu był agresywny sampling po stronie APM (kluczowe dane wydajnościowe były odrzucane ze względów finansowych), brak instrumentacji frontendu, brak śledzenia end-to-end transakcji od CloudFlare do backendu, oraz brak widoczności pełnych metryk po stronie dostawcy infrastruktury (mała komercyjna serwerownia), co stwarzało ryzyko utraty reszty danych historycznych w przypadku zakończenia współpracy.

Infrastruktura składała się z klastra Kubernetes na Proxmox na 3 serwerach fizycznych w kolokacji, z CloudFlare jako warstwą CDN z terminacją TLS.

Metoda

Przeprowadziliśmy audyt infrastruktury obejmujący analizę sieciową, konfigurację Kubernetes, wydajność backendu, storage oraz istniejącą architekturę monitoringu. Na podstawie wyników stworzyliśmy raport. Efektem raportu było wdrożenie platformy Datadog jako zunifikowanej platformy observability zawierającej:

Monitoring infrastruktury: Metryki Kubernetes API, wydajność baz danych (SQL i Redis), metryki na poziomie hostów z hypervisora Proxmox oraz monitoring wydajności storage zarówno blokowego (ZFS na LVM) jak i obiektowego (Minio).

APM (Application Performance Monitoring): Zastąpienie Azure Application Insights przez Datadog APM, zapewniające pełne rozproszenie śledzenia aplikacji backendowej bez agresywnego samplingu, który ukrywał problemy wydajnościowe.

Network Observability: Analiza ruchu end-to-end z klastra Kubernetes (on-premise), przez warstwę sieciową hypervisora, load balancer Nginx, aż do CloudFlare. To był kluczowy brakujący element, ponieważ żadne wcześniejsze narzędzie nie obserwowało pełnej ścieżki sieciowej.

Ten projekt demonstruje nasze usługi wdrożenia observability w chmurze zarówno prywatnej jak i publicznej oraz możliwości konsultingu Datadog zastosowane w złożonym środowisku on-premise.

Rezultaty

W ciągu kilku godzin od początkowego wdrożenia Datadog zespół uzyskał widoczność, jakiej nigdy wcześniej nie miał. Pierwsze i najistotniejsze odkrycie: ~1000ms opóźnienia sieciowego na każdym pojedynczym requeście pomiędzy kolokacją a CloudFlare. Pełna sekunda czasu tranzytu sieciowego, która była niewidoczna dla wszystkich poprzednich narzędzi monitoringu, ponieważ żadne z nich nie obserwowało tej konkretnej ścieżki.

To odkrycie przeformułowało całą rozmowę o wydajności. Problem nie leżał w kodzie aplikacji, konfiguracji Kubernetes ani zapytaniach do bazy danych. Był to problem routingu sieciowego pomiędzy dostawcą kolokacji a CloudFlare, który mógł być widoczny tylko przy skorelowanej observability end-to-end.

Dodatkowe ustalenia z audytu obejmowały:

Degradację wydajności storage z warstw wirtualizacji ZFS redukujących przepustowość fizycznych dysków
Pojedyncze wąskie gardła w Minio (tryb standalone) i storage NFS bez wysokiej dostępności
Ograniczone możliwości autoskalowania ze względu na brak wsparcia Proxmox dla autoskalowania na poziomie nodów
Taktowanie CPU poniżej 3GHz potencjalnie ograniczające wydajność aplikacji pod obciążeniem

Zaangażowanie otworzyło szerszą rozmowę o fundamentalnych ograniczeniach środowiska on-premise dla biznesu e-commerce, który musi szybko skalować się pod kampanie reklamowe. Klient rozpoczął z nami planowanie migracji do AWS z wykorzystaniem programu AWS Migration Acceleration Program (MAP).

Wdrożenie Datadoga ujawnia ukrytą opóźnienia sieciowe w infrastrukturze on-premise e-commerce

Wykorzystane technologie

Wyzwanie

Metoda

Rezultaty

Podsumowanie