На KubeCon в Атланте в этом году инженер OpenAI поделился серьезной мудростью по инфраструктуре. Фабиан Понс из их команды прикладной наблюдаемости рассказал, как им удалось вернуть примерно 30 000 CPU ядер — да, вы правильно прочитали — просто изменив одну настройку конфигурации.

Их настройка? Обработка почти 10 петабайт логов ежедневно на их кластерах Kubernetes. Это такой масштаб, где даже небольшие неэффективности перерастают в огромные потери ресурсов. Оказалось, что один пропущенный переключатель сжигал ядра как сумасшедший.

Что делает это диким: это не было каким-то сложным переработкой или переписыванием. Просто старая добрая работа по наблюдаемости — нахождение мест, где находится отход, и его устранение. Для всех, кто управляет распределенными системами в больших масштабах, это тот тип легкодоступных решений, который действительно меняет ситуацию. Иногда самые большие победы приходят от того, что вы отключаете, а не от того, что вы строите.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

13 Лайков

Награда
13
5
Репост
Поделиться

комментарий

0/400

Lonely_Validator

· 13ч назад

Один переключатель конфигурации сэкономил 30 тысяч ядер? Это действительно снижение затрат и повышение эффективности, гораздо надежнее, чем всякие вычурные оптимизации.

Посмотреть ОригиналОтветить0

ponzi_poet