На KubeCon в Атланте в этом году инженер OpenAI поделился серьезной мудростью по инфраструктуре. Фабиан Понс из их команды прикладной наблюдаемости рассказал, как им удалось вернуть примерно 30 000 CPU ядер — да, вы правильно прочитали — просто изменив одну настройку конфигурации.
Их настройка? Обработка почти 10 петабайт логов ежедневно на их кластерах Kubernetes. Это такой масштаб, где даже небольшие неэффективности перерастают в огромные потери ресурсов. Оказалось, что один пропущенный переключатель сжигал ядра как сумасшедший.
Что делает это диким: это не было каким-то сложным переработкой или переписыванием. Просто старая добрая работа по наблюдаемости — нахождение мест, где находится отход, и его устранение. Для всех, кто управляет распределенными системами в больших масштабах, это тот тип легкодоступных решений, который действительно меняет ситуацию. Иногда самые большие победы приходят от того, что вы отключаете, а не от того, что вы строите.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
13 Лайков
Награда
13
5
Репост
Поделиться
комментарий
0/400
Lonely_Validator
· 13ч назад
Один переключатель конфигурации сэкономил 30 тысяч ядер? Это действительно снижение затрат и повышение эффективности, гораздо надежнее, чем всякие вычурные оптимизации.
Посмотреть ОригиналОтветить0
ponzi_poet
· 13ч назад
30000 центральных процессоров из-за одной конфигурации? Сколько это будет стоить в электроэнергии, это немного нелепо.
Посмотреть ОригиналОтветить0
token_therapist
· 13ч назад
Один переключатель конфигурации спасает 30000 ядер, этот парень слишком жесток, у нас здесь только на проверку журналов уходит два месяца.
Посмотреть ОригиналОтветить0
ImpermanentPhobia
· 13ч назад
Одна настройка экономит 30000 ядер? Какие же это абсурдные параметры, ха-ха.
На KubeCon в Атланте в этом году инженер OpenAI поделился серьезной мудростью по инфраструктуре. Фабиан Понс из их команды прикладной наблюдаемости рассказал, как им удалось вернуть примерно 30 000 CPU ядер — да, вы правильно прочитали — просто изменив одну настройку конфигурации.
Их настройка? Обработка почти 10 петабайт логов ежедневно на их кластерах Kubernetes. Это такой масштаб, где даже небольшие неэффективности перерастают в огромные потери ресурсов. Оказалось, что один пропущенный переключатель сжигал ядра как сумасшедший.
Что делает это диким: это не было каким-то сложным переработкой или переписыванием. Просто старая добрая работа по наблюдаемости — нахождение мест, где находится отход, и его устранение. Для всех, кто управляет распределенными системами в больших масштабах, это тот тип легкодоступных решений, который действительно меняет ситуацию. Иногда самые большие победы приходят от того, что вы отключаете, а не от того, что вы строите.