Опубликовано: Sun, 17 May 2026 14:21:58 GMT
Канал: Все статьи подряд / DIY или Сделай сам / Хабр
TL;DR. Мы выкатили открытый бенчмарк MELT-1 — он меряет не сколько модель знает в идеальных условиях (MMLU & co), а сколько она проживёт под дрифтом распределения и сколько стоит держать её живой. Три оси: $/1M успешных решений, часы до деградации без ретрейна, p99-латентность сенсор→актуатор под 40 °C. 30 суток непрерывного инференса, 5 сидов, два температурных профиля, sensitivity-анализ. На closed-loop manipulation наш агент (Metabolic AI, non-transformer) против Llama-class 7B INT8 показал 9.4× по стоимости, 8.5× по выживанию под дрифтом, ~1600× композитно. Архитектура закрыта — патент на стадии экспертизы. Бенч открытый: харнесс, сцены, оракул, sensitivity-скрипты, опубликованный VAE-энкодер дрифта. Прогоните своих агентов и положите рядом. PDF с полной методологией и threats to validity — в конце статьи. Посмотреть]]>
https://habr.com/ru/articles/1036098/