Вот, шикарный наглядный ролик, который показывает, откуда для VR столько ресурсов требуется.
Но, правда, тут не показан "классический" раздельный рендер. Изначально для трипла это будет три геометрии и три камеры. После некоторых оптимизаций рендер-потока: геометрия может быть одна (т.к. eye-point один - наблюдатель перед экраном), но проекций всё ещё три - получаем SMP.
Теперь для VR: изначально нужно две геометрии и две проекции (т.к. eye-point'а два, на каждый глаз). Используя SPS (тут он не затрагивается) добиваемся что геометрия у нас одна, а за счёт SMP проекций две.
Казалось бы, VR должен тогда не проигрывать триплу. Но, на сцену выходя линзы. Они дают искажения, а значит ренедрить проекцию надо в "противофазе" от этих искажений. Как? проекция под каждый глаз разбивается на мульти-проекцию. Т.о. в показанном примере для трипла - три проекции, для VR 2*4=8 проекций. А на деле мультипроекция под каждую линзу может быть ещё сложнее.
Так и получается, что VR жрёт больше, потому что проекций там сильно больше.
PS: а куносы в итоге похоже сделали аналог того же самого SMP, т.е. одна геометрия - одна мульти-проекция, только гибкость и настраиваемость этого не столь очевидна. (Update: похоже что это фича в UE4, а куносы просто использовали её)