не сказать чтобы шустро конечно
интересно на радике 5870 сколько будет
слоев много, на реальной сцене обычно поменьше
плюс NVIDIA рекомендует делать описанный OIT через append-буфер, а не через скрытый счетчик structured-буфера. В статье используется счетчик, поскольку для карт AMD этот вариант эффективнее. Кроме этого, на момент написания, эти детали были не известны.
если в двух словах о производительности, то при включенном OIT (для 64 слоев) она падает на порядок - многова-то, конечно