GPUを動かすのはわりと大変
この3年ぐらいの間に20枚近くnvidiaのGPUカードを購入・運用している。まとめてみると、
GPUカード | 枚数 | RAM | Wattage | 購入日 |
Quadro P2200 | 1 | 5 Gb (GDDR5X) | 75 W | 2021/06/24 |
GeForce RTX3060 | 2 | 12 Gb (GDDR6) | 170 W | 2021/07/30, 2024/01/31 |
GeForce GTX1650 | 3 | 4 Gb (GDDR5/6) | 75 W | 2019/11/14, 2021/09/30, 2023/08/01 |
GeForce RTX4090 | 3 | 24 Gb (GDDR6X) | 450 W | 2023/05/17, 2024/02/01 (2) |
GeForce RTX4060Ti | 6 | 16 Gb (GDDR6) | 165 W | ― |
GeForce RTX4070Ti Super | 6 | 16 Gb (GDDR6X) | 285 W | 2024/07/08 |
Total | 21 |
ここで問題になるのが、GPUの消費電力だ。ここ数か月、GPUを導入したPC(サーバー)で不安定になる現象が相次いで、トラブルシュートにかなり時間を消費している。Quadoro、GTXなどのチープなものは問題ないのだが、RTXシリーズの高ナンバーカードは消費電力がばかにならないものがあり、4070以上はCPUよりも電力消費量が大きい。特に、Nanoporeシーケンスデーターのベースコール用にdual GPU(2枚差し)にするとピーク電力はかなりの電力消費量となり、急にランダムなタイミングで電源が落ちるという経験を幾度なく繰り返した(そして時間を浪費した)。はっきりと原因(どのプロセスで、どのタイミングで)は分からないが、1枚であれば問題ないが、2枚にすると難易度が極端に上がる。たぶん、2枚にすると処理速度が上がって、CPUやIOの消費電力も倍増するからではないかとにらんでいる。
これまでの組み合わせをまとめると、
CPU | GPU | 電源 | 結果 |
AMD Ryzen Threadripper 7960X (350 W) | GeForce RTX4090 x 2 (900W) | Thermaltake TOUGHPOWER GF3 1650W (200V・専用電源) | ✖ |
Core i7-13700F (65W) | GeForce RTX4090 x 2 (900W) | Thermaltake TOUGHPOWER GF3 1650W (200V・専用電源)(返品交換後*) | ✖ |
AMD Ryzen Threadripper 7960X (350 W) | GeForce RTX4090 x 2 (900W) | SilverStone HELA 2050R Platinum 2050W (200V・専用電源) | 〇 |
AMD Ryzen Threadripper 7960X (350 W) | GeForce RTX4090 x 1 (450W) | Thermaltake TOUGHPOWER GF3 1650W (200V・専用電源) | △(Thermaltake TOUGHPOWER GF3 1650Wの初期不良?) |
INTEL Core i7-9800X (165 W) | GeForce RTX4090 x 1 (450W) | Thermaltake TOUGHPOWER GF1 1200W | 〇 |
AMD Ryzen 7 7700X (105 W) | GeForce RTX4060Ti (165 W) | Thermaltake Smart 500W | 〇 |
AMD Ryzen 7 7700X (105 W) | GeForce RTX4070Ti Super x 1(285 W) | Thermaltake Smart 600W | 〇 |
AMD Ryzen 7 7700X (105 W) | GeForce RTX4070Ti Super x 2 (570 W) | Thermaltake TOUGHPOWER GF3 1650W | ✖(Thermaltake TOUGHPOWER GF3 1650Wの初期不良?) |
AMD Ryzen 7 7700X (105 W) | GeForce RTX4070Ti Super x 2 (570 W) | Thermaltake Smart 600W x 2 (total 1200W) | ✖ |
AMD Ryzen 7 7700X (105 W) | GeForce RTX4070Ti Super + GeForce RTX4060Ti (450 W) | Thermaltake Smart 600W x 2 (total 1200W) | 〇 |
こうしてみると、電源はCPU、GPUの仕様の消費電力と比べてかなり余力がないと、電源が不足するらしいことがわかる(ただし、Thermaltake TOUGHPOWER GF3 1650Wだけは、全く安定しないので多分初期不良だと思う*)。一応、
$ sudo nvidia-smi -pl 350
などと、電力を制限しても、瞬間的にはそれを上回るピーク電力消費があるようであまり効果はない。結局、力には力でもって制するのが正解で、消費電力には供給電力で対応するしかないのである。高いパーツには高い電源が必要ということで、お金の方も想定の2倍ぐらいを考えておく必要がある。ちなみに2050W電源のSilverStone HELA 2050R Platinum 2050Wの価格は10万円程度で、電源は200Vの専用電源が必要なので、4090を2枚同時に稼働させようとすると、GPU自体のトータルのお値段60万円に加えて20万円ぐらい余分に必要となる。
どうしても安く済ませたいという場合は、電源を2つ用意することもできる。ただし、マザーボードの方で2台給電に対応している必要があって、しかも片方の電源はマザーボードにも給電する必要があるので、そちらの容量の限界が頭打ちとなる。上記の表の一番下のパターンはまさにその場合で、マザーボードに給電している電源は4060Tiが限界(4070Ti Superは無理)だった。4070Ti Superの1枚差しの場合は600W電源で問題がないので、ちょっと不思議なのだが….
*2025/03/06追記:初期不要だと思ったので返品交換してもらった。最初の個体よりも若干改善してGPUを稼働させてなくても落ちることはなくなった。しかし、Minknowでベースコールすると落ちるという現象は変わらず、この製品は仕様として使い物にならないことが判明した。