読者です 読者をやめる 読者になる 読者になる

FutureInsight.info

AI、ビッグデータ、ライフサイエンス、テクノロジービッグプレイヤーの動向、これからの働き方などの「未来」に注目して考察するブログです。

GeForce 8800の衝撃

日記

ATIがAMDと共同で新しいグラフィック内蔵のCPUチップを作るというなかで、NVIDIAがとった戦略はGeForce 8800のようなモンスタースペックのグラフィックボードを作ることだった。このスペックはすごすぎる。

  • これがGPUのターニングポイント NVIDIAの次世代GPU「GeForce 8800」

http://pc.watch.impress.co.jp/docs/2006/1109/kaigai316.htm

会社でグラフィック関連の質問もさばけるように、目下、グラフィクス、特にGPUのメモリ、シェーダー周りを勉強中なのですが、そんな素人の俺から見ても、このスペックは異常。

◎Unified-Shader型アーキテクチャ
◎DirectX 10(Direct3D 10) Shader Model 4.0準拠
◎128ストリームプロセッサ
◎96 ROP
◎384bitメモリインターフェイス

 表に見えるGPUスペックだけだと、G80は、進歩しているものの、今後のトレンドとなるUnified-Shader型のDirectX 10世代GPUの1つにしか見えない。しかし、これはG80の表の姿、言ってみれば氷山のうちの水面に出ている部分であって、G80の全体像のごく一部しか表していない。G80の真に特徴的な部分は、じつはこうした表に見えるスペック以上の部分にある。簡単に特徴をまとめると下のようになる。

◎倍速動作のShader演算コア
◎極めて粒度の小さなマルチスレッディング
◎ライトバック制御が可能なキャッシュ
◎Shaderの命令セットアーキテクチャ(ISA)の公開とCコンパイラの提供
◎スカラ型のIEEE 754“準拠”ストリームプロセッサ
◎ハードウェアベースのコンテクストスイッチング

ちょうど今日発売のPS3に載っているGeForce 7600相当の処理性能を誇るRSXと比較しても、その性能差が目につく。

まず、128個のUnified-Shader型アーキテクチャ。GeForce 7600などのG70世代では、Unified-Shaderは搭載されず、フラグメントシェーダとバーテックスシェーダという、簡単にいうと頂点にはこのように作用するというのを決めるシェーダと各面にはこのように作用するというシェーダが別々に搭載されており、たとえば、フラグメントシェーダは8個まで、バーテックスシェーダは6個までというような制限があった。よって、プログラマはシェーダをその搭載されている範囲でしか利用することが出来ず、たとえば、HDRからのアフターエフェクトのようなシェーダに負荷のかかる処理は、この制限をもろに受けていた。しかし、Unified-Shaderはバーテックス、フラグメントと自分で設定可能なため、128個のシェーダがあれば、実質シェーダー資源はすきなだけ使っていいことになるはず。もちろん、128個なんていったらなかなか使い切れるものではないのだが、さらにこのシェーダーはシェーダー言語だけでなく、C言語も動かせるらしい。あまった、シェーダーはライティングなどのいまだに効果的なアルゴリズムがない、計算資源がひつような処理に回されると考えられる。しかも、これらのシェーダー内のメモリはライトバック可能らしい。

 最大の違いは、G80のキャッシュがライトバック可能なこと。伝統的なGPUのデータキャッシュ(テクスチャキャッシュ)はリードバッファで、 Shaderがモディファイしたデータをライトバックできなかった。モディファイしたデータは、直接メモリに書き込んでいた。それに対して、G80の場合は、データをキャッシュにライトバックできる。それも、必ずライトバックするのではなく、プログラム毎に制御が可能となっている。これは、汎用的な処理の場合には、大きな威力を発揮する。

うーん、見れば見るほどCellのSPUライクな設計だ。ようは、粒度の低いライティング、カリングなどの処理に余っているシェーダを回せますよということか。あと、物理計算も念頭に入っているだろう。このライトバックの速度はCellのメインメモリとSPUのLSをつなぐFlexI/Oのような速度はでないだろうが、384bitメモリインターフェイスを備える以上、ストリーミング処理は無理だがふつうのグラフィック処理なら余裕で可能といったところかしら。さらに96のROPが光る。Geforce 7600世代では、パイプラインのラスタライズを受け持つROPの数が16個、RSXに至っては8個と少なく、結局このROPがうけもつラスタライズ処理の部分でGPUのパイプラインがつまることが多い*1。よって、開発者はこのROPを詰まらせないことに神経をとがらせていた。だが、その心配からも解放されるようだ。うーん、どこからどう見てもモンスタースペック。NVIDIA恐るべし。しかし、値段と発熱、消費電力はいったいいくらになるんだw

*1:PLAYSTATION 3のグラフィックスエンジンRSX: http://pc.watch.impress.co.jp/docs/2005/0701/kaigai195.htm