Pulse

東芝、ルネサスらが、
ICの低消費電力化技術を続々と発表

[2008年03月号]

この記事を :  印刷する プリントする ブックマーク  はてなブックマークに登録 この記事をクリップ! Buzzurlにブックマーク Yahoo!ブックマークに登録 メールで送る メールで送る
 携帯電話機や携帯型ゲーム機、携帯型オーディオプレーヤなど、携帯型端末の普及によって、デバイスの性能向上とさらなる低消費電力化が強く求められている。こうした状況に対応すべく、東芝、日立製作所/ルネサス テクノロジ/早稲田大学がそれぞれ新たな消費電力の削減技術を発表した。ここでは、それぞれの新技術の詳細をレポートする。なお、これらの新技術は、2008年2月3日~7日の5日間、米国サンフランシスコで開催された、半導体集積回路技術とシステムLSI技術に関する国際学会である「ISSCC(IEEE International Solid-State Circuit Conference:国際固体素子回路学会)2008」で発表された。

リーク電力を抑えたマルチコア
 東芝は、処理内容に応じて幅広く性能を変更できる8つのコアを備えたマルチコアプロセッサを発表した。実際のテストでは、オーディオデータをAAC(advanced audio compression)フォーマットによってデコードした場合の消費電力が9.7mW(1コア、動作周波数30MHz)で、720p 60フレーム/秒の動画データをH.264 Baseline Profileによってデコードした場合の消費電力が620mW(8コア、動作周波数333MHz)という数字を達成している。

 同プロセッサは、動作するコアの数を動的に変更するために、同じアーキテクチャのコアを複数個集積したホモジニアス構造をとっている。すべてのコアは、同じバイナリコードを実行することができる。個々のコアは32ビットのRISCプロセッサであり、パイプライン構成は5ステージ。L1(1次)キャッシュとして命令/データ用にそれぞれ8Kバイトずつの計16Kバイトのメモリーを備えている。L1キャッシュが比較的小さい理由は、動的にコアをオン/オフさせる際に短時間で復帰できるようにするためだ。

 ソフトウエアを実行する際、動作するコア数を動的に変更できるようにするために、スケーラブルなデコードアルゴリズムを採用している。H.264を例にとると、そのマクロブロック上の各ラインがコアごとに処理対象として割り当てられる。すべてのコアが1つ上のラインを監視しながら、ラインレベルでデコードするアルゴリズムである。このアルゴリズムによって、画像サイズの大小やストリーム内の処理負荷の変動に対して、ソフトウエアのコードを変更せずに、稼働するコア数を動的に変更することが可能になるという。稼働するコア数が減れば、当然、消費電力は少なくなる。

 こうしたマルチコアプロセッサで消費電力を削減するには、動作していないコアのリーク電力をいかに抑えるかということも重要になる。この課題に対して、東芝は、オンチップレギュレータ、フォワード基板バイアス、データマッピングフリップフロップ(data mapping flip flop:DM-F/F)などの技術を導入した。

 1つ目のオンチップレギュレータは、個々のコアに隣接して配置するものである。これにより、個々のコアの電源電圧を制御する。同レギュレータは1.2Vと0.95V、0Vの3種類の電圧を出力でき、それぞれ333MHzと30MHz~166MHz、オフというコアの動作状態に対応する。動作していないコアの電源供給を遮断するパワーゲーティングの役割も兼ねており、それによって動作していないコアのリーク電力が抑えられる。また、コアに隣接することで供給電圧の高精度な制御が可能になり、より低い電圧をコアに供給できる。

 2つ目のフォワード基板バイアスは、チップの基板にバイアスを印加する技術である。米Transmeta社の技術などでは、バック基板バイアス、すなわち基板に閾(しきい)値電圧が高くなる方向の電圧を印加することによってリーク電流を抑える。それに対してフォワード基板バイアスを利用する場合、製造時には、リーク電流が少なくなるようにトランジスタの閾値が高くなるようなプロセス条件を用いる。実際にチップを利用する際には、高速動作が必要であれば、基板に閾値電圧が低くなる方向の電圧を印加するという手法だ。チップ全体のリーク電力をばらつきの影響も含めて抑えられるため、リーク電力の削減に大きな効果がある。この技術を用いない場合と比較して、リーク電流を80%削減できるという。ただし、フォワード基板バイアスには、ラッチアップを起こしやすいという問題がある。これに対しては電流リミット回路を設けることで対処している。

 3つ目のデータマッピングフリップフロップは、イネーブル付きDフリップフロップからの置き換えを狙ったものだ。Dフリップフロップよりも高速に動作し、動的消費電力が少ない。東芝の新プロセッサでは、この高速動作によって得られるタイミングマージンを利用して、閾値電圧を上げる(動作速度が遅くなる)ことでチップ全体のリーク電流を1~2割削減している。

 これら3つの技術を導入することによって、従来はAACデコーディング時に253mWもあったリーク電力を大幅に削減し、その2%である5.9mWという値を実現した。

ソフトウエアコンパイラによる電力削減
 日立製作所、ルネサス テクノロジ、早稲田大学は、マルチコアプロセッサ向けのコンパイラによって電力制御を自動化し、消費電力を削減する技術を発表した。上述した東芝の発表がマルチコアプロセッサの消費電力をチップの稼働時にハードウエアの工夫によって大きく削減する技術であったのに対し、日立らの技術はマルチコアプロセッサで用いるアプリケーションプログラムのコンパイラによって消費電力を自動的に削減する技術である。

 日立らが発表したのは、8つのコアを集積したマルチコアプロセッサと、自動並列化/電力制御の機能を盛り込むコンパイラである。

 プロセッサの8つのコアとしては、ルネサスの「SuperH」を使用している。最大動作周波数が600MHzで、最大処理性能は8640MIPS(100万命令/秒)である。また、600MHz動作時の消費電力は約2.8W。電力制御機能として、コア/RAMごとのパワーゲーティング回路を備え、動的周波数/電源電圧スケーリングに対応する。これらに加え、並列処理において課題になる処理の同期化のために、すべてのコアで読み書き可能な同期読み出しレジスタを設けている。これによって、システムバスを介さずに同期処理を実現することが可能になり、同期処理の高速化を実現できる。

 一方のコンパイラは、アプリケーションプログラムのソースコードと達成したい処理時間の設定を入力すると、その条件に最適な並列化と電力制御の処理を含んだコードを出力するというものである。実際に同コンパイラによる電力制御をAACフォーマットによるオーディオデータのリアルタイムエンコードに適用したところ、消費電力は電力制御していない場合の5.82Wから86%減の0.81Wという数字が実現できたという。

 電力制御の具体的な処理は、コアごとに並列化された処理間に負荷の不均衡が生じた場合に、それぞれのコアの処理時間を均一にするために負荷の軽い処理を行っているコアの周波数や電源電圧を低く抑えたり、処理が早く終了したコアの動作を停止したりするというものである。また、処理時間に制約がある場合には、周波数や電源電圧を制御することでその処理時間を達成する。

 自動並列化は、ループの並列化や粗粒度のタスク並列化が可能な部分を自動的に抽出してプログラムの並列度を高めることで行う。また、メモリーアクセスを最適化するために、処理に応じてローカルメモリーとキャッシュメモリーに対してデータを分割配置することも行われる。こうした自動並列化によって、8コアを用いた場合、1コアで処理した場合と比較して5.8倍処理速度が向上する。

 マルチコアプロセッサの課題であった並列化と電力制御の両方を自動化できるため、ソフトウエア開発期間を短縮することが可能になるという。

省電力の鍵であるSRAMを低電圧化

 東芝は、45nmのバルクCMOSプロセスを用いたSRAMにより、動作電圧が0.7Vで動作周波数が1GHzという性能を達成したことも発表した。この数字は、SOI(silicon on insulator)プロセスで製造したSRAMの性能に匹敵する。

 プロセッサの消費電力は、その動作周波数やロジック数に比例する。それに対し、電源電圧は消費電力に対して2乗で効いてくる。そのため、消費電力の削減に向けては、動作電圧を下げることが有効である。その際、最初に問題になるのは、SRAMの動作マージンと速度が悪化してしまうことだ。言い換えると、SRAMがプロセッサやSoC(system on chip)の消費電力削減の鍵を握っている。

 SRAMに対しては、2つの相反する要求がある。その1つがディスターブマージンであり、これはデータを保持する能力を表す。もう1つが、書き込みマージンで、こちらはデータをメモリーセルに書き込む能力(駆動能力)を表す。これらは一方を大きくするともう一方が小さくなるという関係にある。ビット線からSRAMに対して入/出力を行うパスゲートを大きくして駆動能力を上げると、ディスターブマージン(保持能力)が悪化し、書き込み性能が向上する。逆にパスゲートを小さくして駆動能力を下げるとディスターブマージンが向上し、書き込みマージンが悪化する。

 実際には、SRAMの動作電圧を下げた場合、2つのマージンがともに悪化して、動作が不安定になってしまう。さらに、電源電圧を下げると、セル電流が減少して動作速度が低下するという課題もある。

 東芝は、これらの課題を解決するために、「非対称ユニットβレシオセル」、FBLS(fine grained bit line segmentation)、シングルエンドセンス方式の3つの技術を導入した。

 非対称ユニットβレシオセルは、一般的には対称に設計するデータ保持用トランジスタのサイズを非対称にしてnMOSのサイズを大きくすることと、パスゲートとデータ保持用ドライバのゲートサイズを等しくすることを特徴とする(図1)。このことによって、ディスターブマージンは悪化するが書き込みマージンが向上する。また、セル電流が従来の設計と比較して10倍に増えるというメリットもある。悪化したディスターブマージンは、次に説明するFBLSによって改善する。

図1 非対称ユニットβレシオセル
図1 非対称ユニットβレシオセル
従来のSRAMセル(左)と東芝が発表した非対称ユニットβレシオセル(右)。従来のセル構造は、パスゲートの拡散層(灰色)の幅を細くしてドライブ能力を絞っていた。一方、非対称ユニットβレシオセルでは、nMOS側の拡散層を太くしており、さらに拡散層がストレートに配置されている。また、パスゲートとドライバのポリシリコン(緑)のゲート長が等しい。


 FBLSとは、ビット線が多くのセルで共有されていることによって生じる負荷容量を削減するものだ。従来は、この負荷容量が原因でビット線を駆動するのに時間を要していたため、SRAMが不安定な状態に長期間置かれていた。東芝は、128セルで共有していたビット線を16セルで共有することによって、負荷容量を1/8に低減した。これによって、ビット線の駆動に要する時間が短くなり、ディスターブマージンが改善されて、保持されているデータが破壊されにくくなる。

 シングルエンドセンス方式とは、1本のビット線からデータを読み出すことである。従来は差動センス方式を用いるのが一般的だったが、この方式では、1つのビット線とそれを反転したビット線の2本からの微小レベルの信号を、差動アンプで増幅してデータを読み出す必要があった。東芝の新たなSRAMでは、FBLSによってビット線を容易に駆動できるようになり、差動センス方式を用いることなくシングルエンドセンス方式でデータを読み取ることができる。また、差動センス方式の回路は複雑なものになるが、それをシングルエンドセンス方式に置き換えることで、読み出し/書き込み回路の面積を73%縮小することができた。SRAMマクロ全体で見れば、面積を32%削減できたという。

 これら3つの技術を導入することで、先述したように、45nmのバルクCMOSプロセスを用いて、電圧が0.7Vで動作周波数が1GHzの64KバイトSRAMを実現できた。これにより、プロセッサやSoCの低電圧化を推し進めることが可能になり、消費電力をさらに削減できるという。

(小野 明久)



この記事を :  印刷する プリントする ブックマーク  はてなブックマークに登録 この記事をクリップ! Buzzurlにブックマーク Yahoo!ブックマークに登録 メールで送る メールで送る

Sponsor Links

Partner Solutions

EDN RESOURCE CENTER


新着ホワイトペーパー情報




アナログ・デバイセズ - 18件
インターナショナル・レクティファイアー・ジャパン - 1件
ナショナル セミコンダクター ジャパン - 9件
リニアテクノロジー - 15件