雑誌無償購読申込み 最新号 バックナンバー 広告資料請求 EDN Japanについて お問合せ
雑誌無償購読申し込み
メールニュースレター登録
登録内容変更
アナログ IC/ディスクリート
電源/電池/コントローラー
PLD / メモリー
組み込みシステム
コンピュータ&ボード
EDA/IP/CAE/ソフトウェア
電子部品
計測器
ディスプレイ
デジタル家電
通信・ネットワーク
カーエレクトロニクス/産業機器
EDN Japan 記事検索
検索方法の詳細
雑誌無償購読申込み ニュースレター登録 この記事に対する感想/ご意見
2006.7
ダイナミックな電圧制御と並列処理手法が決め手
次世代プロセッサ

スプリング・マイクロプロセッサフォーラム・ジャパン2006から

消費電力を上げずに性能を上げるマイクロプロセッサが回路とアーキテクチャの2つの工夫で実現できる。回路的には動作状態に応じて電源電圧と基板バイアスをダイナミックに変える方法が主流になりそうだ。アーキテクチャ上はこれまでのメインフレームの実現に使われてきた各種の並列処理技術をプロセッサに応用するようになってきた。スプリング・マイクロプロセッサフォーラム・ジャパン2006では、このような方向がはっきり見えてきた。

EDN Japan 編集特別取材班


Advertisement
 消費電力を上げずに性能を上げるマイクロプロセッサを実現するには、ダイナミックな電圧制御と並列処理アーキテクチャが不可欠になる。6月8〜9日、ウェスティンホテル東京で開かれた「スプリング・マイクロプロセッサフォーラム・ジャパン2006」では、このような方向が明確になった。


決め手は細やかな電源オン/オフ制御

 ルネサス テクノロジは、「組み込み用途向けマイコンの低消費電力ソリューション」と題した基調講演で、W-CDMA方式携帯電話機用システムLSIでの具体例を中心に、高い性能と低消費電力を両立させるための同社のこれまでの取り組みを明かした。その冒頭、演者を務めた同社システムソリューション統括本部システムコア技術統括部部長の長谷川 淳氏は、自動車のエンジン制御システムを例に挙げ、「1980年代以降、エンジン制御用のマイコンは10年間で20倍の性能向上を実現してきた。この経験則に従えば、2010年代には1GIPS(giga instructions per second)の性能が求められることになる」と説明。高性能化の実現には、トランジスタの閾(しきい)値電圧Vthを下げることと、微細プロセスの採用が必須だが、相反して、動作電流、リーク電流の増加を生んでしまうという問題がある。
 このような状況を受けて、ルネサス テクノロジでは、プロセスの進化に合わせて、集積度を上げるともに、新たな低消費電力化技術も順次盛り込んできた(表1)。ゲーティドクロック技術、電源のシャットダウンなどの工夫に続き、最近ではチップ上の各ブロックに電源を供給する領域を従来の5分割から20分割に増やし、動作中でも使用しない回路の電源をオフさせるよう細かく制御するようになった。
表1 省電力技術の進化 
出典:ルネサス テクノロジ


High-kゲート膜、動的制御

 NECエレクトロニクスは、55nmプロセスに向けた低消費電力を実現する回路技術の詳細を明らかにした。
 65nmプロセスとの大きな違いは、Vthと電源電圧(Vdd)を動的に制御する回路技術とHigh-k材料技術を組み合わせ、超低消費電力の実現を目指している点にある。55nmプロセスでは、65nmプロセスに比べて、リーク電流を1/10以下に低減し、動作電流を20〜30%改善するという。
 VddとVthを動的に制御する回路では、高速動作をさせたい時にはVddを上げ、Vthを下げる。また、低速動作時にはVddを下げ、Vthを上げる。必要な動作速度に応じてVdd/Vthを動的に切り替えること(図1)で、平均消費電力やスタンバイ消費電力を低減する。Vthは基板バイアスを変えることにより調整する。
図1 ダイナミックな電圧制御方式 
出典:NECエレクトロニクス

 ゲートリーク電流を下げるために導入したHfSiON(ハフニウムシリケード)膜は、Vthが上がるためドレインリーク電流を下げるという効果もある。
 これらの回路技術を実装した組み込みプロセッサの消費電力比較評価では、電源電圧が1.2Vで動作時に160mWであった消費電力は29.4mWに、電源電圧が0.95Vで動作時に62mWであった消費電力は18.43mWにそれぞれ低減され、大幅な改善が見られたという。


基板バイアスでばらつきも低減

 米Transmeta社は、MOSトランジスタの基板にバイアスをかけてVthを上げる技術やVddの最適化、クロック周波数の制限などの技術を駆使した、低消費電力技術LongRun2を用いたEfficeonプロセッサを開発、米AMD社にライセンス供与した。AMD社は現在、富士通のあきる野工場をファウンドリとして使い、300mmウェーハによる90nmラインで量産に入っていることを、明らかにした。
 今回の技術は、基板バイアスをかけ、Vthを上げることによってサブスレッショルド電流を下げようとするもの。基板バイアスの効果はそれだけではない。Vthのばらつきも少なくなる。この結果、改良前と比べ消費電力は1/2.5に改善し、周波数特性も1.6倍改善した。例えば、700MHz動作では1W以下に、1.5GHz動作なら3.6W以下の消費電力を実現できる。Efficeonの試作品ではスタンバイ電力が8mWと小さかった。


パワーマネジメントで電力削減

 米Texas Instruments社がアプリケーションプロセッサ「OMAP3」の心臓部ともいえるF1プロセッサの消費電力を下げるために、パワーマネジメントをチップ設計、プロセスおよびソフトウエアの全体でとらえた「SmartReflex」と呼ぶ独自の技術を開発した(表2)。
 これは「携帯電話機向けプロセッサでありながら、プロセッサを最大動作周波数で動かすことができる」(日本テキサス・インスツルメンツの筑波テクノロジーセンターでDSP開発部長を務める我孫子茂志氏)ようにするためだ。
表2 TI SmartReflexテクノロジ 
出典:日本テキサス・インスツルメンツ


デジタル的に電圧を可変

 米Freescale Semiconductor社もリーク電流による消費電力の増大を抑えるため、ダイナミックな電圧制御法を使う。基板バイアスをウエルに加えたり、デュアルのVthを使う。もちろん、未使用ロジック部の電源の遮断といった工夫も盛り込まれる。また、後述する「MSC8144」では、チップ内に3つのクロックドメインを設定することができ、低速動作で構わないブロックには低い周波数を割り当てることが可能になっている。
 電圧を変える場合には25mVステップで、例えば「MC13783」チップでは0.9Vから1.65Vまでデジタル的に制御する(図2)。SPIインターフェースを通じ設定するが、その設定時間を4/8/16μsで選択できる。
図2 ダイナミックな電圧可変方式
デジタル的に例えば25mVステップで変化させる。
出典:Freescale Semiconductor社

 米National Semiconductor社は、ダイナミック電圧制御技術をさらに押し進め、適応型電圧制御技術を開発した。これは、チップ上に電圧と温度のセンサーを置き、電力を消費して温度が上がると自動的に電圧を下げようというもの。
 同社が手がけてきたこれまでの適応型パワーマネジメント技術では温度センサーにより動作周波数を下げるように制御してきたが、今回の適応型電圧制御技術では動作時も静止時も消費電力が多いときには動作周波数だけではなく、電圧も下げる。最大70%の削減が可能だ。
 デジタル的にステップごとに電圧を変える。フィンランドにある同社のポータブルパワーシステムズのシステムアプリケーションマネジャーであるJuha Pennanen氏によると、IPコアとしてライセンスするビジネスを展開する予定だという。


さまざまな並列処理技術を駆使

 並列処理アーキテクチャでは、SIMD (single instruction multiple data)やVLIW(very long instruction word)、マルチスレッド、マルチコア、パイプラインなどの大型コンピュータで使われていた技術に加え、数十個以上の小型プロセッサを並列動作させる超並列演算手法も消費電力を上げずに性能を上げる有力な手段として生まれ変わった。


SIMD+VLIW+マルチコア

 富士通研究所は、メディアプロセッサコア「FR550」を2個内蔵したマルチコアプロセッサ「FR577」を開発した。FR577は動作周波数320MHzで、MPEG2のSD映像3ストリーム、QVGA映像2ストリームを同時にデコードできる処理性能を持ち、消費電力は700mWに抑えた。
 プロセッサコアは命令レベルの並列性をVLIW方式、データレベルの並列性をSIMD方式で行い、加えて複数のコアを組み合わせる。
 同社は今回、消費電力に対する各並列性の効果を実証し報告した。例えばSIMD方式の場合、1命令で1演算処理するときの消費電力は400mWとなるが、1命令4演算同時処理するときは約100mWで、電力効率は4倍となる。消費電力はクロックやバス系統が支配的で、演算器を増やしてもそれによる消費電力の増分は少ない。
 VLIW並列性についても消費電力への効果を検証した。400MOPSの性能を得るために、プロセッサコアへの印加電圧を1.2Vに固定し、命令数と動作周波数の関係を調べた。1命令実行だと動作周波数は400MHzとなり、消費電力は250mWを超えた。これを4命令実行に増やすと動作周波数は100MHzで済み、消費電力は200mW以下となり、1命令実行に比べ27%削減できる。さらに、4命令実行だと電源電圧を0.8Vまで下げても400MOPSの性能を達成でき、総合すると67%の電力を削減できることが分かった(図3)。
 システムLSI開発研究所プロセッサソリューション開発部の部長を務める須賀敦浩氏はSIMD方式とVLIW方式を組み合わせたときの電力効率にも言及し、「FRプロセッサは16演算並列処理時に1演算処理時の20%の電力で1演算実行できる」と述べた。
 富士通研究所は、1コアとマルチコアにおける消費電力・性能比も検証した。これによると4コアの場合、1コアに比べて性能は3.2倍となり、消費電力は2.2倍にとどまることが分かった。
 こうした実証をベースに同社では、すでにFR550コアを4個実装したマルチコアプロセッサ「FR1000」などを開発してきたが、FR550コアを2個実装したFR577も新たに開発した。FR577は動作周波数440MHzで、ピーク性能は3520MIPS/3.52GFLOPS/21.22GOPSを達成している。消費電力は1W(320MHz動作時は700mW)と小さい。

図3 VLIW並列性で電力を67%削減
出典:富士通研究所


リアルタイムプロセッサを狙う

 英ARM社の新しいリアルタイムプロセッサ用コア「Cortex-R4」は組み込みシステム向けに、割り込み応答時間の短縮や用途に応じた機能構成を柔軟に行えるなどの特徴を持つ。Cortex-R4は、2004年10月に発表したCortex-M3、2005年10月発表のCortex-A8に続く、ARMv7アーキテクチャの第3弾。速度の遅いRAMを使えるため消費電力を抑えることができる。
 従来のARM11コアと同様Cortexプロセッサが採用した8段パイプラインのうち、フェッチステージを従来の1段から2段に増やすことで、低速のメモリーを使えるようにした。また、プリデコードが2つあるため、命令ストリームを分解してThumb-2コードの命令サイズの特定や、プリディケイデッド命令ブロックの前処理が行える。このため、その後のデコードが簡単になる。
 実行部はデータのアクセスで2段のパイプラインを使っており、キャッシュとTCMにはアクセスタイムがさほど速くなく、消費電力の小さい安価なメモリーを使うことができる。例えば、動作周波数が400MHzのCortex-R4に必要なRAMのアクセスタイムは2.5ns以下であればよい。これに対し300MHz動作のARM946E-Sでは1.3ns以下が必要となる。Artisanのメモリーコンパイラで16KバイトのRAMをそれぞれ設計したとき、Cortex-R4用がARM 946E-S用に比べ消費電力で53%、リーク電流で80%、チップ面積で35%それぞれ小さくなるという(アームでエンジニアリンググループ エンベデッドシステムのアシスタントマネジャーを務める田辺洋吾氏)。
 Cortex-R4をTSMC社の90Gプロセスで製造した場合、8Kバイトキャッシュ付きでチップ面積は1.43mm2と小さく、電力効率は0.4mW/MHz以下で、1.60DMIPS/MHzを達成している。動作周波数は273MHzだが高速ライブラリを使うと400MHz以上での動作も可能である。


スーパースケーラで性能向上

 TI社のF1プロセッサ(Cortex-A8コア)の開発では、性能の向上を目標とした。日本テキサス・インスツルメンツの我孫子茂志氏は「F1プロセッサは65nmプロセス技術でGHz動作が可能なアーキテクチャ」という。性能向上のために、1クロック当たりの命令実行数(IPC)を改善した。2命令同時発行のスーパースケーラ技術を使った初めてのARMコアとなる。L2キャッシュメモリーも今回内蔵した。
 なお、65nm低消費電力プロセス技術において配線層は6層(6層目は電源とクロック専用)とし、製造コストを抑えている。消費電力に影響を与えるリーク電流は0.3nA/μmと小さい。


マルチスレッドで効率60%に

 米MIPS Technologies社は、最大で5つのスレッドを使うことでパイプライン構造のCPU実行効率を高める32ビットCPUコアファミリ「MIPS 32 34K」の詳細を明らかにした。
 MIPS 32 34Kは、同社の前世代の製品「24KE」をベースにマルチスレッド機能を追加した。24KEでは、アプリケーションを実行する際に、負荷が多ければ多いほどキャッシュミスが増加する傾向があった。これに対し34Kでは、マルチスレッド機能を実装し、CPUの実行効率の向上を図った(図4)。
図4 マルチスレッドでミスしたスレッドをカバーする
出典:MIPS Technologies社

 同社によると、「EEMBCのベンチマークテストであるOSPFとPKFLOWを同時に処理した場合に、34Kの命令実行効率は、24KEに比べて約60%向上した」という。また、1MHz当たりの消費電力は1.0V動作時で0.59mWと小さく、シングルスレッドの24KEとほぼ同等である。ミップス・テクノロジーズでソリューション・アーキテクトを務める豊田仁氏は、「これまで24KEでCPUが待ち状態時であった場合でも、電力を消費していた。消費電力は同等を維持できる」と述べた。
 34Kのコア面積は、90nmプロセスで製造した場合に、TC(thread context)を4個、VPE(virtual processing element)を2個使ったもので5.1mm2と小さい。それぞれの占有面積は、TC 1個につき0.1mm2〜0.2mm2、VPE 1個につき0.2mm2〜0.3mm2である。


マルチコアで4GHz相当DSP

 Freescale Semiconductor社は、2006年5月に発表した4GHz相当の演算性能を実現するDSP製品MSC8144の詳細を明らかにした。MSC8144は、最大1GHzで動作するDSPコア「StarCore」(米StarCore社製)を4個実装したマルチコアDSP(図5)。16GMACs(160億回/秒)の積和演算ができる。
 DSPコア周辺回路における性能面での最大の工夫は、同社従来製品では5段構成であったパイプラインを12段としたこと。この12段という値は、目標性能を達成するためにシミュレーションによって決めた。
 また、MSC8144の大きな特徴として、プログラム/データ用に10Mバイトの大容量メモリーを備えている点が挙げられる。これにより、多くのアプリケーションでは外部メモリーへのアクセスが不要となり、部品点数削減や低消費電力化が実現される。DSP部分は90nmのSOIプロセスを使用しているが、メモリーは90nmのバルクシリコンを採用しており、2つのチップを29mm×29mmのFCBGAパッケージに収容する。
 結果として、1GHz動作での消費電力は、5.4W程度に抑えられる見込みだ(フリースケール・セミコンダクタ・ジャパンのネットワーキング&コンピューティングシステムグループ DSPオペレーションのハラダ・ウゴ・ケンジ・ペレイラ氏)。

図5 4コアを集積したDSP 1GHzのStarCoreを4個集積した。 
出典:Freescale semiconductor社


クワッドコアで性能バランス

 AMD社のマイクロプロセッサ・ソリューション部門でシニアフェローを務めるScott White氏は、65nmプロセスを採用した次世代の「クアッドコア・プロセッサ」を発表した(図6)。このプロセッサは、1つのダイに4つのコアを搭載し、それぞれのコアがL3キャッシュを共有する。またIPC(instruction per clock:1クロック当たりの実行命令数)を増やし、浮動小数点演算性能は2倍に上げた。
 AMD社はこれまで、低消費電力と高性能を両立させる技術として、マルチコア化を推進し、開発を進めてきたが、マルチコアのコア数は何個まで並列にできるかとの質問に対し、「今のところは8個程度まで」と同氏は答えた。
図6 次世代クワッドコア・プロセッサ
出典:AMD社


超並列演算も消費電力を下げる

 並列処理が消費電力を下げる方向に働くことは、並列処理を強く進めた超並列処理にも消費電力削減の効果があることが分かった。
 米Connex Technology社は、小さな演算器を32×32個すなわち1024個並べてベクトルプロセッサ技術を応用し安価なHDTV向けLSIを開発中だ。演算器1個に、8本の16ビット・レジスタを積み重ね、その上に256ビットのRAMを搭載している。最も下のレジスタR0の下に16ビットのALUや選択フラグ、インデックスなどを置き、演算できるようになっている。
 このセル同士の接続は、レジスタR0を32個直接接続しており、レジスタからレジスタへとデータのやりとりを行う。例えば、選択されたすべてのセルが同じ命令ストリームを実行する。
 並列演算ができるため、内部I/Oの帯域幅は400Gバイト/秒と速い。しかも、積和演算や浮動小数点演算を行う必要がない。現在、TSMC社において130nmプロセスでチップを製造しているところだという。チップ面積当たりの性能は、2GOPS/mm2であり、GOPS/W性能も従来のシーケンシャルな演算処理に比べ25〜50倍高いという。DCT演算に要する性能は、0.35クロックサイクル/ピクセルと、少ないクロックサイクルで演算できるため、消費電力が少なく済んでいる。


クロックレスで並列処理

 やはり映像処理を狙い、6×4セルのアレイを並べたビデオプロセッサを米IntellaSys社が開発した。SEA(scalable embedded array)と呼ぶ1個のセルは18ビットのプロセッサから成る。18ビット幅のRAMやI/O、ALU、命令セット、データレジスタ、デコード回路、ROMなどを内蔵している。命令セットは30しか持たない。
 クロックを使わない非同期式で動作するため消費電力は下がる。各プロセッサセルは、1nsごとにForth命令を1つ実行する。18ビットレジスタの中に4命令を持つ。コア同士のやりとりはやはりレジスタを通して行う。レジスタは18本のデータ線と2本のハンドシェーク線を持ち、ハンドシェーク線でデータのやりとりを行う。
 試作中の6×4アレイ構成のチップは、2.7mm2の面積、80パッド、144ピンのBGAパッケージに収容されている。性能は48000MIPS/Wで、消費電力は最大500mWと小さい。
 
NTTドコモ 移動機開発部長 千葉 耕司氏に聞く
「低消費電力化は電源制御技術がカギ」


 携帯端末の開発動向は、形状的に見ると、小型、軽量で薄型化が進んでいる。加えて、充電1回当たりの使用時間を長くする、接続品質が保たれる、などが挙げられる。こうした基本要求は技術的に矛盾することが多い。例えば、携帯電話機は小型化すると体積が少なくなり、アンテナ特性が十分にとれない。また、マルチメディア化が進み、表示の画面サイズや画素数が大きくなると、その分データ処理量が増え、消費電力も増加する傾向にある。
 これに対してNTTドコモで移動機開発部長を務める千葉耕司氏は、「携帯電話機の低消費電力化のカギを握るのは電源制御である。電源制御ICがうまく働かないと、どんなに優れたプロセッサでも(カタログに記載された)携帯電話機のバッテリ使用時間は守れない」と電源回りの設計が重要になっている現状を語る。
 NTTドコモは2004年からルネサス テクノロジおよびTI社と、別々に3G携帯電話機向けチップを共同開発しているが、技術課題の1つが消費電力の増加だ。共同開発しているルネサス テクノロジが2006年のISSCCや今回のフォーラムで発表した低消費電力化技術にその対策が盛り込まれている(関連記事 pulse Q&A)。

▲本文へ戻る

雑誌無償購読申込み ニュースレター登録 この記事に対する感想/ご意見
Reed Electronics Group
Electronic BUSINESS Japan | Design News Japan | Semiconductor INTERNATIONAL | DETAIL JAPAN
EDN Japanについて | 広告掲載について | サイトマップ | お問合せ
 Copyright (C) 2000-2007 Reed Business Information Japan K.K. 
個人情報に関する方針 | 著作権・リンクについて | 会社情報