雑誌無償購読申込み 最新号 バックナンバー 広告資料請求 EDN Japanについて お問合せ
雑誌無償購読申し込み
メールニュースレター登録
登録内容変更
アナログ IC/ディスクリート
電源/電池/コントローラー
PLD / メモリー
組み込みシステム
コンピュータ&ボード
EDA/IP/CAE/ソフトウェア
電子部品
計測器
ディスプレイ
デジタル家電
通信・ネットワーク
カーエレクトロニクス/産業機器
EDN Japan 記事検索
検索方法の詳細
雑誌無償購読申込み ニュースレター登録 この記事に対する感想/ご意見
designfeature
2005年2月号
ソフトエラーが引き起こす
システム信頼性への影響


信頼性の高いシステムを構築するためには、システム設計段階において考慮すべきことがある。それは半導体メモリーにおけるソフトエラーである。プロセスルールの微細化が進んだことにより、ますます重要な事項になりつつあるのだ。そのような状況で、ソフトエラーの影響を抑えるためのアプローチとはどのようなものであろうか。

Ritesh Mastipuram* Edwin C Wee* 米Cypress Semiconductor社

不良要因の第1位はソフトエラー

  高性能通信用半導体メモリーの分野では、ソフトエラーやシングルイベント・アップセット(Single-event upset: SEU)*1)に影響されない設計が重要である。2003年に開催されたIRPS*のソフトエラーレート(SER*)のセッションにおいて、米Texas Instruments社の信頼性に関する専門家であるRobert Baumann氏は、「ソフトエラーは、ほかの信頼性メカニズムのすべてを含めたものの中でも、最も高い不良率を引き起こしている」と述べている。半導体技術が進化するにつれて、プロセッサーのパイプライン段数は増加し、メモリーセルの有効面積は減少している。その結果、シングルイベント・アップセットに対する素子固有の耐性が低下しているのだ。
Advertisement
  最初に重要となるのは、シングルイベント・アップセットの原因と影響について明確にすることだ(図1)。シングルイベント効果は、高エネルギーの外部放射線粒子が引き起こす素子内部の状態の変化、あるいは過渡現象に関係しており、ソフトエラーとハードエラーに分類できる。
 ソフトエラーは、メモリー素子をリセットしたりリライトしたりすることによって正常な動作に戻すことができるため、非破壊的なエラーといえる。それに対して、ハードエラーは永久的なもので、ハードエラーの代表的な例はシングルイベント・ラッチアップ(single-event latch-up: SEL)である。


シングルイベント・アップセットとは

 主に外部放射線に起因するソフトエラーは、またの名をシングルイベント・アップセットともいう。これはコンポーネントや製造上の不良とは無関係に、データの一時的なエラーや一貫性のないエラーが原因だ。素子固有のノイズや干渉がシングルイベント・アップセットを引き起こすこともあるが、これらが原因であれば設計者が対応することが可能だ。
 シングルイベント・アップセットは、シングルビット・アップセット(single-bit upset: SBU)、あるいはマルチビット・アップセット(multiple-bit upset: MBU)として顕在化する。シングルビット・アップセットは、単一の高エネルギー放射線粒子の通過による1ビットの反転を指し、ほかの反転ビットからは物理的にメモリーセル2個分以上、離れているものである。それに対してマルチビット・アップセットは、1つ以上の放射線粒子の通過による数エレメントの反転を指している。
 シングルイベント・アップセットはランダムに発生するが、破滅的なエラーであることは非常に珍しく、通常は素子を破壊することはない。そして、多くのシステムはある程度のソフトエラー、つまりここでいうシングルイベント・アップセットには耐えることができる。
 例えば、オーディオやビデオ、静止画像システムのために事前圧縮キャプチャ・バッファー、あるいは後展開再生バッファーを設計している場合には、散発的な不良ビットはユーザーに気付かれることもなく、重要な不具合とはならない。ただし、システム機能を制御するための極めて重要なアプリケーションでメモリー素子を使用する場合には、ソフトエラーはより大きな影響力を持ち、データを破壊するのみならず、機能やシステムに対して決定的な障害を引き起こすことがある。


ソフトエラーの耐性が低下

 ソフトエラーレートの問題は、DRAMがランダム障害の兆候を示し始めたために、1970年代の後半に初めてメモリーデータにおける問題として広く注目を集めた。プロセステクノロジーが微細化するにつれ、アップセット(信号の反転)を引き起こすのに必要な臨界電荷量*2)の低下の方が、メモリーセルの電荷収集領域の減少よりも早くなっている。従って、90nmノードなどの小さい形状ではソフトエラーはよりいっそう重要性を増し、システムの設計者はソフトエラーレートのレベルを制御するための方策を講じなければならない。
 半導体の微細化は、産業の生き残りのための主要な原動力となっており、また、高集積化や性能の向上およびコスト低減のための原動力ともなっている。半導体技術の進化により、ゲート長をディープサブミクロンのレベル(0.25μm〜90nm以下)まで縮小するにつれて、メモリー製品のセル寸法も減少し続け、駆動電圧も低下し(5Vから3.3V、1.8Vさらに低電圧へ)、そしてセル内部の容量も減少(10fFから5fF、そしてさらに低容量へ)している。低容量のため、メモリーセルの臨界電荷量は縮小を続け、それによってメモリーセルのシングルイベント・アップセットに対する耐性も低下している。それに従い、低エネルギー・アルファ線、あるいは宇宙線粒子もセルを妨害する要因となっている。


多量のメモリーはエラーの影響大

 シングルイベント・アップセットが発生する割合は、ソフトエラーレートで与えられ、FIT*値で計測する。これは10億素子/動作時間での故障数である。FIT値1000というのは、MTTF*では、およそ114年に相当する。
 代表的なメモリーアプリケーションへの潜在的な影響が、ソフトエラーを考慮することの重要性を表している。1Mビット当たり1000FITのソフトエラーレートを持つ4Mビットの低消費電力メモリーを搭載した携帯電話機は、計算上では28年に1回のソフトエラーが発生する可能性があることになる。1Mビット当たり600FITのソフトエラーレートを持つ10GビットのSRAMを搭載したハイエンドルーターは、170時間に1回のエラーが発生する可能性がある。そして100Gビットのメモリーを使用するルーターのファームなら、正常な運用を中断させる潜在的なネットワークエラーは、17時間ごとに発生し得ることになってしまう。
 次に大西洋上3万5000フィート(約1万700m)の上空を飛行している飛行機に搭乗し、256Mバイト(2Gビット)のメモリーを搭載したノートパソコンで仕事をしている人を考えてみよう。この高度では、1Mビットあたり600FITであったソフトエラーレートが10万FITとなってしまう。その結果、5時間に1回の頻度でエラーが発生する可能性がある。ソフトエラーのFIT値は、ハードウエアの故障に対する標準的なFIT値よりも10倍以上高い。ソフトエラーによる問題の発生は、多量のメモリーを使用するシステムにとっては、携帯電話に対する懸念どころではなくなるのだ。


ソフトエラーの原因はどこか

 シングルイベント・アップセットの代表的な4つの原因は、低エネルギー・アルファ線、高エネルギー宇宙線粒子、熱中性子、および不適切なシステム設計である(表1)
 低エネルギー・アルファ線は、パッケージのプラスチックモールド材に使用される石英充填材に含まれるウラニウム238やトリウム232の放射性崩壊によるものと、フェースダウン・ボンディング用のフリップチップが使用している鉛バンプのポロニウム210から生成されるものがある。
 これらの不純物は、2MeV〜9MeVのエネルギーを持つアルファ線を放出する。一方、シリコン中に電子・正孔対を形成するために必要なエネルギーは、3.6eVである。従って、アルファ線は、およそ106個の電子・正孔対を生成することができる。
 空乏領域の電界は、その通った跡に電子・正孔対を一直線に生成し、電荷が浮遊する。その結果、トランジスタには電流の乱れが生じる(図2)。電界の影響下にある空乏領域は自由電子を捕捉する。わずかな過剰電荷がデバイスノードに浮遊し、これがある臨界電荷量Qcritを超えるとメモリーセルの状態を反転させることになる。Qcritが小さければ小さいほどソフトエラーレートは高くなる。アルファ線は低エネルギーを有しているため通常はシングルビット・アップセットを引き起こすが、低い供給電圧のメモリーではマルチビット・アップセットを引き起こすこともある。
 高エネルギー宇宙線粒子は地球の高層大気と反応し、それらの衝突が太陽フレアーや銀河宇宙線粒子により変調され、高エネルギー陽子や中性子を生成する。高エネルギー中性子は10MeV〜800MeVのエネルギーを持っている。一方、陽子は30MeV以上のエネルギーを持っている。高エネルギー中性子は電荷を持たない。従って、これらはクーロン力による半導体材料との相互作用はない。そのためシリコンとの相互作用は、低エネルギー・アルファ線の場合とは異なる。
 高エネルギー中性子がソフトエラーを引き起こすためには、シリコンの原子核と衝突し、シリコン原子核のイオン化の衝撃を受けることにより、イオン化された粒子を生成しなくてはならない。この衝突はアルファ線や、より重いイオンを生成することがある。衝突によって生まれたものは、プラスチックモールド材からの通常のアルファ線よりも、高エネルギーを持つ電子・正孔対を生成する。
 中性子は特に面倒だ。なぜならば、中性子はほとんどの人工の構造物を貫通してしまうからだ。例えば、中性子は5フィート(約1.5m)もの厚さがあるコンクリートでさえ貫通してしまうことがある。その流束値は地理的条件によって異なる。大気の遮へい効果が低いことによって高度の高い地点では増加する。ロンドンの遮へい効果は赤道上よりも1.2倍悪い。デンバーでは高度が高いことから、遮へい効果はサンフランシスコの海抜ゼロの地点よりも3倍悪い。飛行機では、その効果は地上よりも100倍〜800倍も悪いこともあり得る。
 熱中性子はソフト障害の主な原因であり、一般におよそ25meVのエネルギーを持っている。BPSG*の絶縁層において、大量に発生するボロン10の同位元素は、これらの低エネルギー中性子を捕獲する。中性子の捕獲により、リチウムやアルファ線、ガンマ線を生成する核分裂を引き起こす。それによってビットの反転をもたらす可能性がある。熱中性子は、BPSGが存在する場合に限ってシングルイベント・アップセットを引き起こす主な原因となるため、ボロン10の同位元素の使用を避けることによって、この問題に効果的に対処することができる。
 よくあるシングルイベント・アップセットの原因として最後に挙げられるのが、不適切なシステム設計である。一般に高性能メモリーは、SRAMセル、組み合わせ論理、ラッチ回路などで構成されている。高性能通信用メモリーでは、通常、チップの面積効率は低い。過去の学術研究では、組み合わせ論理はマスキングによる自然の耐性のために、通常のメモリーセルに比べソフトエラーの影響を受けにくいということを示している。しかしながら、素子の大きさとプロセッサーのパイプラインの段数を増やせば、この自然の耐性を低下させることになるのだ。


ソフトエラーの影響度を測る

 ソフトエラーによる素子への影響度を測る方法には2つある。ソフトエラーレートの加速試験と、システムレベルのソフトエラーレート試験だ。
 ソフトエラーレートの加速試験では、チップをさまざまな放射線にさらすことが必要となる。通常はアルファ線と宇宙線粒子を、JEDEC*の規準に準拠した強制条件や、そのほかの条件に沿って照射する。開封したチップにトリウムやウラニウムといった放射線の発生源を置いて、ある時間内のアップセットの総数を計測し、1Mビット当たりのFIT値に換算することによって、アルファ線に対する素子の影響の受けやすさを明らかにすることができる。
 高エネルギー中性子(宇宙線粒子)の加速試験はより複雑であり、一般には中性子の発生源が利用可能な米Los Alamos国立研究所などの研究機関で実施される。
 これらの加速データ測定の2つの方法は、FIT値の公正な概算ではあるが、一般には実際の故障率を誇張したものになっている。しかし、加速データを使うことによって、システムのソフトエラーレートの測定を実行するのに必要なトータル時間を計算するための良好な近似値を得ることができる。


システムレベル試験における工夫

 システムレベルのソフトエラーレート試験は、アルファ線および宇宙線粒子を多数のメモリー素子に照射したときのシングルイベント・アップセットの評価により所定の条件下での故障率を評価するものである。これには、何百あるいは何千個のメモリー素子を使う試験環境を用いる必要がある。
 システムにおけるアルファ線と宇宙線粒子の影響をふるい分ける上手な方法は、宇宙線粒子の影響が無視できる地下数メートルのところにシステムを設置してデータを測定し、さらにアルファ線の影響が無視できる高い高度でシステムをモニターするということだ。結果の信頼性を高めるために、試験には1年はかかる。システムレベルのソフトエラーレート試験はかなり費用もかかるため、メモリーベンダーはコストを抑えるために、素子ごとではなく、製造技術ごとに評価を行っている。
 システムレベルのソフトエラーレート試験は、宇宙線粒子によるソフトエラーレートと、アルファ線によるソフトエラーレートの累積であり、そのデータはシステムの地理的な位置に大きく依存する。
 各メーカーは、製品間のデータの基準点を明確にする、また緯度、高度、地磁気および遮へい効果による宇宙線流束のばらつきを明らかにするために、ソフトエラーレートのFIT値をニューヨークの海抜ゼロでの地理的条件に補正して、メーカー間で測定した値のばらつきを最小化している。


SEUとの闘い

 ソフトエラーレートを減少させるためのアプローチには、システムレベルの変更(エラー訂正、チェック)、プロセス変更(埋め込みレイヤ、三重井戸構造)、抵抗性フィードバックやストレージノードの大容量化、高駆動能力などの回路対策、冗長性を高める設計上の対策などがある。システムレベルでは、設計者はメモリーに格納されたすべてのアドレス可能なワードにチェック情報を含ませるようなECC*を使用することにより、SRAMのソフトエラーレートを軽減することができる(図3)。データとチェック情報の組み合わせは、チェックワードと呼ばれることが多い。
 チェック情報は2つの目的のために機能する。まず1つには、チェックワードがメモリーから読み出されるときに、チェック情報はデータビットのどれが変化したかどうかを調べるために役に立つ。ECC検出では、チェック情報は単一ビット、あるいは2ビット以上が変化したのかを調べるために役に立つ。
 2つ目には、単一ビットだけが変化した場合には、ECC訂正はどのビットが変化したかを決定し、そのビットをその補数値に反転させることによってデータを訂正する役目を果たしている。


ECCの有効活用

 データの1ワード中での一つ、あるいはそれ以上のビットの変化を検出するECC検出回路は、広くECCエラーとして分類されている。さらにそのようなエラーを、エラーのビット数の関数として分類することもできる。現在利用可能なECC回路は、単一ビットのエラーを訂正し、複数ビットのエラーを報告することができる。設計者はECC検出訂正機能をハードウエア、あるいはソフトウエアで実装することができる。
 システム設計ではインターリーブ方式を組み込むことができる。これは、各ワードのビットがメモリー素子上で物理的に分離されているか、あるいはインターリーブされているセルアドレスから構成されている方式である。
 この技法は、同じチェックワード内にある2つの隣り合ったメモリーセルにはアップセットがないことを確実にするのに役に立つ。そしてこれにより、複数セルの宇宙線粒子による影響を、複数のECCで訂正可能なシングルビットエラーにすることができる。
 メモリーベンダーは、メモリー設計にインターリーブ方式を取り入れ、メモリーのビットマップ配列がメモリーアレイ内の複数のブロックから1バイトを構成するビット配列を編成するようにしている。
 メモリーで発生するビット反転は、影響を受けたデータワードが読み出され、ECC検出機構に引っかかるまでは検出されない。未検出の、つまり「潜在的な」エラーである。
 厳密に言えば、ECC訂正はデータの影響を受けたワードのコピーにのみ適用される。つまり、メモリー内に存在しているデータは依然として反転したビットを含んだままだ。もしメモリー内のこの反転したビットが訂正されないで残っている場合、データの同じワード内で別のビット反転が発生すると訂正不可能なエラーとなってしまう可能性がある。従って、システムはメモリー内の反転ビットを訂正することが重要である。


耐性を向上させる別のアプローチ

 素子のシングルイベント・アップセットに対する耐性を向上させる別の方法は、メモリーセル内に蓄える臨界電荷量を増やし、そのしきい値Qcritを増加させることである。
 ほかには、SOI*技術を使用し、電荷の深さを減少させることにより素子の信頼性を向上させる方法がある。PMOSのしきい値電圧はセルのリカバリー時間に影響し、これは間接的にシングルイベント・アップセットに対する耐性にも影響を与える。
 設計者は、三重井戸アーキテクチャーといった埋め込み接合を使って、再結合をアクティブ領域よりもずっと多く増やすことにより、生成された電荷をソフトエラーとは無関係にすることができる。このプロセスはNMOS空乏領域に対して反対の電界を生成し、電荷を強制的に基板に封じ込める。しかしながら、この三重井戸アーキテクチャーは、放射線による影響がNMOS領域で発生する場合にしか役には立たない。
 プロセスレベルでは、粒子の検出限界の0.001個/cm/時のアルファ線放出を持つモールドパッケージ材料など、より高純度の材料を使用することでアルファ線の放出を少なくすることができる。先端技術では、PSGがBPSGに代わることで熱中性子の影響を低減している。
 プロセス技術が微細化し続けるにつれて、メモリー素子でのソフトエラーの影響は、「取るに足りない問題」から、システム設計上での重要な問題となった。アプリケーションによって、シングルイベント・アップセットはあるシステムには大きく影響し、またあるシステムには影響を与えないこともある。
 しかしながら、シングルイベント・アップセットの影響度を最小にするために、SRAMはプロセス開発と製品設計の両方で対策を講じており、それによって90nm以降でもその利用例は拡大している。システム設計レベル、および製品設計レベルでの正しい処置により、SRAMは多くのプロセス世代において存続可能なメモリーのアプローチであり続けるだろう。

用語解説 / 会社情報
Ritesh Mastipuram*
Ritesh Mastipuram氏は、米Cypress Semiconductor社のメモリー製品部門のアプリケーション・エンジニアであり、新製品の詳細決定、アプリケーションサポート、アプリケーションシステム解析、およびボードレベルの故障解析・デバッグなどを担当している。同氏は、Wright州立大学(オハイオ州、Dayton)の電気工学の修士号、Bangalore大学(インド)の学士号を取得している。
▲本文へ戻る
Edwin C Wee*
Edwin C Wee氏は、米Cypress Semiconductor社の製品設計エンジニアであり、新製品導入のサポート、および製品性能、信頼性、量産製造の品質の評価を担当している。同氏は、Stanford大学(カリフォルニア州、Stanford)から電気工学の修士号、California大学Berkeley校から電気工学およびコンピュータ・サイエンスの学士号を取得している。
▲本文へ戻る
*1)
一過性のメモリーデータの反転現象
▲本文へ戻る
【IRPS】
International Reliability Physics Symposium
国際信頼性物理シンポジウム
▲本文へ戻る
【SER】
soft-error-rate
▲本文へ戻る
*2)
セルがデータを保持するのに必要な最小電荷量
▲本文へ戻る
【FIT】
failures in time
故障率を表す単位
▲本文へ戻る
【MTTF】
mean time to failure
平均故障時間
▲本文へ戻る
【BPSG】
boron-phosphor-silicate-glass
▲本文へ戻る
【JEDEC】
Joint Electron Device Engineering Council
▲本文へ戻る
【ECC】
error-correction-code
誤り訂正符号
▲本文へ戻る
【SOI】
silicon-on-insulator
▲本文へ戻る
雑誌無償購読申込み ニュースレター登録 この記事に対する感想/ご意見
Reed Electronics Group
Electronic BUSINESS Japan | Design News Japan | Semiconductor INTERNATIONAL | DETAIL JAPAN
EDN Japanについて | 広告掲載について | サイトマップ | お問合せ
 Copyright (C) 2000-2007 Reed Business Information Japan K.K. 
個人情報に関する方針 | 著作権・リンクについて | 会社情報