MESSAGE

Chapter -1-

汎用チップから専用チップへ

半導体産業のゲームチェンジ

MORE CLOSE

2020.04.11

汎用チップの時代と専用チップの時代

汎用品は、規格大量生産によって低価格にできるので広く普及します。一方、専用品は、価格は高いが、優れた性能や品質・信頼性を提供できます。

半導体ビジネスは、汎用チップが主役です。年間50兆円の市場で2兆個のチップが生産されていますから、平均単価はわずか25円。

1兆円を投じて建設した最新鋭の工場から出荷される最先端のチップでも数100円で売られています。薄利多売のビジネスです。

汎用チップが大量に売れる主な理由は、コンピュータがフォン・ノイマン・アーキテクチャを採用しているからです。

処理手順とデータをメモリから読出して、プロセッサがその手順に従って処理をしたデータをメモリに戻す。これを逐次繰り返せばどれだけ複雑な処理も実行できるし、処理手順すなわちプログラムを変えればどのような処理も実行できます。

つまり、コンピュータ発展のシナリオは、プロセッサとメモリを大量生産してハードウェアを普及させ、ソフトウェアでさまざまな用途に利用するのです。したがって、半導体ビジネスの王道は、プロセッサとメモリを安く大量に供給することです。

ビッグデータの利活用が始まれば、センサーがこれに加わるでしょう。

このビジネスの戦い方は資本競争です。DRAMやフラッシュメモリ、あるいはCPUやGPUといったチップが発明され、それが大きなビジネスになると認識されるや巨大な資本が投入され、たちまち過当競争が起こり、業界再編の末に寡占化されます。

日本は、デバイスのイノベーションでは勝ちましたが、資本競争で敗れました。


一方で、専用チップが成功した時代もありました。1985年から2000年にかけて、ASIC(特定用途向け集積回路)が大きな市場を創りました。

プロセッサやメモリを相互に接続するための論理回路(glue logic)は、システムごとに異なります。当初は標準ロジックチップを組合せて実現していましたが、それらをASICに集積することでシステムのコストや面積を削減できました。

さらにコンピュータを用いた設計(CAD)技術を駆使して開発の費用と時間を大幅に削減できたことが、ASICで採算が取れた大きな要因です。複雑なチップだと100人以上の設計者で1年以上の時間を要しますが、CADを使って1人の設計者が1か月で設計できるようにしたのです。

1980年代に、レイアウトや論理を自動生成する技術がカリフォルニア大学バークレー校を中心に研究開発され、ツールベンダーも誕生しました。加えて、セミオーダーで洋服を仕立てるように、半完成品のチップを製造しておき最後に配線をカスタマイズするセミカスタム製造方式も開発されました。

こうした設計開発のイノベーションによって、開発効率は一気に3桁高くなりました。

しかし、15年後にはムーアの法則によって集積度が3桁増えてしまい、コンピュータを駆使してもかつて以上に人員や時間がかかるようになりました。その結果、ASICビジネスは採算が取れなくなり終息しました。


このように、汎用の時代は、デバイスのイノベーションで幕が開き、資本競争の末に幕が下ります。一方、専用の時代は、設計開発のイノベーションで幕が開き、ムーアの法則で幕が下ります。


汎用チップから専用チップへの参照図
図:データ社会のエネルギー危機とムーアの法則の減速で専用チップの時代が到来する

ゲームチェンジ:GAFAが専用チップの自社開発に乗り出した

ここにきて、ゲームチェンジが起きています。IntelやQualcommといった半導体専業メーカーから汎用チップを調達していたのでは競争に勝てない。そう感じた「GAFA」などの巨大IT企業が、専用チップの自社開発に乗り出したのです。

その背景には、3つの理由があります。

第一の理由は、データ社会特有の「エネルギー危機」です。データが急増し、AI処理が高度化して、エネルギー危機に拍車がかかっています。

現在の技術で省エネルギー対策が全くなされないと仮定すると、2030年には現在の総電力の倍近い電力をIT関連機器だけで消費し、2050年にはそれが約200倍になると予想されています。

デジタルトランスフォーメーションに莫大なエネルギーを費やして地球環境を破壊することになるのなら、サステイナブルな未来は望めません。

チップの消費電力はかつて0.1W程度でした。理想的なスケーリングシナリオに従えば、電力密度を一定に保ったまま性能コスト比を改善できたはずです。

しかし実際には、それ以上に性能改善を優先させた結果、電力は15年間で1,000倍増え、2000年には100Wに達しました。チップの電力密度は調理用ホットプレートの30倍を超えています。クラウドサーバーの冷却に莫大な電力が消費されています。

冷却の限界を超えると、集積はできても同時には使えないトランジスタが増えます。7nm世代では全体の3/4が、5nm世代では4/5のトランジスタが同時には使えません。

こうした制約下では、エネルギー効率を10倍高めた人だけが、コンピュータを10倍高性能にでき、スマートフォンを10倍長く使えます。

あらゆるタスクをこなせる汎用チップに比べて、無駄な回路をそぎ落とした専用チップは、エネルギー効率を10倍以上高くできます。

第二の理由は、AIの出現です。神経回路網と深層学習は、データを持つ者に情報処理の新しい方法を授けました。

神経回路網は、私たちの脳と同じく配線接続が機能を与える布線論理です。逐次処理をするフォン・ノイマン・アーキテクチャに比べて、並列処理によって電力効率を10倍以上高くできます。

第三の理由は、分業化が進んだ産業構造です。TSMCなどのファウンドリーが世界の工場となり、ユーザー自らがAIの性能を最大限引き出せるようビジネスモデルにあった半導体チップを自社で開発できるようになりました。

大量のチップを使うITプラットフォーマーなら、そうした方が半導体ベンダーから調達するよりも素早くかつ安く、より高性能なチップを調達できるのです。


知識集約型社会での製造業を考える

かつてアラン・ケイが「ソフトウェアを本気で考える人たちは、自分でハードウェアを作ることになる」と言いました。システム開発には、ハードとソフトの両方が必要です。

多用な制御が要求される論理的で計算的な情報処理にはフォン・ノイマン・アーキテクチャの汎用チップを用い、高度なAIが要求される直観的で空間的な情報処理には電力効率の高い専用チップを用いる。こうした新しいアーキテクチャの探究が始まっています。

もちろん汎用チップと専用チップには、低価格と高性能のトレードオフがいつもあります。

たとえば情報通信においては、比較的数量が出ないインフラ側では、仮想化技術を活用することで、できるだけ汎用ハードで機能を実現しようとします。一方、比較的数量が出るエッジ側では、専用チップで性能を高めてデータの地産地消を推し進めようとします。

専用チップに求められるのは資本力ではなく学術です。かつてカリフォルニア大学バークレー校がレイアウトや論理の自動生成技術を創出したように、機能やシステムを自動生成する学術の創出が求められています。大学が担う役割は大きくなっています。


20世紀は「汎用」の時代でした。戦後、物量崇拝と経済効率礼賛のもと、規格大量生産が経済成長を牽引しました。

やがて社会が成熟すると、全体の成長から個人の充実に価値がシフトしました。その結果、工業社会は終わり知価社会が始まりました。

この変化が先進国から発展途上国に広がる過程において、日本は規格大量生産を続けたことで一時的に繁栄しましたが、やがてアジア諸国の後塵を拝することになりました。

今世紀は「専用」の時代になるでしょう。資本集約から知識集約へ、規模から知恵へ、量的拡大から質的発展へ、物質から精神へ、便利から楽しいへ、製品からサービスへ、大量から多様へ、画一から個性へ、誰でもできるから他の人にはできないへ、価値は移ります。

そのとき、製造業はどうなっているのでしょうか?その答えを探すのがd.labの使命です。

Chapter -2-

脳とコンピュータと集積回路の短い歴史

そして一つの未来

MORE CLOSE

2020.04.15

脳とコンピュータと集積回路の誕生

139億年前、巨大なエネルギーの塊が突如として出現しました。ビッグバンです。

エネルギーと物質が相互作用して(E = mc2)、宇宙は急速に拡大しました。最初のわずかな揺らぎが銀河系を作り、46億年前に地球が誕生します。

物理法則に従って物質が変化する中で、自分の構造を情報としてDNAに保存し自己複製する生命が出現したのが40億年前です。

生命は、突然変異と適者生存を戦術に使い、不確かな環境を生き抜いて、単細胞から多細胞、植物、動物へと進化し多様化しました。

動物は外界から情報を獲得し行動を決定するための中枢神経系である脳をやがて獲得します。そして哺乳類は、700万年前に人類に分化し脳を進化させました。

生存のためには助け合いが必要です。脳は社会を作り、心を生み出しました。人は自分の意図を知り、それを伝える言語と論理的思考力を獲得したのです。


数学が誕生したのは3000年前です。

数学は人の認知能力を拡張しました。四大文明期には計算機やピタゴラスの定理を用いて税金の計算や土地の測量を行っています。やがて紀元前5世紀の古代ギリシャ時代になると、計算よりも数学の内部世界が研究対象となり、数学が道具から思考に進化します。

7世紀のアラビアで代数が発達し、15世紀のルネサンスで記号代数が発明されて、数学は物理的制約を受けない普遍的な視座を獲得します。そして17世紀になると微積分が考案され、無限の世界を探究できるようになりました。極限や連続性の概念を厳密に省察する結果、主観的な直感を超越した抽象的な記号体系が生まれたのです。

20世紀に入ると、「数学をする自らの思考について数学をする」試みまでもが行われます。物理的直感や主観的感覚などといった曖昧なものを完全に脱ぎ捨てて、脳から溢れ出した数学は、ついに「計算する機械」としてのコンピュータを生み出します。


当初のコンピュータは、演算器間の結線を切り替えることでプログラムする「布線論理方式」でした。

この方式には欠点が2つありました。処理できるプログラムの最大規模が予め用意したハードウェアの規模で制約されてしまう「規模制約問題」と、システムが大規模になると接続数が膨大になる「大規模システムの接続問題」でした。

フォン・ノイマンは、処理対象の「データ」と、データの移動および演算を指示する「命令」をメモリに記憶しておき、プロセッサがこの命令を順に解釈して演算処理を行う「プログラム内蔵方式(フォン・ノイマン方式)」を発明しました。複数の演算器を用意してそれらを物理的に結線するのではなく、一つの演算器に毎サイクル違う命令を実行させることで規模制約問題の解消を狙った画期的な方式転換だったのです。

一方、「大規模システムの接続問題」をさまざまな角度から検討した中で生まれた画期的な解が、ジャック・キルビーが発明した集積回路(IC)でした。フォトリソグラフィを用いて一枚のチップに素子を集積し一括配線することで、この問題が解決されました。

こうして単純化・極小化された演算資源をチップに集積化・並列化することで、コンピュータの性能は飛躍的に向上しました。高性能なコンピュータはさらに大規模な集積回路の設計を可能にします。ムーアの法則に導かれて、コンピュータと集積回路は共に発展しました。


脳とコンピュータとチップの短い歴史の参照図
図:チップのスケーリングでコンピュータがダウンサイジングし両者は手を取り合って発展した

集積回路の成長と限界

集積回路の性能・コスト比は、微細化により指数関数的に改善できます。「ムーアの法則」と呼ばれるこの経験則は、集積回路の指導原理であり、成長シナリオです。

コストはリソグラフィーで決まるので、リソグラフィーが限界に近づくとトランジスタの単価が上がります。実際に16nm世代(2015年)からトランジスタの単価が上昇に転じています。

しかし、7nm世代(2019年)からEUV(極端紫外線)リソグラフィーが導入されて、トランジスタの単価は再び下がると思われます。

したがって、問題は性能改善の限界です。それは電力、つまり発熱が上限に達して、そのために回路をこれ以上集積できなくなることです。

電力あたりの処理性能、つまり電力効率(GFLOPS/W)がムーアの法則の命運を握ります。「電力効率の改善なくして性能改善なし」です。


電力はスケーリング(微細化)の副作用で増えます。電界効果で動作するトランジスタの電界が一定になるようにデバイスをスケーリングすれば、電力は増大しないはずでした。

しかし実際には、1980年代から90年半ばにかけて、回路を高速動作させたかったために、電源電圧を下げずにデバイスをスケーリングしました。その結果、電力は3年ごとに4倍増え、15年間で3桁も増えました。

電力が大きくなりすぎたので1995年以降電源電圧を下げてきましたが、すでにデバイスの内部電界が高くなりすぎていたために電流は十分に減少せず、その後も電力は6年で2倍ずつ増え続けています。

電力増大の原因がスケーリングの副作用なのだから、その対策は容易ではありません。原点に戻って考える必要があります。


電子デバイスでは、電子に情報を載せます。CMOS回路の場合、情報処理に用いる電荷はQ = CVCは回路の容量でVは電源電圧)です。この電荷が電圧Vだけ落ちて失うエネルギーはE = QV = CV2となります。電力は毎秒消費するエネルギーですから、さらにスイッチングの回数をかけて、P = fαCV2で求まります(fはクロック周波数でαはスイッチング確率)。

したがって、電力低減の方策は3つあります。低電圧化(V)と、低容量化(C)と、スイッチングの低減()です。

電圧を下げると電力は効果的に減りますが、限界があります。立ちはだかるのはリークです。

ゲート絶縁膜には量子効果によるリークが現れ、これ以上薄くできません。この状態でトランジスタを微細化すると、ゲートの支配力が不足して、トランジスタが十分にオフしなくなります。

その結果、電源電圧をさらに下げても、回路が遅くなる分だけリークが増大して支配的になり、電力はかえって増大します。今日使われているプロセッサの電力効率が最大となるのは、電源電圧がおよそ0.45Vのときです。

リークを減らすために、材料、プロセス、構造を変えてきました。たとえばトランジスタを立体構造にしてゲートで覆うことで、ゲートの支配力を改善しています。7nm世代のFinFETは予想以上にリーク削減に成功しています。


汎用から専用へ、2Dから3Dへ

室温でCMOSゲートを多段接続できる理論限界は0.036Vです。低電圧化の方策も残すところ1桁、電力換算で2桁の余地しか残っていません。

電力効率を改善するもう一つの方策は、低容量化です。汎用のCPUやGPUに比べて、ASIC(特定用途向け集積回路)やSoC(システムオンチップ)などの専用チップは、無駄な回路を削ぎ落とし低容量化できて、電力効率を10倍以上高くできます。


また、データを移動するのは、計算に比べて大きな電力を消費します。とりわけチップの外にデータを出し入れすると、3桁ほど大きな電力を消費します。フォン・ノイマン・アーキテクチャが求めるDRAMのアクセスが電力のボトルネックになっています。

チップのデータ接続で大切なことは、接続境界を辺ではなく面にすることです。チップの中はスケーリング率の2乗で高集積になります。一方、外部I/Oは主にチップ周辺に配置されるので、集積度はスケーリング率に比例します。その結果、データ通信が内部の性能要求に追いつきません。つまり、チップを積層実装して面全体で接続することが有効になります。集積のレベルを2D(平面)から3D(立体)に進化させることで電力効率を大きく高めることができます。


ムーアの法則が減速する中で、従来技術の延長ではない新技術(disruptive technology)にも実用化の機会が増えています。

Chapter -3-

スケーリングシナリオ

指数関数の驚異

MORE CLOSE

2020.04.18

スケーリングシナリオ
【指数関数の驚異】


理想的なスケーリングシナリオ

集積回路の発展のための基本原理は、デバイスを微細化してスケーリングすることです。集積度を高めてチップの製造コストを安くし性能を高めます。

DRAMは3年で4倍ずつ、プロセッサは2年で2倍ずつ、集積度が高くなってきました。こうした経験則は、「ムーアの法則」として広く知られています。

チップの製造コストは、ウェハー1枚あたりの製造コストを1枚のウェハーから取れる良品チップの数で割った値です。

リソグラフィとプロセスの技術を進化させて、デバイスをスケーリングします。同時に、ウェハー口径を大きくしたり、製造技術を改善することで歩留まりを高めて、良品チップの数を増やします。

過去50年間を振り返ると、2年ごとに、デバイスは20%微細化されチップサイズは14%大きくなっています。その結果、集積できるデバイスの数は2年ごとに倍増(=1.142/0.82)してきました。

DRAMでは、さらにデバイスを3次元構造にしたり回路を工夫するなどして、3年で4倍の高集積化を果たしてきました。もっとも、こうした工夫はそろそろ限界に近づき、DRAMのスケーリングは間もなく止まるとも言われています。


次に、性能がどうなるかを議論しましょう。デバイスの寸法x [m]に加え電圧V [V]も1/αに低くすると(20%縮小の場合はα=1.25)、トランジスタ内部の電界[V/m]を一定に保てます。この「電界一定のスケーリング」によって、電界効果トランジスタはスケーリングの前後で等しい動作が保証されます。

このとき、トランジスタを流れる電流I [A]と容量C [F]も1/αに小さくなります。その理由は概ね次のとおりです。

電流Iは、電荷が流れる速度なので[C/s]、ゲートの電界効果によって誘起したチャネル方向の電荷密度[C/m]と、ドレイン・ソース間の電界によってチャネルを移動する電荷の速度 [m/s]の掛け算で決まります。電荷密度は、チャネル方向あたりの容量とゲート・チャネル間の電圧 [V]の掛け算で決まり、チャネル方向あたりの容量はチャネル幅[m]÷ゲート絶縁膜の厚さ[m]で決まります。一方、電荷速度はドレイン・ソース間の電界つまりドレイン・ソース間電圧[V]÷チャネル長[m]で決まります。

整理すると、IV2/xに比例するので、スケーリングで1/αに小さくなります。また、容量Cは面積÷距離で求まるのでxに比例して、1/αに小さくなります。

電圧V [V]、I [A]、容量C [F]がそれぞれ1/αに比例縮小されると、回路の遅延時間は1/α倍に小さくなります。容量Cと抵抗R(=V/I)の積で決まるRC時定数が1/αに小さくなるからです。RCが時間の次元を持つことは、Q = CVQ = It (tは時間)をtで解いて、t = CV/I = RCとなることからも理解できます。


ここで、電力密度[W/mm2]を計算すると、電圧×電流÷面積で計算できますから、スケーリングしても一定で変化しません。集積度が上がると放熱が難しくなるように感じますが、電力密度は一定なので、放熱の問題は起きません。まことに理想的なシナリオです。


実際のスケーリングとその副作用

しかし、実際には理想通りに事が運びませんでした。

マイクロプロセッサの動作周波数は、10年間でおよそ50倍に高速になりました。そのうち13倍がスケーリングによる効果で、残りの4倍がアーキテクチャによる改善です。

換算すると、動作速度は2年で1.6倍ずつ高速化されたことになります。電界一定のスケーリング則では1.2倍のはずですから、随分高速にしたことが分かります。

実は、1995年まで電源電圧を低くせずにデバイスをスケーリングしました。つまり「電界一定」ではなく「電圧一定」でスケーリングしたのです。

その場合、電流Iはα倍に増え、容量Cは1/αに小さくなるので、回路の遅延時間は1/α2に小さくなり、回路はさらに高速で動作します。しかし、電力密度はα3で急増してしまいます。

こうした理由は、処理性能が高いほどチップがよく売れたからでした。一方でチップの電力は当初十分に小さかったので、電力の増大はさほど大きな問題ではなかったのです。

1980年から1995年の15年間にチップの電力は1,000倍に増えました。その結果、単位面積あたりの発熱量は調理用ホットプレートの30倍にも達してしまいました。

放熱ができないと、デバイス内部の温度が高くなり、信頼性が損なわれます。電力の壁にぶつかると、回路をそれ以上集積できなくなります。

このように、電力の壁の原因は、アグレッシブなスケーリングの副作用だったのです。

 

1995年以降は、電源電圧を徐々に下げました。

当然のことですが、回路を使わないときは電源をこまめに切ったり、高い性能が要らないときには電源電圧を下げるなど、電力を節約する細かな努力も積み重ねてきました。

これらのことは日常生活でも行われている当たり前の節約に聞こえますが、1億個以上のトランジスタを集積した大規模集積回路になると、無駄に気づくことからして容易ではありません。

電源電圧の理論的下限値は、室温の場合0.036Vです。これ以下にすると、CMOS回路の利得が1を切り、デジタル回路を多段に接続できなくなります。

しかし実際には、オフしているトランジスタのリーク電流やデバイスのばらつき、ノイズなどがあり、0.45V以下に下げるのはとても困難です。

28nm世代以降は、集積はできても同時には使えないトランジスタ、つまり「ダークシリコン」(電源投入できずに暗いままのトランジスタ)が急増しています。機能は集積できても性能を引き出すことが困難になっています。

したがって、電力効率を改善できた人だけが、性能を改善できます。まさに「電力効率の改善なくして性能改善なし」です。


電源電圧を下げる以外に電力効率を改善する手段は、容量Cの削減です。そのために、チップを積層して3次元に集積する技術が、今後の集積回路の命運を握ります。つまり集積のレベルを2Dから3Dに拡張することです。なぜなら、チップの厚さはチップの幅に比べると3桁も小さいので、チップを3次元に積層すればチップ間の接続距離を桁違いに短くできるからです。


指数関数の驚異を私たちは直観できない

池の鯉を世話する老人がいました。十分な酸素が水中に届くように、時折蓮の葉を摘み取って池を守っていました。蓮の葉はそれほど急に増えるものではないので、まあ大丈夫だろうと1週間ほど留守にすると、池はすっかり蓮の葉に覆いつくされていました。

この話は、指数関数の特徴をよく表しています。(そしてコロナ感染数の増大もこれと同じです。)

私たちの直観は、変化する事象を直線近似に捉えます。太古の昔、ジャングルの中で猛獣(等速運動)から身を守るために獲得し、DNAに刻まれた感覚です。現代社会になっても、これまでの変化を直線で外挿して未来を予測することは多いです。

しかし、チップが創る世界は指数関数で成長します。AIもその一つです。AIが突然この世に現れ、直後には空高く舞い上がるように急成長する理由は、ここにあります。

チップが生み出すデータも指数関数的に急増しています。インターネットの通信量は、年率4倍で急増しています(Gilder's Law)。

21世紀後半には、全人類の脳のニューロンの総数に匹敵するトランジスタが一つのチップに集積できるかもしれません。さらに世界中のチップが無線接続されて巨大な頭脳が地上に出現することも、夢物語ではありません。

集積回路の発明からわずか100年の間に、世界は劇的に変化しています。

スケーリングシナリオの参照図
図:テクノロジが指数関数的に成長しても人はリニアに直観するので変革は予想より早く訪れる
Chapter -4-

2Dから3Dへ

集積回路の次の半世紀

MORE CLOSE

2020.04.26

大規模システムの接続問題

集積回路(チップ)の発明の背景には、大規模システムの接続問題がありました。

1946年に開発された電子計算機ENIACには、手作業による接続が500万箇所もありました。システムが大規模になると、接続数が幾何級数的に増加します。

この問題は、Tyranny of Numbers(数の暴威)と呼ばれ、さまざまな角度から対応策が検討されましたが、その中から生まれた決定的な解が集積回路でした。

それ以来、チップが「ムーアの法則」で指数関数的な成長を遂げ、それと歩調を合わせてコンピュータの性能も飛躍的に向上しました。

しかし、メモリとプロセッサの間を大量のデータが移動するために、チップ間の通信がエネルギー効率を低下させる要因となりました。いわゆるフォン・ノイマン・ボトルネックです。

さらにデータの急増も相まって、「エネルギー効率の改善なくしてコンピュータの性能改善なし」という状況になり、それは現在も続いています。


CMOS回路の消費エネルギーは、負荷容量に比例します。演算回路の負荷容量は、デバイスの微細化で小さくできます。

しかし、データの移動では通信路に沿った全容量を充放電しなければなりませんから、デバイスを微細化しても通信距離が変わらなければ消費エネルギーを低減できません。

演算よりもデータの移動がはるかに大きなエネルギーを消費します。

たとえば64ビットのデータを演算するのに比べて、そのデータをチップの端まで移動するのに50倍のエネルギーが必要になり、さらにチップの外にあるDRAMに移動するのに200倍のエネルギーが必要になります。


チップ間の通信が大きなエネルギーを消費するようになったもう一つ理由は、転送速度を強引に高速化したからです。その背景には、通信チャネルをチップの周辺にしか配置できないので、その数を増やせないことがあります。

まず、チップの演算性能は年率70%ずつ向上します。トランジスタが15%高速になり機能の集積度が49%増加した結果です。

チップの性能が高くなった分チップに出入りする信号の速度も高速にしなければ、高くなった性能を生かすことができません。

論理規模の拡大に応じて入出力の端子数をどれだけ増加させる必要があるかについての経験則である「レンツの法則」から類推すると、チップ間の信号転送を年率44%で高速化することが求められます。

しかし、デバイスのスケーリングでは、チップ間の通信速度を年率28%しか高速化できません。トランジスタは15%高速になるのですが、信号はチップの周辺からしか出入りできないので機能の集積度を11%しか増大できないからです。

仮にチップの全面に信号チャネルを配置しても、回路基板が十分な多層構造でなければチップの周辺で配線が込み合うので、チップの全面を利用するのは困難です。

このギャップを埋めるために、通信チャネルを高速化する回路技術を駆使してきました。しかし、一般にも言えることですが、トランジスタの性能限界まで強引に性能を引き出そうとすると大きなエネルギーが必要になります。

チップ間通信に必要なエネルギーは、130nm世代(2000年)頃から増加に転じています。そしてこれ以上の高速化はそろそろ限界に近づいています。


以上の議論からお分かりのとおり、コンピュータのエネルギー効率を高める方策は、メモリとプロセッサの接続距離を短くして、かつ、接続数を増やし無理のない速度で信号転送することです。

つまり、チップを積み重ねて短距離に接続し、面全体を使って程よい速度で通信すべきです。チップが2D(平面)から3D(立体)に進化する理由がここにあります。

チップ内での集積のみに頼ることができなくなり、2Dから3Dへとチップが進化する現在において、一段と画期的な「接続問題の解」が求められています。


シリコン貫通電極と磁界結合通信

そこで、チップを積層して垂直方向に配線接続するシリコン貫通電極 (TSV; Through Silicon Via)の研究開発が1990年代に始まりました。以前はチップの表面から数ミクロン以内を加工していたのに対して、今回は数10ミクロンを加工するのですから、容易ではありません。

加えて、半田接続の微細化がとても困難でした。また、材料の熱膨張係数の違いから生じる応力も信頼性の問題も生じました。

TSVは、いまだにコストが高く信頼性が低いです。既に四半世紀が経った今でも、解決の道が見えていません。

この問題を解決したのが、磁界結合通信(TCI; ThruChip Interface)でした。これはチップの配線でコイルを巻き、デジタル信号に応じてコイルを流れる電流の向きを変えて磁界の向きを変化させ、他のチップでコイルに生じる信号の極性を検知してデジタル信号に戻す方式です。つまり、コイル間の磁界結合でチップ間通信を行うものです。

半導体チップに用いられる材料はいずれも透磁率が1なので、磁界はチップをきれいに貫通できます。また、電界効果を利用するCMOS回路と干渉する心配がありません。

そして、TSVがパッケージ組立工程で機械式に接続するのに対して、TCIはウェハー工程で標準CMOS回路で電子式に接続する点が最大の特長です。

TCIは、チップの製造プロセスを変えずにデジタル回路技術で実現できるので、誰でも安く実現できます。TSVだとDRAMの値段が1.5倍以上高くなりますが、TCIなら値段を1.1倍以下に抑えることができます。

さらに、チップを薄くするほどTCIの性能コスト比を指数関数的に改善できます。

たとえば、チップを1/2に微細化し、加えてチップの厚さを1/2に薄化すれば、TCIのデータ転送速度を8倍に高め、エネルギー消費を1/8に低減できます。

ただし、TCIは電源を接続できません。電源接続はTSVで行い、信号接続はTCIで行うのが現実的です。それならば信号接続もTSVでいいではないかと疑問に思われるでしょうが、実はTSVの不良はオープン不良です。したがって、冗長にし難い信号線には使いにくいですが、もともと超並列に接続されている電源線には問題なく使えます。

TSVに代えて、高濃度の不純物領域で電源接続を行う新技術(HDSV; Highly Doped Silicon Via)の研究開発も始まっています。

このようにチップが2Dから3Dに進化することで、チップのエネルギー効率は高くなります。しかし、複数のチップを積層すると電力密度は高くなるので、電力効率をさらに改善しなければ放熱できなくなります。


2Dから3Dへの参照図
図:メモリやプロセッサをパッケージ内で3D実装することでエネルギー効率を高くできる

不連続な技術を生かせる時代

研究と実用の間に横たる死の谷。不連続な技術(disruptive technology)はこの死の谷を越えることがなかなかできません。

接続技術は、接続される両者の了解が必要になります。

プロセッサの会社に行ってTCIを紹介すると、身を乗り出して話を聞いてもらった後に、メモリにはいつTCIが搭載されるのかを尋ねられます。

そこでメモリ会社に行き、プロセッサの会社がTCIに強い興味を示していることを伝えると、席に深く腰掛けたまま、大口の客がみんな使うと言わなければ大幅な変更を伴う新技術の導入は難しいと渋い顔をされます。メモリビジネスは汎用品ビジネスなので、このようにいつも保守的です。

これでチキン・アンド・エッグ・プロブレムの迷宮から抜け出せなくなります。

しかし、エネルギー効率の改善なくしてコンピュータの性能改善なしという状況に追い込まれ、そこから脱するためには2Dから3Dへと集積回路の新たな時代の扉を開かざるを得なくなりました。不連続な技術(革新的技術と呼びたい)にとっては、チャンス到来です。

それでもメモリ会社を動かすのは容易でなないので、まずはSRAMを積層してDRAMに匹敵する大容量を実現し、プロセッサと接続することから始めるのが良いと考えています。SRAMはプロセッサの会社が開発できるので、単独で決断できるからです。そしてDRAMのスケーリングがそろそろ止まりそうだからです。

Chapter -5-

脳をインターネットに接続する

Internet of Brains

MORE CLOSE

2020.04.26

ケンブリッジで見た神秘的な光景

2019年。ケンブリッジの春は遅い。5月というのに人々は厚手のコートを<はお>っている。

夕暮れになるとハーバード大学のキャンパスの美しさは一層際立ちます。新緑の芝生を歩く学生の姿がまばらになり、やがて学生寮から橙色<トウショク>の灯りが漏れてくる。暗闇迫るキャンパスに歴史の<とばり>が下ります。

この灯りの下で、人類が蓄えてきた学問が継承され、そして新たな知が生み出される。灯りに誘われるように、ここで学びたいという衝動に駆られました。老眼で本を読むのも一苦労なのに、留年を繰り返しながらも生涯学び続けることができたら人生はきっと豊かになるでしょう。

しかし、そんなことが許されたならばキャンパスは老人で溢れ出します。ああ、もう少し若くしてこの地を訪ねることがあったならば…そんな感傷に浸りました。

翌日はAIチップの研究打合せです。午前はMITに午後はハーバード大学に行きます。地下鉄レッドラインに乗れば、チャールズホテルの近くのハーバードスクエア駅からMITのメディアラボがあるケンドールスクエア駅まではほんの15分。しかし、その日はふと歩いてみたくなりました。

チャールズ川は見えません。映画『ソーシャル・ネットワーク』の中で見たレガッタのシーンを思い浮かべながら、そぞろ歩き出しました。

しかし予感は外れて、街角に面白いものは見つかりません。小一時間も歩くと疲れてしまい、ついにメイン通りとバッサー通りの交差点で立ち止まってしまいました。


そのとき、突然、神秘的な絵が私の目に飛び込んできました。

それは、窓ガラスが青く反射する近代的なビルの玄関ロビーに設置された大型ディスプレイに映し出されていました。ビルには“MITマクガヴァン脳研究所”と書かれています。

<ねじ>れた大木を<かたど>ったモニュメントを見上げながらビルに入り、柔らかいソファーに身体を沈めました。ロビーの奥にはセキュリティーゲートがあります。若い研究者たちが片手にスマホやコーヒーを持って慌しく出入りしています。

世界中から集まった秀才たち。瞳には英気と自信が満ち溢れています。世界最先端の研究をしている人たちの共通の雰囲気です。

100インチのディスプレイに研究を紹介するスライドショーが映っていました。


あっ、これだ!

私をここに惹きつけた神秘的な絵が映し出されました。

天体写真にも抽象絵画にも見えます。暗闇の中に虹色<ナナイロ>に輝く無数の縮れた糸が小宇宙を紡ぎ出しています。そこに向かって手前からまるで精子が隊列を組んで<まさ>に突入するかのようです。

『脳の新しい映像』というタイトルを見て、この図が脳の神経網であることを知りました。視点を3次元に自在に変えて観ることができる脳の設計図です。

「ボイデン研究室は脳細胞の内部のタンパク質やRNAを映し出す技術を開発した」。

そしてスライドが変わります。今度は青く光るプレパラートを手にした科学者が現れます。タイトルは「膨張顕微鏡法」。


脳をインターネットに接続するの参照図
図:写真撮影:McGovern Institute for Brain Research at MIT in 2017

膨張顕微鏡法とその逆の方法

膨張顕微鏡法?

細胞や組織を大きくすることができると言うのだろうか?不思議の国のアリス症候群?

「膨張顕微鏡」をスマホでググると、Nature ダイジェスト2015年 Vol. 12 No. 4に『脳を膨らませてナノスケールの細部を観察』という文献が見つかりました。

リード文を読む。「紙おむつの吸収体に利用される材料を使って脳組織を膨張させることにより、一般的な光学顕微鏡を使って、わずか60ナノメートルの特徴まで解像することができた。」

その詳しい方法は本文に書いてありました。最初に、脳組織の特定のタンパク質に蛍光分子タグを付けます。次に、アクリル酸塩モノマーを脳組織に浸透させて蛍光分子タグと結合させます。このモノマーの重合反応を開始させると、脳組織内でアクリル酸塩ポリマー(重合体)の網目状構造ができます。

脳組織のタンパク質を分解した後に、残ったアクリル酸塩ポリマーに水を加えます。すると、おむつのように水を吸って膨張し、網目状構造に結合している蛍光タグの間隔があらゆる方向に正確に広がっていきます。その結果、最初は光学顕微鏡では識別できないほど近接していた蛍光タグがはっきり分かれて見えるようになります。

つまり、脳組織のタンパク質の位置を紙おむつにコピーし、水を加えて膨張させた後に光学顕微鏡で観察したのです。その映像をコンピュータグラフィックスで色鮮やかな3次元の図に仕上げたのが目の前の虹色の絵でした。見事な可視化です。

スライドショーでエド・ボイデン教授は問います。「脳をもっと良く見たいなら、君はどうする?科学者を小さくするか、脳の組織を拡大するよね。」

もちろんボイデン教授は後者を選びました。


私なら科学者を小さくする!

ここから私の妄想が始まります。100ミクロンメートル四方のチップに100万個のイメージセンサを集積した小さな顕微鏡を作ります。一つのセンサの大きさは100ナノメートル四方です。

そのチップを脳組織の中に運ぶことができれば、至近距離で60ナノメートルの特徴を見分けることができないだろうか。たくさんのチップが捕らえた映像データを無線通信で集めて解析すれば、全体像を再構築できないだろうか。乱雑な妄想は果てしなく続き、時間も疲れも忘れてしまいました。

私は当時、国立研究開発法人科学技術振興機構(JST)のACCELプロジェクトに取り組んでいました。当初はコンピュータの電力効率を改善することが研究のテーマでしたが、やがてAIブームが起こり、私もモバイル人工知能“eBrains”を作りたいと考えるようになりました。

極小チップを脳に埋め込めば、脳をインターネットに接続できる。だからモノのインターネットIoT(Internet of Things)の次は、脳のインターネットIoB(Internet of Brains)を実現できる。脳の次は細胞のインターネット、IoC(Internet of Cells)か。

いや、その前に、人に装着したセンサやアクチュエータを脳と繋ぐ、人のイントラネットが先決だろう。脳や身体に溶け込んだコンピュータは、人の感覚や免疫を拡張し、高齢者の社会生活を支援するだろう。

私もそんな夢物語を考えるようになっていました。


脳がインターネットにつながったら

脳とコンピュータはつながりが深い。

脳は社会を作り、心を生み出しました。人は自分の意図を知りそれを伝えるために言語と論理を獲得しました。

人はさらに認知能力を拡張する道具として数学を創りました。それはやがて脳に宿り、高度な抽象化によって身体をそぎ落とした果てに、脳から溢れ出しました。コンピュータの誕生です。

津田一郎博士が意識の普遍性を「心はすべて数学である」と表現したように、あるいは森田真生氏が『数学する身体』で描き出したように、抽象化の先に産み落とされたのがコンピュータであり人工知能です。

左右の脳を持つeBrainsを作ったら、人の脳と同様に、画像と音声が右脳で認識された後に、左脳の連合野で言葉に抽象化されるのでしょうか?

脳がインターネットに繋がったら、マット・リドレーが『繁栄』で述べるように、結びついている人口が多いほどイノベーションが起きる確率が高まり、アイデアの生殖が地球上を覆うのでしょうか?

そして、マービン・ミンスキー博士が唱えたように、エージェントの集合は『心の社会』を生み出すのでしょうか?言葉の先に意識が生まれ、芸術が生まれ、コンピュータは人と同じような進化を遂げるのでしょうか?

(それとも養老孟司先生に『バカ』と一笑に付されるのでしょうか?)

Chapter -6-

ポストコロナ時代の半導体

産業のコメから社会のコメへ

MORE CLOSE

2020.04.27

膨大なエネルギーを消費するリモート社会

アメリカの友人は、森の中に家を建ててリモートワークをしています。EDA(電子設計自動化)ツールの開発が仕事なので、コンピュータとインターネットがあればどこでも仕事ができるのだろう、そう思っていました。ところが…

コロナウィルスはリモート社会の扉を開きました。オンライン会議は思ったよりも使えることが分かり、3人以上で相談をするのに便利です。

3000人が集まる国際会議もオンラインになりました。

2005年に京都で開催した国際シンポジウムの夕食会で、私はプログラム委員長として次のように挨拶をしました。

「みなさん、想像してみてください。将来、私たちはインターネットで国際会議を開くことになるかも知れません。研究発表もパネルディスカションも廊下での立ち話もオンラインです。皆さんはご自宅から参加できます。バンケットも?…ピザを宅配で取り寄せ、ビールを冷蔵庫から出して…それはちょっと味気ないですよね。今晩は京都の料理とお酒を堪能し、旧友との心交わる会話をお楽しみください。乾杯!」

今、国際会議の主催者は、まさにパンドラの箱が空いたと心配顔です。オンライン飲み会まで登場したのですから。


デジタルトランスフォーメーションやデータ駆動型サービスを支えるのは、ビッグデータの急増とAI処理の高度化です。そしてこのことが社会のエネルギー消費を爆発的に増大します。

2030年には、現在の総電力の倍近い電力をIT関連機器だけで消費するだろうと予測されています。さらに2050年には、現在の約200倍の総電力消費量になるだろうとの予測もあります。

その理由の一つは通信データの急増です。IPトラフィックが、2016年には年間4.7 ZBでしたが、2030年には4倍の17 ZBに増え、2050年には4000倍の20,200 ZBに増えるというのです。

加えてAI処理が高度になります。データに隠された意味を理解し、それをサービスに転化して社会に役立てるために、膨大な計算が必要です。

つまり、通信機器やコンピュータのエネルギー効率を桁違いに改善しないと、社会の持続可能な成長は望めません。

消費エネルギーの急増の原因は半導体にあります。そしてその解決も半導体が握ります。


半導体が産業のコメから社会のコメへ

2019年に世界で1.9兆個の半導体チップが生産されました。

その市場内訳は、製造業が15%、ヘルスケアが15%、保険が11%、銀行・証券が10%、卸売・小売が8%、コンピュータが8%、政府が7%、交通が6%、公共事業が5%、不動産・業務サービスが4%、農業が4%、通信が3%、その他が4%です。

驚いた方もいらっしゃると思いますが、通信はまだ市場が小さいのです。

一方で、次世代半導体(5nm世代)の需要をけん引するのは次世代通信「5G」です。

5Gやbeyond 5Gでは高い周波数が使われます。周波数が高くなるほど、電波は直進性が強くなり、かつ遠くまで届きません。したがって、より多くの基地局が必要になります。

また、低遅延で高度なサービスが期待されます。つまり高性能なデータ処理が基地局に求められます。5Gが次世代半導体を牽引する理由はここにあります。


今後は、モノのインターネット(IoT)、遠隔医療などのデジタル医療・ヘルスケア、モビリティを加えたサービスが半導体の大きな市場を形成するでしょう。これらは社会の神経系です。

つまり、半導体は産業のコメから社会のコメへと発展します。半導体はまさにグローバルコモンズ(国際公共財)なのです。


社会のエネルギー問題を解決するには、半導体のエネルギー効率を高めるしかありません。専用チップを使うことで汎用チップに比べて2桁程度電力効率を高めることができます。

しかし専用チップは開発コストが高く、誰でも作れるわけではありません。

そこで専用チップの開発コストを1/10にして、システムのアイデアを持つ人が誰でも専用チップを設計できるようにし、さらに最先端の半導体技術を用いてエネルギー消費を1/10に低くすることがd.labの目標です。

半導体が産業のコメから社会のコメへと発展するために、産業構造も過去半世紀の資本集約型産業から次の半世紀は知識集約型産業へと変革しなければなりません。


デジタル文明をつくるには

『サピエンス全史』を著したユヴァル・ノア・ハラリ氏は、テクノロジーが生身のスパイ代わりとなり、「皮膚の下の情報」も筒抜けになったと警鐘を鳴らします。

コロナウェルス感染拡大防止の中で、監視社会が形成されつつあります。テクノロジーが社会に与える影響が極めて大きくなりました。私たちの文明がどうなるのか?まさに瀬戸際にいるとの意見も聞かれます。

知恵があれば、テクノロジーがそれを実装できます。つまり、セキュリティやプライバシーを脅かすのも半導体であれば、これを解決するのも半導体です。

しかし、高度なセキュリティやプライバシー保護は、当然、半導体のエネルギー消費を増やします。つまり結局は、半導体のエネルギー問題に帰着するのです。

そしてその先には、「心」の問題があります。

デジタルは論理を扱うことに長けていますが、感性はアナログです。デジタルで人を幸せにすることの追究がこれから始まるでしょう。

五感とデジタルを相互変換するセンサーとアクチュエータ、感覚をフィードバックする制御技術、価値を交換する工学、テクノロジーが社会を危険にしない法体系、こうした議論なくして、「脳をインターネットに繋げる」ことを推し進めるわけにはいきません。

太古の昔、脳は社会を作り、心を生み出しました。人は自分の意図を知りそれを伝える言語と、論理的思考で認知能力を拡張する数学を獲得しました。数学は、やがて主観的な直感を超越した抽象的な記号体系に昇華し、ついに脳から溢れ出してコンピュータが誕生しました。コンピュータはチップを生み、チップはスケーリングによって指数関数的に成長し、コンピュータをダウンサイジングしました。そしてついに極小になったコンピュータが再び我々の身体の中に戻ろうとしているのです。

ポストコロナ時代の半導体の参照図
図:チップの電力効率は20年間に3桁改善した、2030年には脳の電力効率に迫る
Chapter -7-

アジャイル開発

AI時代のチップ開発法

MORE CLOSE

2020.05.11

ウォーターフォール型からアジャイル型へ

アジャイル(Agile)とは、「素早い」「機敏」という意味です。

システムやソフトウェアの開発は、 従来ウォーターフォールモデルが主流でした。最初に仕様と計画を決定し、計画に従ってトップダウンに開発・実装していく手法です。前の工程には戻らない前提なので、下流から上流へは戻らない水の流れにたとえてウォーターフォールと呼びます。

これと逆のアプローチ、つまり小さな単位で実装とテストを繰り返して開発を進めるボトムアップの手法がアジャイル開発です。2001年に新たな手法として登場しました。ウォーターフォールに比べて開発期間を短縮できることが多く、アジャイルと呼ばれています。

開発途中でも仕様の変更や追加が可能な点もアジャイル開発のメリットです。一方で、開発の方向性がブレやすい、全体像を把握しにくくスケジュール管理が難しい、というデメリットもあります。

開発途中に仕様や設計の変更は当然あり得るという前提に立てば、計画段階で厳密な仕様を決めるのではなく大体の仕様だけを決めておき、途中で変更があった場合に臨機応変に対処できる柔軟性(resilience)を備えた方が顧客のニーズに応えることができます。

大体の仕様と計画を決めたら、システムを小さな単位に分けて、「計画」「設計」「実装」「テスト」を行いながら、1〜4週間程度の期間内で機能のリリースを繰り返します。


一方、チップの設計はトップダウンです。

文章と図で著された仕様書をVerilogなどのハードウェア記述言語で書き、さらに処理手順をクロックサイクルごとに分解したRTL(レジスタ転送レベル)記述に書き下します。そして、論理設計、回路設計、レイアウト設計を経て、最終的にはフォトマスクの幾何学的模様を描きます。このようにチップの設計は、抽象度を順次下げていく変換作業です。

チップのユーザーであるセットメーカがRTLまでを設計し(フロント・エンド設計)、半導体設計会社が論理設計以下(バック・エンド設計)を行う分業体制ができています。


アジャイル開発の参照図
図:ソフトウェアを書くようにセットメーカーがチップをアジャイルに開発する

設計効率を上げるためにコンピュータを利用した自動設計が、情報量の格段に多い下流から順次導入されてきました。1970年代にマスク設計、1980年代にレイアウト設計、1990年代に論理設計が自動化されました。システム設計を自動化する高位合成も1990年頃から研究が始まり2010年頃から一部で実用が始まっています。

しかし、システム設計の効率を上げる一般的な方法は、RTLの再利用です。プロセッサコアやメモリコントローラのような汎用の機能は、設計資産(IP)として流通しています。また、専用回路のRTLもスクラッチから作るのではなく、過去に設計したRTLを再利用して組み上げます。

それでも最近の大規模なチップ、たとえばアップルのプロセッサA12には69億個のトランジスタが集積されていますが、こうしたチップの開発には数百人のエンジニアを配しても数年の歳月を要します。そして開発費は数100億円にも及びます。

集積度は指数関数的に増大しています。従来の開発方法はそろそろ限界です。

加えて、AIが登場しました。AIは日進月歩で進化しており、去年の技術は見劣りします。年単位の期間と数百億円の費用を要するチップ開発はリスクが高すぎます。


チップのアジャイル開発

私たちは、チップのユーザーが行うシステム設計・検証にもアジャイル開発の手法を適用できると考えています。

システムを小さな単位に分けてC/C++やPythonで記述した後に、高位合成ツールでRTLを自動生成しながら、ボトムアップにシステムを組み上げるのです。

ソフトウェアを書くようにチップをアジャイル開発できるので、セットメーカの開発期間と費用を大幅に短縮でき、開発リスクを軽減できます。

高位合成ツールは、回路性能とレイアウト面積を変えたさまざまなRTLを一瞬に生成できます。これを用いて性能と面積のトレードオフを探索しながら最適なRTLを設計し、次にFPGAに実装したりあるいはASIC用のシミュレータでテストしながら、短期間で機能のリリースを繰り返すことができます。

従来の手法では、設計者が仕様を深く理解した上でブロック図を描き、各ブロックの性能や信号接続の混雑度などを綿密に計算してから設計に着手していました。しかし設計の初期段階で性能や面積を見積もることは難しく、勘と経験に頼ることになります。そしてなにより、システムが複雑になると人手に負えなくなります。

アジャイルな開発手法では、小さな単位に分けた機能ブロックをコンピュータが自動設計と検証を繰り返しながらリリースしていきます。

リリースされた機能ブロックをボトムアップに組み上げていくのもコンピュータで自動化できます。高位合成を用いれば、各機能ブロックに分散して制御機構を持たせることができるので、機能ブロックを接続して全体の制御を組み上げることができるからです。

つまり、ソフトウェアの並列分散プログラムのように、機能ブロックを組み上げて大規模なチップを作ることができます。


C/C++やPythonで記述すると、RTL記述に比べて行数を1/100に短縮できます。したがって設計者が検討やシミュレーションをするのに要する労力や時間を桁違いに短縮できます。

高位記述では回路構造をパラメータで表現できるので、より幅広い実装ができると共に、実装範囲、つまり機能、性能、インターフェースプロトコルの設定幅を予め把握できます。

加えて、設計記述と双対する検証モデルを一緒に用意しておけば、変更範囲の確認が容易になるだけでなく、設計と同時に検証環境を効率的に組み上げることができます。つまり、設計と検証の両輪に跨ったアジャイル開発ができます。


この手法では、専用の制御回路で機能ブロックを接続するので、エネルギー効率を高くできます。IPをCPUバスに接続してCPUが中央制御する従来の方法では、5G(通信)やH.265(動画圧縮)やWPA2 (暗号)のような複雑な処理に対して高い性能を引き出すことができません。

また、従来手法では別のプロジェクトでも再利用するつもりでRTLを設計するので、必用以上に高性能な回路を設計しがちですが、高位合成を用いるとプロジェクト毎に最適な性能と面積の回路をその都度自動生成できます。


Divide and Conquer

U.C. BerkeleyのCADの授業で最初に学んだのはDivide and Conquerでした。複雑な問題でも、同様の小さな問題に分割しそれぞれを解決した上で組み合わせれば、解決策を導けるという考え方です。コンピュータアルゴリズムの多くがこの思想で設計されています。

問題の分割、解法、結果の組合せは、再帰的手法で行います。その結果、計算時間が飛躍的に短縮されます。

たとえば、並び替えのアルゴリズムの計算オーダーを比べると、バブルソートがO(n2)であるのに対して、Divide and Conquerを用いたクイックソートはO(nlog2n)に計算時間を短縮できます。nが1,000のとき1,000,000が9,966になるのですから1/100に短縮できます。検索でも、リニアサーチのO(n)からバイナリーサーチのO(log2n)に時間短縮できます。

AI時代に求められるのは素早い試行錯誤です。大量のデータをAIで分析してモデルを見つけ、そのモデルを素早く実装してさらにデータを集めて分析し、改善を繰り返す。こうした試行錯誤を手際よく行うことが肝要です。

アジャイルと大規模設計、この背反する制約下でAI時代に合ったチップ開発法を創出しなければなりません。

アジャイル開発においてもデータ収集においても中国から学ぶところが多くなりました。そう言えば、中国からの留学生がよく私に「先生、念入りに準備しすぎよ」と言っていたのを思い出します。

Chapter -8-

シリコンコンパイラー

ソフトウェアを書くようにチップを作る

MORE CLOSE

2020.06.03

シリコンコンパイラー 1.0

コンパイラーは、ソースコードをオブジェクトコードに変換するソフトウェアです。ソースコードは人間の言葉に近い高級言語で記述されているので、そのままではコンピュータが理解できません。そこで、コンパイラーを使って機械語のオブジェクトコード、つまり実行バイナリに変換します。

同様に、ハードウェアの仕様をシリコンチップに変換するソフトウェアをシリコンコンパイラーと呼びます。たとえばハードウェア記述言語のVerilogをフォトマスク製造言語のGDS-IIに変換します。


1979年にカリフォルニア工科大学のDave Johannsenが “Bristle Blocks: A Silicon Compiler” という論文を発表しました。Carver MeadとLynn ConwayがVLSI設計の教科書 “Introduction to VLSI Systems”(私たちはこの教科書に魅了されてVLSIの世界に身を投じました)を著した年ですから、シリコンコンパイラーはごく自然な発想だったのでしょう。

Johannsenの指導教授はMeadでした(備考)。Mead は1982年に“Silicon compilers and foundries will usher in user-designed VLSI”と題する論文の中で、シリコンコンパイラーとファウンドリーで専用チップを作る時代を予見しています。

Johannsenは、1981年にEdmund ChengとSilicon Compilers Inc.を創設しました。同社のGENESISを使うと、メニューを選択しながら従来の1/5程度の短期間でチップを設計することができました。DEC社はそれをMicroVAXというミニコンの開発に用いたそうです。

しかし、それ以外には大きな成功を収めることはなく、同社はやがて身売りされました。Seattle Silicon Technologyという会社もシリコンコンパイラーを開発していましたが成功しませんでした。


備考:
JohannsenがMeadの80歳の誕生日を祝う師弟愛溢れるスピーチの録画があります。 https://www.youtube.com/watch?v=9kz1ZWO1Dr8
この中でレイアウトの配色に気を付けろという逸話が語られています。Meadの教科書を使ったアメリカでは、赤はPoly Siゲートでした。しかし私が勤めた東芝では、赤はAl配線だったのでとても混乱しました。

シリコンコンパイラーは、今日もまだ実用化されていません。なぜでしょうか。

ソフトウェアはバグがあっても後でパッチを当てて修復できますが、ハードウェアは直ちに修正しなければいけません。また、ソフトウェアの性能はハードウェアと共に進化すると考えますが、ハードウェアの性能は完成時に仕様を満たすべきだと考えます。つまり、ハードウェアはソフトウェアよりはるかに設計が難しく(hard)、開発リスクが高いのです。

ワンクリックでコンパイルすることは、ソフトウェアの世界では当たり前でもハードウェアの世界では夢物語です。チップ設計ツールの大手であるCadence やSynopsysもCompilerと名付けたツールを開発していますが、それは熟練した技術者が使うツールです。ソフトウェアを書くようにチップを作ることは夢のまた夢でした。


シリコンコンパイラー 2.0

最近シリコンコンパイラーに対する期待が再び高まっています。その理由は以前とは異なります。

設計はPPA(Power、Performance、Area)の最適化です。かつてはArea、つまりチップのコストが最優先でした。やがてPerformance、つまりチップの動作速度が重要になり、そして現在ではPowerが最優先です。なぜなら、チップの電力が上限に達しているので、電力効率を高めた者がその分だけチップの性能を引き出せるからです。つまりチップの性能は電力効率で決まります。

何でもできる汎用チップに比べて無駄な回路を削ぎ落した専用チップは、電力効率を桁違いに高くできます。しかし専用チップの生産量は汎用チップに比べてとても小さいので、開発費がチップコストに大きく計上されます。

チップの設計技術はムーアの法則に追い付かず、開発費は近年急増しており100億円にも達する勢いです。仮に開発費が100億円で製造費が1個1,000円のチップを1000万個製造する場合、チップコストの半分は開発費になります。つまり、開発費を1/10にできれば、Areaが1.5倍になっても、20%コストダウンできるのです。

かつては開発費が十分に小さかったのでAreaが最優先されましたが、現在は開発費が急増しているのでその低減が求められています。また、費用だけでなく開発時間の短縮も、技術の変化が早い現代ではリスクの低減につながるので必要です。


Powerを桁違いに削減できるASICをPerformanceやAreaが多少悪くてもコンパイラーで低コスト・短時間に開発できれば、利益を出せるのです。そしてチップの開発数が増えれば、相乗り試作サービス(MPW:Multi-Project Wafer)を利用して、10億円もするマスク代を1,000万円に抑えることも可能です。

さらに高位合成と組み合わせれば、Cでチップを記述できます。チップ設計者のコミュニティーがソフトウェアの設計者のように拡大します。ハードウェアの世界にもオープンソースのビジネスが根付けば、ビジネスエコシステムのネットワークが重層的に拡大発展して、マスコラボレーションも可能になるでしょう。そうなれば、まさにソフトウェアを書くようにチップを作ることができます。


d.labは、高位合成でCからVerilogを合成し、3D-FPGAでシステム設計・検証を行った後に、VerilogからGDS-IIをコンパイルしてASICを開発する設計プラットフォームを研究開発します。

私たちの目標は、シリコン技術の民主化(Democratize access to silicon technology)です。システム開発者が直ちにASICを作れることが目標です。そのために、シリコンコンパイラーで開発効率を10倍高め、ソフトウェアを書くようにチップを作ることを目指します。


グラフ
図:シリコンコンパイラーでソフトウェアを書くように専用チップを作る

ルネサンス

1986年。私は東芝でSilicon Compilers Inc.との協業を探っていました。その仕事で出会ったのがTom Hoです。後に私の無二の親友となる人物です。

Tomはマカオからカリフォルニアに移住してU.C. Berkeleyを卒業しました。インテルで80286の設計主任を務めた後に、Edmundの誘いでSilicon Compilers Inc.に入ったのです。私たちが出会ったとき、彼は31歳で私は27歳でした。

サンノゼのモーテルで、私たちはノートに回路図を書きながら、時が経つのも忘れて回路の議論をしました。SRAMのセンスアンプには入出力を短絡したインバータがベストだとTomから教わりました。私が後に1991年に発表したABC(Automated Bias Control)回路は、このときの議論がきっかけとなりやがてアイデアとして結実したものです。

Tomに回路はどこで習ったのかと聞くと、U.C. Berkeleyの授業でCarlo Séquinに教わったと答えました。そこで、私がバークレーに行きたいと言うと、彼はGENESISの分厚いマニュアルを携えながら、片道1.5時間かけて私をバークレーまで連れて行ってくれました。


1989年に私はU.C. Berkeleyに留学しました。そのときのホストがDavid PattersonとRISC-Iを開発したSéquinでした。U.C. Berkeleyは、1970年代にDonald Pedersonが回路シミュレータのSPICEを開発し、1980年代はRichard NewtonやAlberto Sangiovanni-VincentelliやRobert Braytonが自動レイアウトや論理合成の研究を牽引していました。Cadence やSynopsysといった会社も次々と誕生して、実に華やかな時代でした。2000年頃からEDAの市場は徐々に飽和状態となり、技術進歩もゆるやかになりました。


最近、U.C. Berkeley で学生がRISC-VをChiselで書き1か月毎にテープアウトを繰り返している話をよく聞きます。私はEDAのルネサンスの香りを感じています。

Tom、シリコンコンパイラーをもう一度やらないか!

Chapter -9-

同期と非同期

チップのリズム

MORE CLOSE

2020.06.10

チップの同期設計

半世紀前、クロックを用いて回路のタイミングを揃える同期設計と、そうしない非同期設計の是非が議論されていました。

カリフォルニア工科大学では次のような実験が行われました。一般の学生にはチップを同期設計する課題を与え、成績優秀者には同じチップを非同期で設計するように指示したのです。その結果、同期設計の方は多くのチップが正しく動作しましたが、非同期設計の方は正しく動作しませんでした。非同期設計で何が起きたのでしょうか?


論理回路には、入力が決まると出力が一意に決まる組合せ論理回路と、入力が同じでも状態によって出力が変わる順序論理回路があります。計算はいつも答えが同じなので組合せ論理回路を使いますが、制御は状態によって動作を変える必要があるので順序論理回路を用います。

状態は遷移します。たとえば2ビットで表現される状態{S1, S2}が{0,1}の状態から{1,0}の状態に遷移する際に、意図しない{0,0}や{1,1}の状態を一瞬経由します。なぜならS1とS2は違う回路の出力だから、あるいは全く同じ回路の出力だとしても回路の素子には製造ばらつきがあるので、両者のタイミングを揃えることは困難だからです。

この一瞬のためらい(ダイナミックハザード)は、計算では最終的に正しい答えを導くので問題になりませんが、制御では誤動作の原因になります。ためらった瞬間にデータが到着すると制御を誤るからです。

そこで、ちょうど交通信号機が青になると一斉にクルマが発進するように、早く到着したデータも遅く到着したデータも一旦待たせて、クロックが変化した瞬間にデータを一斉に出力すれば、クロックの周期(サイクル)毎にタイミングを揃えることができます。


データは2つのインバータで輪を作れば保持できます。たとえば1つ目のインバータにLが入力するとその出力はHになり、2つ目のインバータでHがLになって、1つ目のインバータの入力にLを戻すからです。

クロックで開閉するスイッチをこの輪に挟み、クロックがLのときは輪が閉じてデータを保持し、クロックがHのときは輪が開いてデータを通過させるようにします。この回路をラッチと言います。掛け金のようにデータをひっかけることができるからです。

ラッチを2つ繋げて前のラッチに逆相のクロックを与えた回路をフリップフロップと言います。クロックがLのときは、前段のラッチがデータを通過させ後段のラッチは以前のデータを保持していますが、クロックがHに変化すると、前段のラッチはその時点のデータを保持して後段のラッチがそのデータを通過させるので、この瞬間にデータが一斉にフリップフロップから出力されます。

ちなみに、クロックがHからLに変化するときは、前段のラッチが次のデータを通過させますが後段のラッチがそれよりも一瞬早く現在のデータを保持しますから、フリップフロップの出力には現在のデータが保持されたままで、次のデータは待たされます。

フリップフロップを使うとクロックのサイクル毎にタイミングを検証できるので検証コストを低く抑えることができます。一般のチップはフリップフロップを採用しています。

一方、ラッチを用いるとクロックがHの間はデータが通過できるので、どこかのサイクルで遅れが生じても後で挽回できます。しかしタイミング検証は、過去のサイクルまで遡って調べ上げる必要があるため、検証コストが高くなります。プロセッサはラッチを採用しています。


イメージ
図:フリップフロップ回路(クロックの立上り時にデータを取り込み一周期保持する)

非同期設計の再考

チップの性能を高めるためには、精緻なタイミング設計が必要です。論理回路の信号伝搬遅延が素子の製造ばらつきや電源電圧および温度の変動から受ける影響と、クロックを生成したときのゆらぎ(ジッタ―)や分配したときの時差(スキュー)を計算して、目標とする製造歩留まりに必要なタイミング余裕を設計で保証します。

この設計余裕は、デバイスの微細化と電源電圧の低下に伴い増大します。そして、クロックが高速になるほど、Timing closureと呼ばれるタイミング設計のコストも増大します。

同期設計では、一番遅い回路(クリティカルパス)がクロックの周期を決めるので、それ以外の大半の回路は性能に影響しません。一方で、クロックの分配やフリップフロップだけで、電力の1/4から1/2を消費します。


このような同期設計のコストや無駄が顕著になる中、クロック周波数が1GHzを超えた頃から非同期設計を見直す研究が始まりました。Ivan Sutherlandが“Computers without Clocks - Asynchronous chips improve computer performance by letting each circuit run as fast as it can” という論文を発表したのが2002年です。Sun MicrosystemsのUltraSPARC IIIiの一部に非同期回路が使われました。

Sutherlandは、コンピュータグラフィックスの父と呼ばれる天才です。彼はチップの設計にも精通しています。1999年に論理回路の遅延モデルLogical Effortを提唱しました。優れたモデルなので、私はこれを授業で教えています。

彼は、電界結合を用いたチップ間接続も2003年に論文発表しています。私たちが磁界結合を用いたチップ間接続の研究を始めた頃でした。2007年に私がUC. BerkeleyのMacKay Professorになったとき、教員会議で彼と同席できたことは光栄でした。


閑話休題、非同期回路は二線式論理を用いて、2つの出力が等しい間は計算中であり、出力の一方が変化したときに計算完了の信号と計算結果を次の回路に伝えます。

当然、非同期設計は同期回路よりも多くのトランジスタと配線を使いますが、同期設計の無駄に比べれば得になるときが来るかも知れません。

私はそれが7nm世代だろうと考えていました。しかし、トランジスタのゲート支配力を高めたFinFETの性能が予想以上に良く、7nmでは非同期設計の逆転は確認できませんでした。トランジスタの構造改革は今後も続きそうなので、非同期設計が使われる機会はしばらく先になるかも知れません。

ただし、AIで注目されている神経回路網などの布線論理による並列データ処理は、非同期設計に向いています。(そう言えば、私たちは一瞬どころか何度もためらい、そして誤った判断もしています。)


自然界のリズム

1665年のある日、Christiaan Huygens(光の波動説に基づく「ホイヘンスの原理」の発見者)は部屋の壁に並べて掛けてある二つの時計の振り子が同期していることに偶然気付きました。一方の振り子が右に振れるとき他方は必ず左に振れます。わざとタイミングを乱しても、しばらくすると必ず同期します。

ところが、二つの時計を離れた壁に掛けると、同期は起こりません。Huygensは、二つの時計の間にごく弱い相互作用が働いていることが原因ではないかと推察しました。

この世にはリズムがあふれています。そしてリズムとリズムが出会うと、互いに同期します。

たとえば、つり橋を歩くと人々の歩調が思わず重なって橋が大きく揺れます。ロンドンのテムズ川に架かるミレニアム・ブリッジが2000年に大揺れしました。流行や渋滞も同期現象に根差しています。

昆虫や細胞にも同期は起こります。東南アジアでは、無数のホタルがマングローブの森に集まって一斉に明滅します。

哺乳類では、脳の視床下部にある視交叉上核で2万個程の時計細胞が協調して体内時計を作り、睡眠周期などのリズムを生み出しています。心臓では、1万個程のペースメーカー細胞がたゆまず同期発火して、生涯に30億回の心拍をしっかりと刻んでいます。

心を持たない無生物も同期します。超電導状態では、無数の電子が歩調を合わせて進み電気抵抗がほぼゼロになります。レーザが強力な光の束になるのも、無数の原子が位相と振動数のそろった光子を放出するからです。

一方、夜空の月にウサギがいつでも見えるのは、月の自転と公転が同期して常に地球に同じ側を向けているからです。また、太陽系内の惑星の重力が同期して一致することで、小惑星帯から地球目掛けて隕石群が吐き出されることがあり、その結果、恐竜は絶滅しました。

同期現象は、人間が作り出したネットワークや仮想空間にも存在します。高圧送電線網に接続された発電機は、おのずと同期します。回転速度の高い発電機から低い方へエネルギーが流れて速度の調整が行われるからです。その結果、異常が連鎖して事故に繋がります。また、インターネットでもルータがホタルのように同期してトラフィックが急激に変動する現象が以前は見られました。

同期を制御しようという最初の工学的な試みは、1978年にRobert Adlerが著した発振回路の周波数引き込み現象に関する解析です。

三つ以上の回路の結合同期を最初に試みたのは、おそらく私たちの研究グループです。2006年に、一つのチップに集積された四つの発振器の出力を伝送線路で結び、結合同期させることに成功しました。次に2010年に、四つのチップを積層し、チップ間を磁界結合した状態で集団同期現象を発見し、これを利用して各チップにクロックを正確に分配する技術を開発しました。

こうした集団同期現象は、非線形科学によって解明されつつあります。

Chapter -10-

タイムパフォーマンス

時は金なり

MORE CLOSE

2020.09.23

コストパフォーマンスとタイムパフォーマンス

「コスパがいい」という表現をよく耳にします。コストパフォーマンスは、半導体事業でも最も重視される指標です。

しかし、最近「タイムパフォーマンス」も重要だと考えるようになりました。その理由は2つあります。


1つは、社会が資本集約型から知識集約型に変化するからです。

日本は、戦後復興で工業立国を目指し、さらに半導体技術で電子立国を目指しました。工業社会(Society3.0)と情報社会(Society4.0)は資本集約型社会です。大きいことが良くて、大量規格生産、大量消費が奨励されました。しかし、環境への負荷が増大するにつれて成長の限界も明らかになりました。

日本では、少子高齢化が急速に進展しています。私たちが目指す新たな社会は、「人間中心の社会(Society5.0)」、つまり皆で知恵を出し合う社会です。

知恵が価値を生む社会、すなわち知価社会は、個を活かす社会でもあります。持続可能な成長戦略を立て、総活躍社会を目指すことが日本の新しい戦略です。

そのための駆動力がデジタル革新です。期せずして新型コロナウィルスの感染拡大がデジタル革新を加速しています。デジタル革新はプラットフォーム作りから始まります。その際にスピードが勝負を決します。

資本集約型社会では、材料が資源でモノが価値でした。つまり、材料から部品を作り、製品に仕上げます。そこに、サービスやデザインやマーケット戦略といった知恵が加わり社会実装されます。半導体は部品です。部品は安くなければなりません。

一方、知識集約型社会では、データが資源で知恵が価値です。つまり、IoTと5Gで集めたデータをAIで分析し、サービスやソリューションに仕上げます。そこに半導体の力が加わり社会実装されます。

つまり価値づくりの主客が転換して、半導体の役割はより高い価値にシフトしたのです。半導体事業もかつての部品事業から社会実装事業に脱皮しなくてはいけません。新しい戦略が必要です。


タイムパフォーマンスが重視されるもう一つの理由は、半導体が産業のコメから社会のインフラになるからです。

資本集約型社会では、資源である材料を運ぶ道路、港湾、鉄道が社会インフラでした。しかし、知識集約型社会では、データが資源ですから社会インフラは情報ネットワークになります。情報ネットワークを支えるのは半導体です。


部品としての半導体事業ではコストパフォーマンスが重視されました。テレビやPCやスマホといった民生品は数年ごとに買い替え需要があるので、コスパの高いデバイスが後から出ると消費者は買い替えてくれます。つまり、コストパフォーマンスが重要です。

しかし、通信機器やロボットといった産業品は10年は買い替え需要がないので、後からコスパの高いデバイスが出ても事業者は買い替えません。結局、先に市場に出たデバイスが広く使われます。


このようにSociety5.0時代の半導体事業は、タイムパフォーマンスが重要です。「時は金なり」です。タイムは開発効率で決まり、パフォーマンスは電力効率で決まります。


ポスト5Gに求められる半導体

5Gでは、多様なサービスやユースケースに対応できるように、基地局のソフト化が求められます。すなわち、汎用サーバーの上で機能を仮想化したりスライシングすることで、ネットワークを柔軟に構築できることが必要です。

一方、5G以降は、電波が飛びにくくセル範囲が狭くなるので、基地局の小型化が求められます。つまり、多くの基地局を都会に安く設置するためには、電力と容積と重量を小さくしなければなりません。通信事業者の目標は、「5ワット、5リットル、5キログラム」です。

小型基地局では十分な電力を使えないので、サーバーの性能を抑えざるを得ません。不足する性能を補うためには、電力効率の高いハードウェアアクセラレータが必要になります。FPGAやASICを搭載したネットワークカードをサーバーに装着して、演算量の大きな定型処理はハードウェアに任せることになります。

このように、5Gから汎用サーバーが導入されるとしても(実際、4G以前はASICを用いた専用ハードを使っていました)、性能とコストを決める鍵はFPGAやASICです。

汎用サーバーにFPGAやASICをアクセラレータとして装着した場合、どれだけの費用と電力、容積、重量が追加で必要になるかを試算しました。結果を表にまとめます。想定した条件を変えれば値も変わりますが、相対比較はできます。


イメージ
表:5G基地局ハードウェアのタイムパフォーマンス
RaaSではアジャイル3D-FPGAとアジャイル3D-ASICを研究開発する

電力制約下で引き出せる性能をサーバーとFPGAとASICで比較すると、1/50:1/30:1/6、すなわち1:2:8となります。性能を引き出すにはASICが極めて有効です。CPUやFPGAの電力効率が悪い理由は、プログラムできるようにするための回路が相当余分に必要だからです。過去のソフトウェアも使えるようにするには、さらに歴史の垢が回路に積もります。

しかし、少量生産のASICはコスト高が懸念されます。7nm以降はマスク代だけでも10億円しますし、EUVリソは装置の減価償却が終わるまで高いでしょう。それでも10万個も生産すればサーバーの値段の1/10です。つまりサーバーの利益率はそれだけ高いのです。

近年、汎用チップを用いずに専用チップ(ASIC)を開発するように世界の潮流が変化した理由は、電力とコストの削減が目的です。すなわちコストパフォーマンスがいいからです。ASICを作った方が、性能はいいしコストも下げられるからです。


かつては通信機器メーカも積極的にASICを開発しました。1990年代にはトランジスタ数が10万個程度だったので数カ月でASICを開発できました。しかし今はトランジスタ数が10億個に増えたので、設計だけでも1年以上かかります。

つまり、集積度が高くなり、設計・検証にかかる期間を許容できなくなったことがASICの課題です。加えて日本ではASICの設計能力が失われつつあることも問題です。半導体産業の斜陽化による人材の流出・損失は痛手です。


通信はインフラ事業なので、事業継続性が最も重要です。周波数割り当ての既得権益を持って安定して事業を行うことができる通信事業者が、仕様を決めて複数のベンダーを競わせます。ベンダーは、厳しい国際競争にさらされて、M&Aの果てに少数の巨大メーカだけが生き残ります。しかし、昨今の経済安全保障のためのサプライチェーン確保の流れが、こうした産業構造の見直しを求めています。

ベンダーの競争は、仕様が決まってから市場投入までのリードタイムの短さになります。通信機器事業では、最初に装置を発売した会社がシェアをとることが多いからです。


タイムパフォーマンスはAIでも重要です。なぜなら、AIの技術進歩は速く、数年前のAIは誰も使わないからです。


コンピュータを駆使する

通信事業者の人から次のような話を聞きました。「ビジネス習慣の違いもあるのだろうが、中国のメーカはFPGAを2カ月で設計するのに対して、日本のメーカは6カ月以上かかる。そこで、どうして中国は2カ月で設計できるのかを視察に行ったら、人海戦術だった。」

日本がとるべき戦術は、人海戦術ではなくコンピュータを駆使して人を介在させないこと、つまり“no human in the loop”です。


RaaSでは、タイムパフォーマンスを追究して、開発効率10倍かつエネルギー効率10倍を目標に研究開発します。

開発効率10倍を目指して、アジャイル設計プラットフォーム(前出の表のアジャイル3D-FPGAとアジャイル3D-ASIC)を研究開発し、RISC-Vなどのオープンアーキテクチャを国際連携で展開します。コンピュータを駆使して、人が介在しない全自動の設計・検証でミスの入る余地をなくします。

同時にエネルギー効率10倍を目指して、3D集積技術を研究開発し、TSMCとの連携で先端CMOSを活用します。チップを積層して同一パッケージ内に集積することで、データの移動距離を桁違いに短くし、エネルギー効率を大幅に改善します。

この戦略は、アメリカDARPAのプロジェクト「エレクトロニクス復興イニシアティブ:ERI」の戦略と共通点が多いです。異なるのは、日本が得意な3D集積と組合わせた点です。つまり、EDA×3D集積でアジャイル設計プラットフォームを創出します。


日本の通信事業者は、チップ設計をクアルコム(米)、MediaTek(台)、ブロードコム(米)、ハイシリコン(中)に外注しています。海外のチップ設計会社に頼らなくても、チップユーザーがコンピュータで先端チップの設計をできるようにすることが私たちの目標です。

Chapter -11-

AIチップ

脳に学ぶ

MORE CLOSE

2020.10.21

数学から生まれたコンピュータ

太古の昔、人は指を折って数え、歩数を数えて測量しました。しかし、人は大きな数を認知できません。そこで四大文明期には計算機が登場して、人の認知能力を拡張しました。

古代ギリシャ時代以降は、数学の内部世界が研究対象となり、数学は道具から思考に進化しました。15世紀のルネサンスで記号代数が発明され、実世界では表現できないn次元の空間も考察できるようになりました。こうして数学は、物理的制約を受けない普遍的な視座を獲得したのです。

やがて17世紀になると微積分が考案され、無限の世界を探究できるようになりました。極限や連続性の概念を厳密に省察する結果、主観的な直感を超越した抽象的な記号体系が生まれました。そして20世紀に入ると、「数学をする自らの思考について数学をする」試みまで現れます。

このように、数学は、身体を離れて脳に宿り、物理的直感や主観的感覚などといった曖昧なものを完全に脱ぎ捨て、ついに脳から溢れ出しました。それがコンピュータです。


当初の電子式コンピュータでは、真空管がよく故障しました。そこで、気体ではなく固体の中で電子を制御するトランジスタが1948年に発明されました。

また、コンピュータの機能は回路の配線で決まるいわゆる「布線論理」でしたが、ここには2つの課題がありました。処理できるプログラムの最大規模が予め用意したハードウェアの規模で制約されてしまう「規模制約問題」と、システムが大規模になると接続数が膨大になる「大規模システムの接続問題」です。

そこで、フォン・ノイマンは、処理対象の「データ」と、データの移動および演算を指示する「命令」をメモリに記憶しておき、プロセッサがこの命令を解釈して演算処理を逐次行う「プログラム内蔵方式(フォン・ノイマン方式)」を発明しました。複数の演算器を用意してそれらを物理的に結線するのではなく、一つの演算器に毎サイクル違う命令を実行させることで規模制約問題の解消を狙った画期的な方式転換だったのです。

一方、ジャック・キルビーは、1958年に集積回路(IC)を発明しました。フォトリソグラフィを用いて、一枚のチップに素子と配線を集積することで、「大規模システムの接続問題」を見事に解決したのです。やがてシリコンがICに最適な材料であることが見出されました。

こうして単純化・極小化された演算資源をシリコンチップに集積化・並列化することで、コンピュータの性能は飛躍的に向上し、高性能になったコンピュータはさらに大規模な集積回路の設計を可能にしました。

このように、フォン・ノイマン方式と集積回路とシリコンが出会い、コンピュータとチップは手を携えて指数関数的な進化を遂げたのです。


仕事をするとエネルギーを消費します。電子回路の仕事量、つまり性能は、給電と放熱の制約を受けます。エネルギー、あるいはエネルギーの流速である電力の効率を高めることが、チップの性能を高めます。

チップの電力効率は過去20年間に3桁改善され、脳の1/100程度にまで向上しています。また、チップの集積度も脳の神経細胞の数の1/100程度です。これまでの勢いがあれば、10年後には脳に追いつくはずです。

しかし、フォン・ノイマン方式では、大量のデータと命令がプロセッサとメモリの間を行き来するので、そこが細長い首のようにボトルネックになっています(フォン・ノイマン・ボトルネック)。また、シリコンチップは、今世紀に入りデバイスの寸法が100nmより小さくなった頃から量子効果が現れ、リーク電流を抑えられません。半世紀前に誕生したコンピュータとチップの成長の限界が見えてきたのです。

しかし限界を迎える前に、コンピュータは自ら学習する能力を備えました。機械学習です。そして脳の神経回路網を模したAIチップが誕生したのです。


脳に学ぶAIチップ

神経回路網(Neural Network)を設計するための要素技術は20世紀のうちに開発されていたものの、NNが表現できる空間は広大すぎて、4層以上の深層神経回路網(Deep Neural Network)を学習させることは困難でした。

しかし21世紀に入り、オートエンコーダの深層化に成功したり、学習に必要なコンピュータの性能が十分に高まったことで、深層学習(Deep Learning)が従来の情報処理に比べて圧倒的に高い処理性能を発揮するようになり、急速に実用化されました。

路網の構成やアーキテクチャの研究も進みました。画像認識では近くの信号だけを結合させるCNN(Convolutional Neural Network)が成功しました。また、音声や自然言語処理のような時系列データを扱う認識処理では、再帰型のRNN(Recurrent Neural Network)やLSTM(Long Short Term Memory)が研究されました。最近は、重要な部分に注目するAttentionが導入され、Self-Attention機構を用いることでRNNの再帰構造を用いないTransformerアーキテクチャが注目されています。


いずれも、私たちの脳をヒントにして研究が進んでいます。中でも重要だと考えられているのが、神経回路網の刈り込み(プルーニング)です。

私たちの脳のシナプスは、生まれたときは50兆個ほどしかありませんが、生後1歳までに1000兆個に増えます。しかしその後は、学習によってシナプスは減少します。信号が通り強化されたシナプスは残りますが、信号が来ない不要なシナプスは刈り込まれて消えて行くのです。10歳頃までにはシナプスは半減し、その後は変化が少なくなります。

つまり、幼児期初期までに完全結合に近い神経回路網が形成されますが、学習するにつれて、不必要な配線が除去され必要な配線だけが残されるのです。こうして、無駄のない機能的な脳回路が形成されます。

子供の脳は学習を行うために大きく、大人の脳は推論を効率よく行うために刈り込まれているのです。小さく生んで、大きく育てて、社会で学ばせるという戦略は、脳が発達した哺乳類の生存戦略なのでしょう。


脳とシリコン脳

脳とシリコン脳に関するここまでの話を整理すると、 数学から生まれたフォン・ノイマン型のコンピュータが、予めプログラムされた状態遷移に基づき堅牢な情報処理を行います。それはちょうど、遺伝で機能が備わった視床・偏桃体・小脳に似ています。

一方、脳に学んだ布線論理型の神経回路網が、開放系で学習を続けながらプルーニングを行い、時間不可逆な柔らかい情報処理をエネルギー効率良く行います。それはちょうど、社会で学ぶ大脳皮質のようです。

このようにシリコン脳は、人の脳を参考にして描くことができます(下図)。では、シリコン脳は人の脳と同じような構造になるのでしょうか?


シリコン脳イメージ
図:シリコン脳
プロセッサが視床・偏桃体・小脳の役割を担い、神経回路網が大脳皮質の役割を担う。
(S: センサー、A:アクチュエータ、P:プロセッサ、M:メモリ、NN:神経回路網)

「すごいダイナミックレンジだ!」

1981年にそう叫んだのは、研究室の先輩の合原一幸さん(現在東大名誉教授)でした。神経軸索の活動電位の発生と伝播を記述した非線形微分方程式のHodgkin-Huxley方程式を計算機で解析したところ、神経軸索の抵抗値が大きく変化したのです。

同様の特性を持った人工物を造り出すことは容易ではありません。脳とシリコン脳は、鳥と飛行機のように、違う原理と構造になるかもしれません。

神経回路網は、配線の接続が機能を決める「布線論理」です。配線をプログラムできるFPGA(Field Programmable Gate Array)に私は期待を寄せています。