原创; 先进半导体工艺制造问题与介绍
鄙人是半导体业内研究人员,中文媒体圈中,无论墙内墙外对sub-14 nm的半导体制造存在颇多误解。正好今晚休息在家翻到ASML去年年底的技术报告。想以此为基础对半导体领域中的概念做一个大致介绍。尽量不用任何数学公式。
1.半导体厂商分类
半导体大厂可分为三类:fabless,foundry, 和两者综合体IDM。fabless是只设计芯片但不做半导体制造的。比如高通,华为海思都是这一类。foundry是专精于制造的,比如TSMC。第三种目前只有Intel与三星。曾经的AMD也是综合体,10年左右把fab部分卖给了海湾土豪成立了globalfoundry。目前AMD只做设计了。
看似专精设计或者制造好像能集中技术资源进行研发,但在22 nm以下,设计与制造已经密不可分了。IC设计再也不能天马行空的乱搭逻辑门,必须按照制造的规则进行设计。这也是Intel与三星的优势之所在,为什么会这样,我会做解释。
2.node CD与half-pitch CD
CD=critical dimension
half-pitch CD 简写为HP CD,是专用于光刻领域描述光刻分辨度的技术指标。比如说前一代193i光刻机, HP CD极限值等于38 nm.现在的EUV NXE 3400B可以做到极限13nm.
node CD则完全不同于 HP CD。是一个半导体器件的概念,网上各路媒体所说的技术节点便是这个node CD。
一般而言 node CD约等于1/2 *HP CD。
而在实际制造中,不可能用HP CD极限值来制造,会放宽很多。
3. double patterning的引入
11年 Intel首先将Finfet技术引入22 nm节点。22nm要求 44nm的光刻HP CD。但这在实际工艺中很难实现,太接近38nm极限值了。所以intel率先使用double patterning技术。这一技术把同一层的非常靠近的光刻图案分解到两个掩模(mask)上。分两次曝光实现。同理,self-aligned的技术也被引入,三次曝光,四次曝光都成为了可能。所以就光刻技术而言,分辨率并不是大问题。尤其在self-aligned技术中。deposition淀积可以实现非常好的精度控制,特别是ALD,能实现 atom on atom的精确控制。
没错,半导体工程师就是这么牛逼。
回到1里面那个问题,既然光刻图案需要被分解到多个mask上,芯片的图案自然不能由着fabless的IC设计师随意画了。得遵循光刻的规则。华为海思有的部门在上海,有的在深圳。没一家在台湾。而这种光刻版图的规则毫无疑问是foundry的最高机密。TSMC台积电不可能透露给客户的。海思只能把逻辑设计交给台积电,台积电再帮着优化下。海思原始设计没办法考虑这些光刻规则。这也是为什么我说,长期竞争中,Intel与三星优势的原因。
4, Intel问题到底出在哪里
现在各路媒体都在笑话Intel还待在14 nm,嘲笑曾经的IC霸主落伍了,特别是大陆媒体。台湾还是有懂行的。事实真是这样吗?
我可以非常确定的说,非也。
4.1 node CD的嘴仗
在存储芯片中,由于对良率的容忍度很高,所以node CD往往比逻辑IC要领先很多。三星很早就把三次,甚至四次曝光 (self-aligned)技术引入了nand flash生产。于是当台积电还在22 nm时。三星就开始宣传我们已经有14 甚至 10 nm技术了。那时是13年。三星与台积电在芯片代工中是竞争对手。台积电嘴巴上当然不能输。悄悄的放宽了node CD的定义,也把自己技术从22 nm吹到了14nm。这种嘴炮也延续到了现在,三星与台积电都宣称自己7 nm已经ready随时商业化。个人觉得能比Intel的 14 nm强一点吧。
4.2 sub-14 nm工艺挑战是什么
Intel在19年已经通过了10 nm工艺最终测试。早在18年年末的IEDM会议上,他们已经show出了非常漂亮的器件TEM图像。在某些领域,10nm的芯片早已量产。只不过整个生产转到10 nm仍然需要时间。目前这个厂在oregon,感兴趣的同学可以去参观下。但sub14 nm半导体制造会迎来很多新的挑战。以下我只谈两点
5. 对准问题与FinFET
我尽量少用专业词汇来描述这部分内容
先谈FinFET,FinFET是加大伯克利头牌(名牌都低估了他)教授,胡正明教授最先提出的3D MOSFET器件结构。 通过立体的结构实现了超越前代平面晶体管的性能。11年 Intel率先将其商业化。但到了sub 14 nm FinFET也没那么可靠了。
首先是逃不掉的量子效应,晶体管的电流很难提高了。甚至对于一些材料,电流会变低。对于芯片而言,电流意味着速度。
然后是漏电流,漏电流直接牵扯到功耗。在这么小的节点,FinFET也很难控制漏电。
最后是成本,按照摩尔定律,随着节点的减少,单个晶体管成本应该减少。但sub 14nm那么繁杂的光刻流程,导致单个晶体管成本反而可能会上升。既然如此,继续缩小node CD意义何在?
对准问题:这个问题是目前最致命的,EUV也逃不掉。
一个芯片需要上百个mask与光刻才能完成制造流程。所以光刻是最重要的部分。于是一个非常显而易见的问题发生了,如何保证这么多步光刻能刻在硅片同样的位置。要知道这时候,线宽只有几个纳米呀。稍微一个不留神,两个mask有一点偏差,整个芯片就报废了。现在光刻机得保证125片每小时的产率。不然半导体厂商要亏本。哪有时间慢慢挪硅片呢。
这个问题目前半导体界没有太好的解法,因为这是机械控制领域的问题,进展缓慢。这个问题上,EUV与193i使用相似的对准装置,并没有太大改善。国内总有媒体意淫买台EUV,中芯国际就弯道超车了,怎么可能。
6. 关于EUV的简单介绍
当然最终半导体技术会过度到EUV,目前EUV是各大厂商的机密,我只能从他们会议报告与过往新闻中得出些信息
6.1 三大巨头在EUV的进度
EUV从90年代就开始研发了。在这漫长的过程中,EUV跳票无数次。整个研发过程中,给与ASML最大支持的是Intel,他们买ASML的股票都快成最大股东了,而购买EUV光刻机现货最多的是三星。一直拖到2018年中,ASML才宣告成功。当时我们非常吃惊,因为公认 EUV光源要到250W才能实现盈利,18年2月底会议上还是125W怎么突然几个月时间跳到250W了?后面看EEtimes的报道才看出猫腻了。Intel没有订购那时候的EUV光刻机。前几台全让三星抢了...前几台货不怎么可靠,三星先当冤大头了。韩国人一向比较冲动,EUV光刻机一台售价等于一架F35亏了多少葱友们可以算算...所以三星在之后EUV研发竞赛中反而落后了。机器有问题不落后才怪呢。
目前台积电宣布会在他们 7nm上使用EUV,但仅限于前几层互联线。
Intel也会在他们的7 nm以及10 nm上使用EUV,但EUV现在依然存在可靠性问题。简单点说就是,我买一台1亿美元的机器,当然指望机器24*7的干活赚钱,但现在机器干8小时就得歇8小时,那我买它有屁用。所以ASML在下一代EUV光刻机NXE 3400C中着重提到了可靠性。而其他参数在B的基础上并无实质提高。
参考:https://www.euvlitho.com/2019/S1.pdf
因为Intel那边EUV小组抱怨光刻机的光源经常罢工。
至于国内自媒体热炒的EUV供货问题,Intel是ASML的大股东,哪有公司敢得罪大股东不给大股东供货的?
6,2 EUV关键参数
半导体是一门生意,所以我只谈盈利点。EUV光刻机光源强度决定了芯片产量,只有光源能持续稳定工作
在250W以上,intel台积电们才有钱赚。后面随着技术进一步提高,需要高NA EUV光刻机时,光源功率需求提高到500W。到了那个时候,可能每个半导体fab后面,得跟着一家核电站供能了。
1.半导体厂商分类
半导体大厂可分为三类:fabless,foundry, 和两者综合体IDM。fabless是只设计芯片但不做半导体制造的。比如高通,华为海思都是这一类。foundry是专精于制造的,比如TSMC。第三种目前只有Intel与三星。曾经的AMD也是综合体,10年左右把fab部分卖给了海湾土豪成立了globalfoundry。目前AMD只做设计了。
看似专精设计或者制造好像能集中技术资源进行研发,但在22 nm以下,设计与制造已经密不可分了。IC设计再也不能天马行空的乱搭逻辑门,必须按照制造的规则进行设计。这也是Intel与三星的优势之所在,为什么会这样,我会做解释。
2.node CD与half-pitch CD
CD=critical dimension
half-pitch CD 简写为HP CD,是专用于光刻领域描述光刻分辨度的技术指标。比如说前一代193i光刻机, HP CD极限值等于38 nm.现在的EUV NXE 3400B可以做到极限13nm.
node CD则完全不同于 HP CD。是一个半导体器件的概念,网上各路媒体所说的技术节点便是这个node CD。
一般而言 node CD约等于1/2 *HP CD。
而在实际制造中,不可能用HP CD极限值来制造,会放宽很多。
3. double patterning的引入
11年 Intel首先将Finfet技术引入22 nm节点。22nm要求 44nm的光刻HP CD。但这在实际工艺中很难实现,太接近38nm极限值了。所以intel率先使用double patterning技术。这一技术把同一层的非常靠近的光刻图案分解到两个掩模(mask)上。分两次曝光实现。同理,self-aligned的技术也被引入,三次曝光,四次曝光都成为了可能。所以就光刻技术而言,分辨率并不是大问题。尤其在self-aligned技术中。deposition淀积可以实现非常好的精度控制,特别是ALD,能实现 atom on atom的精确控制。
没错,半导体工程师就是这么牛逼。
回到1里面那个问题,既然光刻图案需要被分解到多个mask上,芯片的图案自然不能由着fabless的IC设计师随意画了。得遵循光刻的规则。华为海思有的部门在上海,有的在深圳。没一家在台湾。而这种光刻版图的规则毫无疑问是foundry的最高机密。TSMC台积电不可能透露给客户的。海思只能把逻辑设计交给台积电,台积电再帮着优化下。海思原始设计没办法考虑这些光刻规则。这也是为什么我说,长期竞争中,Intel与三星优势的原因。
4, Intel问题到底出在哪里
现在各路媒体都在笑话Intel还待在14 nm,嘲笑曾经的IC霸主落伍了,特别是大陆媒体。台湾还是有懂行的。事实真是这样吗?
我可以非常确定的说,非也。
4.1 node CD的嘴仗
在存储芯片中,由于对良率的容忍度很高,所以node CD往往比逻辑IC要领先很多。三星很早就把三次,甚至四次曝光 (self-aligned)技术引入了nand flash生产。于是当台积电还在22 nm时。三星就开始宣传我们已经有14 甚至 10 nm技术了。那时是13年。三星与台积电在芯片代工中是竞争对手。台积电嘴巴上当然不能输。悄悄的放宽了node CD的定义,也把自己技术从22 nm吹到了14nm。这种嘴炮也延续到了现在,三星与台积电都宣称自己7 nm已经ready随时商业化。个人觉得能比Intel的 14 nm强一点吧。
4.2 sub-14 nm工艺挑战是什么
Intel在19年已经通过了10 nm工艺最终测试。早在18年年末的IEDM会议上,他们已经show出了非常漂亮的器件TEM图像。在某些领域,10nm的芯片早已量产。只不过整个生产转到10 nm仍然需要时间。目前这个厂在oregon,感兴趣的同学可以去参观下。但sub14 nm半导体制造会迎来很多新的挑战。以下我只谈两点
5. 对准问题与FinFET
我尽量少用专业词汇来描述这部分内容
先谈FinFET,FinFET是加大伯克利头牌(名牌都低估了他)教授,胡正明教授最先提出的3D MOSFET器件结构。 通过立体的结构实现了超越前代平面晶体管的性能。11年 Intel率先将其商业化。但到了sub 14 nm FinFET也没那么可靠了。
首先是逃不掉的量子效应,晶体管的电流很难提高了。甚至对于一些材料,电流会变低。对于芯片而言,电流意味着速度。
然后是漏电流,漏电流直接牵扯到功耗。在这么小的节点,FinFET也很难控制漏电。
最后是成本,按照摩尔定律,随着节点的减少,单个晶体管成本应该减少。但sub 14nm那么繁杂的光刻流程,导致单个晶体管成本反而可能会上升。既然如此,继续缩小node CD意义何在?
对准问题:这个问题是目前最致命的,EUV也逃不掉。
一个芯片需要上百个mask与光刻才能完成制造流程。所以光刻是最重要的部分。于是一个非常显而易见的问题发生了,如何保证这么多步光刻能刻在硅片同样的位置。要知道这时候,线宽只有几个纳米呀。稍微一个不留神,两个mask有一点偏差,整个芯片就报废了。现在光刻机得保证125片每小时的产率。不然半导体厂商要亏本。哪有时间慢慢挪硅片呢。
这个问题目前半导体界没有太好的解法,因为这是机械控制领域的问题,进展缓慢。这个问题上,EUV与193i使用相似的对准装置,并没有太大改善。国内总有媒体意淫买台EUV,中芯国际就弯道超车了,怎么可能。
6. 关于EUV的简单介绍
当然最终半导体技术会过度到EUV,目前EUV是各大厂商的机密,我只能从他们会议报告与过往新闻中得出些信息
6.1 三大巨头在EUV的进度
EUV从90年代就开始研发了。在这漫长的过程中,EUV跳票无数次。整个研发过程中,给与ASML最大支持的是Intel,他们买ASML的股票都快成最大股东了,而购买EUV光刻机现货最多的是三星。一直拖到2018年中,ASML才宣告成功。当时我们非常吃惊,因为公认 EUV光源要到250W才能实现盈利,18年2月底会议上还是125W怎么突然几个月时间跳到250W了?后面看EEtimes的报道才看出猫腻了。Intel没有订购那时候的EUV光刻机。前几台全让三星抢了...前几台货不怎么可靠,三星先当冤大头了。韩国人一向比较冲动,EUV光刻机一台售价等于一架F35亏了多少葱友们可以算算...所以三星在之后EUV研发竞赛中反而落后了。机器有问题不落后才怪呢。
目前台积电宣布会在他们 7nm上使用EUV,但仅限于前几层互联线。
Intel也会在他们的7 nm以及10 nm上使用EUV,但EUV现在依然存在可靠性问题。简单点说就是,我买一台1亿美元的机器,当然指望机器24*7的干活赚钱,但现在机器干8小时就得歇8小时,那我买它有屁用。所以ASML在下一代EUV光刻机NXE 3400C中着重提到了可靠性。而其他参数在B的基础上并无实质提高。
参考:https://www.euvlitho.com/2019/S1.pdf
因为Intel那边EUV小组抱怨光刻机的光源经常罢工。
至于国内自媒体热炒的EUV供货问题,Intel是ASML的大股东,哪有公司敢得罪大股东不给大股东供货的?
6,2 EUV关键参数
半导体是一门生意,所以我只谈盈利点。EUV光刻机光源强度决定了芯片产量,只有光源能持续稳定工作
在250W以上,intel台积电们才有钱赚。后面随着技术进一步提高,需要高NA EUV光刻机时,光源功率需求提高到500W。到了那个时候,可能每个半导体fab后面,得跟着一家核电站供能了。
291 个评论
以下全文轉載自FB「工程師在波特蘭」粉絲專頁
大家都在問英特爾到底怎麼了? 其實不論7nm delay或是外包台積電都不是新聞, 都是早就在進行中的事, 只是第一次這樣公開宣布, 把外面的人嚇了一跳, 裡面的人則是見怪不怪.
還在intel的時候, 是在product team, 但因為工作的關係常有機會跟製程的team打交道, 有事沒事就會互相聊聊八卦. Intel的TMG (Technology Manufacturing Group) 是一個很封閉的軍事化組織, 自成一國, 紀律嚴明, 但裡面的人累得像狗一樣, 流動率也很高. TMG大到不能倒, 歷屆CEO都不敢動它的主意, 所以TMG的頭頭就像地方軍閥一樣. 一直到2018年被Murthy趕走之前, Sohail就是TMG的老大, 他手下的大將們就會輪流擔任每一代製程的負責人, 例如22nm的主管就是Kaizad.
TMG一直以來都保持製程領先, 2012年22nm領先群雄, 從沒把tsmc/samsung放在眼裡. Kaizad立下大功, 平安下莊. 在這個時間點, CPU還基本上維持Tick-Tock規律(一次改架構, 一次改製程). 還記得那幾年台積電常來Oregon招人, 三不五時收到HR的linkedin訊息, 有時還包下飯店的宴客廳請人吃免費晚餐, 順便問問要不要回台灣發展.
2014上半年是一個很重要的轉折點, 14nm的CPU該出來了卻沒出來, 導致22nm的CPU變成了Tick-Tock-Tock. 負責14nm的TMG的負責人是Sanjay, 2015就被趕走了, 可見當一代製程的主管也是個高風險高報酬的職業, 成了就榮升VP/Fellow, 敗了就捲鋪蓋走人. 現在回頭看, 這其實是很好的制度.
2014下半年, 14nm Broadwell終於出了, 但也從那時開始, delay變成了常態. Tick-Tock變成Tick-Tock-Tock-Tock-Tock. 到現在也沒人有在提Tick-Tock了, 只知道TikTok.
這是為什麼呢? 話說22nm平安下莊的Kaizad又扛起了10nm的大旗. 但這次沒上次那麼順利了. 具體原因只能用我收集到的資訊來說個大概. Intel一向對於密度(transistor density) 有一種近乎癡迷的執著. 1mm^2面積裡能塞幾個transistor, 這個數字越高越好, 簡報上的MTr/mm^2就是要show一條漂亮的直線, 分析師不管提什麼問題, 說tsmc做這個Samsung做這個, Intel一慣動作就是拿density出來打臉. 在早期這也合理的. 但是隨著製程越縮越小, 很多以前不用考慮的問題都跑出來了. 線寬越來越小, 間距越來越短, 就算你能做到M1-M4超細超近, 但你能真的拿來route嗎? 速度受影響之後還是要拉高到高層金屬, 那你的宣稱的density的好處又能真正拿到多少?
總之, 10nm一開始的規格訂得太aggressive. TMG的人拼死拼活日夜加班也達不到良率. 那你說當初訂規格為什麼不跟design team商量, 別作繭自縛一昧追求density, 先出來再說, 反正大家最後的目標就是出一顆好的CPU, 這就回到了前面說的TMG的老大心態. TMG做出來的製程, CPU設計部門就是只有吞下去的一條路, design rule太複雜? 甘我什麼事, 請自己解決. CPU部門只好各種各樣的疊床架屋的flow來解決各種各樣奇怪的問題, 開發時程也被拖累, 也慢慢變成了一個不是人待的地方, 只剩下拿H1B簽證的員工死撐著, 這是後話了. CPU team這樣久了Tock(架構)也沒力氣搞了, 甚至本來Oregon跟以色列有一個自己的CPU架構小tick-tock, 後來也全部由以色列來做了. 所以大樓之將傾, 都是從一根柱子的崩塌開始的.
另外一說, 關於10nm的density規格, TMG也不是沒有聽product team的意見, 但是只有圖形處理Graphic team (GT)有時間搞一些PPA的研究, 然後反饋給TMG. Graphic本來就比較不重視速度, 而是重視density, 所以GT和TMG一拍即合, 一搭一唱, 各取所需.
就在無限的14nm Tick-Tock-Tock-Tock-... 回音中, 10nm良率龜速的往上爬. Kaizad倒是位子坐得穩, 畢竟除了他之外, 其他人來壓不住陣腳只會更糟, CPU team人跑掉太多, 所以design也是落後. 同一時間7nm輪到台灣之光Chia-Hong上陣扛大旗. 看了10nm的例子, 7nm決定要對自己好一點, 放寬一點規格, 但是又忍不住要挑戰gate-all-around (GAA) FET. 這是一個和當初FinFET一樣的劃時代的新突破. 台積電試過了但還沒實際用在目前主流製程, 先走了EUV路線, Samsung看過了, 也先放一旁. Intel有著製程王者的堅持和驕傲, 非要挑戰這條路, 搞到最後放棄了. 7nm現在只好化繁為簡, 只能爭取越快出來越好, 先祝福台灣之光可以平安下莊.
寫了這麼多, 還沒寫到找TSMC代工的部分, 那又可以寫一大篇了.
Part 2
Intel為什麼會找上台積電代工? 這不是一個突然的決定, 一切都是有跡可循的, 冰凍三尺非一日之寒.
要先說清楚, 找台積電代工有兩種情況, 一種是當初買進來的單位(像英飛凌無線部門) 本來就有一些採用較舊的台積電28nm製程的RF電路, 這種純粹屬於計畫需要, 沒有必要為了轉單而轉單.
而另外一種情況才是Intel本身造成的問題. 要知道產能的規劃是長期的, 環環相扣, 一個環節出問題就會對未來造成影響 - 建廠, 備料, 培訓人員, 調整機台, 等TD (technology development) 把製程配方調出來了, 開始小量試產, 一邊調整良率, 另一方面design team提早一兩年開始設計, 最後在雙方約定好的時間, 設計團隊把藍圖交給晶圓廠, 開始一層一層的光罩慢慢做, 幾週後生產, 封裝, 測試, 然後交貨.
理想的狀況下, Intel 10nm製程開發順暢, 14nm廠一邊量產, 10nm廠一邊慢慢熱身準備就緒, 等到良率達標, 可以開始接大單了, design team在10nm上也差不多設計好了, 然後10nm大門一開, 誰先上? GT先上, 因為GT (Graphic) 圖形處理的架構比較一致, 設計週期比較短, 可以比較快擠出設計藍圖. 然後CPU老大, Server老二陸續進去, 然後10nm產量持續增加, 14nm慢慢騰出產能. 接下來呢?
要知道 Intel 10萬大軍扣掉TMG/CPU/Server, 還有很多鬆散的外圍組織也需要晶片. 這些單位很多都是前CEO BK揮霍老本買進來的敗家收藏, 像是原本還算有點名氣但逐漸被人遺忘的FPGA公司Altera (改名PSG), 為了重返手機市場榮耀買進來的英飛凌無線部門(改名iCDG), 趕流行被當冤大頭買貴了的人工智慧Nervana(改名AIPG), 自動駕駛Mobileye. 扣掉這些大型裝飾, 還有一些基礎IP, IO, 記憶體, 還有小號CPU Atom. 最後就是一些量不大, 一台公車(MPW Shuttle)就可以打發的單位, 像是純做研究/發paper/出新聞稿的Intel Labs, 幫TMG做測試晶片的AD (Advanced Design). 總之, 山頭林立, 無奇不有.
更有甚者, 還有一些不知什麼原因默默地在Intel裡載浮載沉討生活的浪人group, 我認識的一位業內老前輩統稱這些group是後娘養的, 沒人疼的孩子. 這些浪人group其實曾經也是有頭有臉隸屬於正規組織的, 但是這些正規組織被解散了 (像英特爾一時興起的晶圓代工, Intel Custom Foundry), 設計部門的頭目為了手下武士的生計, 只好在Intel裡面幫人打工, 譬如Server部門要做什麼記憶體控制IC, 人手不夠, 就暫時讓浪人group來接這個活. 如果面臨太多競爭, 像是遇到印度班加洛用人海戰術又愛誇口一切沒問題把活搶走了, 或是遇到馬來西亞濱城幹起活來不要命的華人工程師, 那只能摸摸鼻子, 去接一些別人撿剩的朝不保夕的活, 像是幫大陸的中興ZTE做chip, 每天看著川普的臉色等著project被cancel. 看過動物星球頻道的就知道飢餓的時候是沒有選擇的餘地的. Intel內部就是這樣一個弱肉強食的世界.
總之, 這些各式各樣的單位, 就按照對公司的獲利貢獻的重要程度, 來決定要不要排進去10nm或繼續用14nm的多餘產能.
結果世事難料, 10nm難產, Fab空轉, 最重要的CPU/Server/GT怎麼辦? 只好繼續佔用14nm的產能. 最慘的情況來了, TMG裡面負責製程研發的單位是TD(technology development). TD本來就處在人人過勞的極限狀態, 以前14nm弄好了, 主力就移師10nm, 留下一小批人力維護14nm, 然後再分出一小隊精銳先鋒去7nm. 現在14nm要繼續搞, 還要搞14nm+, 14nm++, 14nm+++(所謂的擠牙膏), 那分給10nm人數就少了, 7nm就更少了. 硬生生地就讓自己越陷越深. 所以說一步錯, 步步錯.
現在14nm產能都給了公司的命脈CPU/Server, 那其他剩下的單位怎麼辦? 日子還是要過, IC還是要出貨, 為了求生路, 大家就紛紛發難, 勢力相對大一點的iCDG就跳出來說, 我們在英飛凌時代就是用台積電, 合作愉快, 讓我們繼續用吧. AIPG說我們的AI chip不能等, 有多少的data等著我們train, Nvidia都甩過我們好幾條街了, 所以我們一定要用最好的製程, 沒有Intel 10nm就給我TSMC 7nm. 竟然連一些幫Server系統做周邊chip的小咖說話都大聲起來, 不給我們出去, Server也出不了貨, 大家要死一起死!
到了這種地步, Intel高層有任何選擇嗎? 開放到TSMC下單是不得已而為之的最後解決方法. Intel身為一家上市公司, 對股東有盈利的義務, 但盈利不代表一定要靠自己生產晶片, 就像Jordan打籃球再神也不能只靠自己得分, 有時候關鍵時刻也要分球給Steve Kerr (結果多年後金州勇士隊就在他的教導下崛起了).
至於Intel開始到TSMC下單之後對本身公司體質產生了嚴重的副作用, 還有CPU的project怎麼也開始用起TSMC了, 下回分解.
Part 3還沒出
大家都在問英特爾到底怎麼了? 其實不論7nm delay或是外包台積電都不是新聞, 都是早就在進行中的事, 只是第一次這樣公開宣布, 把外面的人嚇了一跳, 裡面的人則是見怪不怪.
還在intel的時候, 是在product team, 但因為工作的關係常有機會跟製程的team打交道, 有事沒事就會互相聊聊八卦. Intel的TMG (Technology Manufacturing Group) 是一個很封閉的軍事化組織, 自成一國, 紀律嚴明, 但裡面的人累得像狗一樣, 流動率也很高. TMG大到不能倒, 歷屆CEO都不敢動它的主意, 所以TMG的頭頭就像地方軍閥一樣. 一直到2018年被Murthy趕走之前, Sohail就是TMG的老大, 他手下的大將們就會輪流擔任每一代製程的負責人, 例如22nm的主管就是Kaizad.
TMG一直以來都保持製程領先, 2012年22nm領先群雄, 從沒把tsmc/samsung放在眼裡. Kaizad立下大功, 平安下莊. 在這個時間點, CPU還基本上維持Tick-Tock規律(一次改架構, 一次改製程). 還記得那幾年台積電常來Oregon招人, 三不五時收到HR的linkedin訊息, 有時還包下飯店的宴客廳請人吃免費晚餐, 順便問問要不要回台灣發展.
2014上半年是一個很重要的轉折點, 14nm的CPU該出來了卻沒出來, 導致22nm的CPU變成了Tick-Tock-Tock. 負責14nm的TMG的負責人是Sanjay, 2015就被趕走了, 可見當一代製程的主管也是個高風險高報酬的職業, 成了就榮升VP/Fellow, 敗了就捲鋪蓋走人. 現在回頭看, 這其實是很好的制度.
2014下半年, 14nm Broadwell終於出了, 但也從那時開始, delay變成了常態. Tick-Tock變成Tick-Tock-Tock-Tock-Tock. 到現在也沒人有在提Tick-Tock了, 只知道TikTok.
這是為什麼呢? 話說22nm平安下莊的Kaizad又扛起了10nm的大旗. 但這次沒上次那麼順利了. 具體原因只能用我收集到的資訊來說個大概. Intel一向對於密度(transistor density) 有一種近乎癡迷的執著. 1mm^2面積裡能塞幾個transistor, 這個數字越高越好, 簡報上的MTr/mm^2就是要show一條漂亮的直線, 分析師不管提什麼問題, 說tsmc做這個Samsung做這個, Intel一慣動作就是拿density出來打臉. 在早期這也合理的. 但是隨著製程越縮越小, 很多以前不用考慮的問題都跑出來了. 線寬越來越小, 間距越來越短, 就算你能做到M1-M4超細超近, 但你能真的拿來route嗎? 速度受影響之後還是要拉高到高層金屬, 那你的宣稱的density的好處又能真正拿到多少?
總之, 10nm一開始的規格訂得太aggressive. TMG的人拼死拼活日夜加班也達不到良率. 那你說當初訂規格為什麼不跟design team商量, 別作繭自縛一昧追求density, 先出來再說, 反正大家最後的目標就是出一顆好的CPU, 這就回到了前面說的TMG的老大心態. TMG做出來的製程, CPU設計部門就是只有吞下去的一條路, design rule太複雜? 甘我什麼事, 請自己解決. CPU部門只好各種各樣的疊床架屋的flow來解決各種各樣奇怪的問題, 開發時程也被拖累, 也慢慢變成了一個不是人待的地方, 只剩下拿H1B簽證的員工死撐著, 這是後話了. CPU team這樣久了Tock(架構)也沒力氣搞了, 甚至本來Oregon跟以色列有一個自己的CPU架構小tick-tock, 後來也全部由以色列來做了. 所以大樓之將傾, 都是從一根柱子的崩塌開始的.
另外一說, 關於10nm的density規格, TMG也不是沒有聽product team的意見, 但是只有圖形處理Graphic team (GT)有時間搞一些PPA的研究, 然後反饋給TMG. Graphic本來就比較不重視速度, 而是重視density, 所以GT和TMG一拍即合, 一搭一唱, 各取所需.
就在無限的14nm Tick-Tock-Tock-Tock-... 回音中, 10nm良率龜速的往上爬. Kaizad倒是位子坐得穩, 畢竟除了他之外, 其他人來壓不住陣腳只會更糟, CPU team人跑掉太多, 所以design也是落後. 同一時間7nm輪到台灣之光Chia-Hong上陣扛大旗. 看了10nm的例子, 7nm決定要對自己好一點, 放寬一點規格, 但是又忍不住要挑戰gate-all-around (GAA) FET. 這是一個和當初FinFET一樣的劃時代的新突破. 台積電試過了但還沒實際用在目前主流製程, 先走了EUV路線, Samsung看過了, 也先放一旁. Intel有著製程王者的堅持和驕傲, 非要挑戰這條路, 搞到最後放棄了. 7nm現在只好化繁為簡, 只能爭取越快出來越好, 先祝福台灣之光可以平安下莊.
寫了這麼多, 還沒寫到找TSMC代工的部分, 那又可以寫一大篇了.
Part 2
Intel為什麼會找上台積電代工? 這不是一個突然的決定, 一切都是有跡可循的, 冰凍三尺非一日之寒.
要先說清楚, 找台積電代工有兩種情況, 一種是當初買進來的單位(像英飛凌無線部門) 本來就有一些採用較舊的台積電28nm製程的RF電路, 這種純粹屬於計畫需要, 沒有必要為了轉單而轉單.
而另外一種情況才是Intel本身造成的問題. 要知道產能的規劃是長期的, 環環相扣, 一個環節出問題就會對未來造成影響 - 建廠, 備料, 培訓人員, 調整機台, 等TD (technology development) 把製程配方調出來了, 開始小量試產, 一邊調整良率, 另一方面design team提早一兩年開始設計, 最後在雙方約定好的時間, 設計團隊把藍圖交給晶圓廠, 開始一層一層的光罩慢慢做, 幾週後生產, 封裝, 測試, 然後交貨.
理想的狀況下, Intel 10nm製程開發順暢, 14nm廠一邊量產, 10nm廠一邊慢慢熱身準備就緒, 等到良率達標, 可以開始接大單了, design team在10nm上也差不多設計好了, 然後10nm大門一開, 誰先上? GT先上, 因為GT (Graphic) 圖形處理的架構比較一致, 設計週期比較短, 可以比較快擠出設計藍圖. 然後CPU老大, Server老二陸續進去, 然後10nm產量持續增加, 14nm慢慢騰出產能. 接下來呢?
要知道 Intel 10萬大軍扣掉TMG/CPU/Server, 還有很多鬆散的外圍組織也需要晶片. 這些單位很多都是前CEO BK揮霍老本買進來的敗家收藏, 像是原本還算有點名氣但逐漸被人遺忘的FPGA公司Altera (改名PSG), 為了重返手機市場榮耀買進來的英飛凌無線部門(改名iCDG), 趕流行被當冤大頭買貴了的人工智慧Nervana(改名AIPG), 自動駕駛Mobileye. 扣掉這些大型裝飾, 還有一些基礎IP, IO, 記憶體, 還有小號CPU Atom. 最後就是一些量不大, 一台公車(MPW Shuttle)就可以打發的單位, 像是純做研究/發paper/出新聞稿的Intel Labs, 幫TMG做測試晶片的AD (Advanced Design). 總之, 山頭林立, 無奇不有.
更有甚者, 還有一些不知什麼原因默默地在Intel裡載浮載沉討生活的浪人group, 我認識的一位業內老前輩統稱這些group是後娘養的, 沒人疼的孩子. 這些浪人group其實曾經也是有頭有臉隸屬於正規組織的, 但是這些正規組織被解散了 (像英特爾一時興起的晶圓代工, Intel Custom Foundry), 設計部門的頭目為了手下武士的生計, 只好在Intel裡面幫人打工, 譬如Server部門要做什麼記憶體控制IC, 人手不夠, 就暫時讓浪人group來接這個活. 如果面臨太多競爭, 像是遇到印度班加洛用人海戰術又愛誇口一切沒問題把活搶走了, 或是遇到馬來西亞濱城幹起活來不要命的華人工程師, 那只能摸摸鼻子, 去接一些別人撿剩的朝不保夕的活, 像是幫大陸的中興ZTE做chip, 每天看著川普的臉色等著project被cancel. 看過動物星球頻道的就知道飢餓的時候是沒有選擇的餘地的. Intel內部就是這樣一個弱肉強食的世界.
總之, 這些各式各樣的單位, 就按照對公司的獲利貢獻的重要程度, 來決定要不要排進去10nm或繼續用14nm的多餘產能.
結果世事難料, 10nm難產, Fab空轉, 最重要的CPU/Server/GT怎麼辦? 只好繼續佔用14nm的產能. 最慘的情況來了, TMG裡面負責製程研發的單位是TD(technology development). TD本來就處在人人過勞的極限狀態, 以前14nm弄好了, 主力就移師10nm, 留下一小批人力維護14nm, 然後再分出一小隊精銳先鋒去7nm. 現在14nm要繼續搞, 還要搞14nm+, 14nm++, 14nm+++(所謂的擠牙膏), 那分給10nm人數就少了, 7nm就更少了. 硬生生地就讓自己越陷越深. 所以說一步錯, 步步錯.
現在14nm產能都給了公司的命脈CPU/Server, 那其他剩下的單位怎麼辦? 日子還是要過, IC還是要出貨, 為了求生路, 大家就紛紛發難, 勢力相對大一點的iCDG就跳出來說, 我們在英飛凌時代就是用台積電, 合作愉快, 讓我們繼續用吧. AIPG說我們的AI chip不能等, 有多少的data等著我們train, Nvidia都甩過我們好幾條街了, 所以我們一定要用最好的製程, 沒有Intel 10nm就給我TSMC 7nm. 竟然連一些幫Server系統做周邊chip的小咖說話都大聲起來, 不給我們出去, Server也出不了貨, 大家要死一起死!
到了這種地步, Intel高層有任何選擇嗎? 開放到TSMC下單是不得已而為之的最後解決方法. Intel身為一家上市公司, 對股東有盈利的義務, 但盈利不代表一定要靠自己生產晶片, 就像Jordan打籃球再神也不能只靠自己得分, 有時候關鍵時刻也要分球給Steve Kerr (結果多年後金州勇士隊就在他的教導下崛起了).
至於Intel開始到TSMC下單之後對本身公司體質產生了嚴重的副作用, 還有CPU的project怎麼也開始用起TSMC了, 下回分解.
Part 3還沒出