机械社区

 找回密码
 注册会员

QQ登录

只需一步,快速开始

搜索
查看: 1809|回复: 3

台积电要自研芯片?

[复制链接]
发表于 2019-6-25 14:39:11 | 显示全部楼层 |阅读模式
编者按:昨天,有一则关于台积电自研芯片的文章刷爆了笔者的朋友圈。行业内的媒体的报道尚算中肯,也就是谈了台积电做了一个什么样的芯片,提供了怎么样的一个Demo,但有些标题党的作者甚至用“台积电要抢高通生意”这样的字眼来吸引读者。无论如何,这都与笔者所了解的台积电不一样。


为了让大家了解“台积电自研芯片”这件事,笔者特意翻译了wikichip的这篇文章,帮助读者理解整件事的真相。

以下为文章正文:

随着基于小芯片(chiplet)的设计从研究转向生产,我们看到了来自工业界的小芯片论文的新流入。本月早些时候在日本京都举行的VLSI 2019上,台积电展示了自己的“小芯片”设计。

据雷锋网的报道,所谓“chiplet”是一种芯片,封装了一个IP(知识产权)子系统。它通常是通过高级封装集成,或者是通过标准化接口使用。至于它们为什么会变得如此重要,这是因为我们的计算和工作类型呈爆炸式增长,目前没有一种全能的办法来应对这些问题。从根本上说,对一流技术的异构集成是延续摩尔定律的一种方式。

使用基于小芯片的设计具有一些显著优点,例如更快的开发周期和更高的产量来降低成本。但它也带来了一系列新的挑战,这些挑战源于在基于小芯片的设计中追求类似单片产品(monolithic-like)的功耗和性能特性。因此,当中的主要挑战是互连和封装技术。虽然这些挑战仍然悬而未决,但已经有多种具有不同性质的解决方案被提出。在超大规模集成电路研讨会上,台积电展示了他们的一些技术,试图解决这些挑战。

台积电试图验证的三个主要特性是:

  • ARM核心在4 GHz以上工作
  • Bidir互连网状总线(Interconnect Mesh)在4 GHz以上
  • CoWoS和LIPINCON的速度为8 GT / s且<1 pJ / bit


值得注意的是,此研究和技术验证旨在用于高性能计算。因此,这些内核拥有非常高的时钟,高速率的内部互联速率,以及高密度线路和每比特传输极低功率的芯片间链路(inter-chip links with high-density wires and very low power per bit transfer)。

首先看芯片方面;

该芯片本身是一种双小芯片设计,但该技术本身可以通过额外的物理层(PHYS)相对容易地扩展到容纳更大数量的小芯片。每个小芯片都是在台积电7纳米节点上制造,拥有15个金属层。裸片本身只有4.4 mm×6.2 mm(27.28 mm2)。台积电采用了四个ARM Cortex-A72核。针对turbo频率大于4GHz电压操作,配备了高性能的cell(7.5T,3p + 3n)并定制设计1级高速缓存单元。还有两个2级缓存块。每个是1 MiB。这些是使用它们的高电流位单元(bitcells)并以半速运行来实现的。此外还有一个大型的6 MiB 3级缓存,使用高密度位单元实现,并以四分之一速度运行。


台积电采用了在高性能芯片中常见增强功能。典型的h-tree被用来将时钟分布的偏差从22ps减少到8ps。高性能时钟偏差以及via towers被广泛用于进一步改善关键路径上的时序。统计显示,整个设计共有五个电压域(voltage domains):0.8V SOC、0.8V ADPLL、0.3-0.8V Lipincon、0.8V L3和0.3-1.2V CPU。该芯片采用全数字锁相环,其抖动小于10ps,用于为CPU、互连和内存生成三个时钟域(clock domains )。


在1.20的电压下,Cortex核可以达到4GHz (signoff).。这个数字是基于运行Dhrystone模式工作负载的核心测量得到的。


其次来看一下网状互连(Mesh Interconnect);

该裸片包括网状互连。互连测试可通过片上分组生成单元(on-die packet generation unit )和分组监控单元(packet monitoring unit)完成。有六个双向触发器(bi-directional flip-flop)网格站(mesh stations)——每个边缘一个,中间两个。这些工作站围绕整个小芯片,间隔大约2毫米。网状互连是1968位宽,并使用具有相反方向信号(opposite direction signals )的逐位交错线路(bit-wise-interleaved wires )在M12和M13中布线,以最小化耦合( minimize coupling)。

总之,片上网状互连(on-die mesh interconnect)可以在4 GHz(0.8 V)到5 GHz(1.2 V)之间正常工作。缓存和Cortex集群都连接到最近的左下角(bottom-left )网格停止点(垂直方向时)。


互连可在0.76V下达到4GHz的频率。


再看一下芯片互联;

每个小芯片上都有两个LIPINCON(Low-voltage-In-Package-INterCONnect简称)接口。每个物理层的测量值仅为0.42 mm×2.4 mm(1.008 mm2)。这些是单端(single-ended),单向(unidirectional),低摆幅接口(low-swing interfaces)。一个接口用作与L3通信的主设备,而第二个接口是用于相反方向的从设备。

与SoC的其他部分不同,由于电源接地(power-ground)噪声问题,专用时钟有一个独立的PLL。每个物理层使用2:1多路复用功能,以便将速度加速到8 Gb / s。每个子通道有两个延迟锁相环( DLL):一个减少PVT变化,另一个用于减少时钟偏差,使系统级芯片和物理层之间的时钟相位对齐。由于使用单相锁相环,因此会采用两个环路——第一个环路锁定进入的时钟周期,并将其分为八个相位,第二个环路将该相位分为16个步骤。换句话说,在4 GHz(250 ps)下,您将看到低于2 ps的分辨率。

在本篇论文中,两个裸片连在一起。第二个小芯片旋转180度,用于LIPINCON PHY基台(abutment)。


芯片本身采用了台积电COWOS(Chip on Wafer on Substrate)2.5D封装技术,也就是将逻辑芯片和DRAM 放在硅中介层(interposer)上,然后封装在基板上。台积电在这里应用,就意味着硅中介层(silicon interposer)将用作安装在其上的两个相同小芯片的基板。


使用硅中介层可以采用更小的凸块(bumps),使得小芯片之间的导线更密集和更低。在这种设计中,使用了一个非常激进的40μm的微凸距,两个裸片之间只有100微米的间隔。


我们最后来看一下技术比较;

在两倍的时钟速度下,物理层运算速度为8GT/s。在互连宽度( interconnect width)为320位时,两个裸片之间的总带宽为320 GB / s。在40μm的bump pitch 下,这实际上是我们在最近的芯片设计中看到的最激进的间距之一,它还可以达到1.6 Tb / s /mm2的数据通量。下表对比了AMD和Intel最近的两款小芯片设计。值得一提的是,英特尔之前曾提到过EMIB(嵌入式多芯片互连),其bump pitches为45μm,甚至将电流密度增加一倍至35μm。

但是,到目前为止,我们还没有发现任何能够证明这些功能的英特尔产品(包括Kaby Lake G)。



编后语:看完整个报道,我们可以看到,这个台积电做芯片的事情,其实就是台积电展现一下他们在最近热门的chiplet方面的实力。换句话说,这与某些读者所理解的自研芯片,不是同一个概念。你对这又有着怎样的了解和看法?欢迎留言讨论!

注:本文由公众号半导体行业观察(ID:icbank)翻译自「wikichip」。


回复

使用道具 举报

发表于 2019-6-25 15:42:04 | 显示全部楼层
收美国专利费不。
回复 支持 反对

使用道具 举报

发表于 2019-6-25 20:14:23 | 显示全部楼层
技术再先进,也只是台企,再没有回归大陆之前,也难说他们老板张忠谋不会像郭台铭一样卖国求荣,抱美国大腿!
回复 支持 反对

使用道具 举报

发表于 2019-7-14 22:38:13 | 显示全部楼层
自研芯片目前就几个种架构路子,各有市场。作为三大代工厂之一的台积电,选择了ARM而已。反正都开源。搞好了再买断某个版本就好了,菊厂也这么干的。不知是不是大家看到目前制程工艺瓶颈的原因
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

小黑屋|手机版|Archiver|机械社区 ( 京ICP备10217105号-1,京ICP证050210号,浙公网安备33038202004372号 )

GMT+8, 2024-11-19 12:15 , Processed in 0.048323 second(s), 15 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表