在《2013年手机处理器指南•上》中,我们的主要回顾了过去,即2012年的产品。如今,距文章发布已经过去一个季度,市场环境有了不小变化,我们撰写了这篇《2013年手机处理器指南•下》,与各位一起,重新审视手机处理器的现状和未来。
疯狂的核战争
智能手机的硬件规格近年来经历了爆炸式的增长,但消费者究竟从中得到了什么?
从2007年iPhone发布开始,手机开始迈入真正的智能时代。处理器从最早的ARM11 400MHz一路飙升;2008年我们拥有了ARM11 533MHz;2009年进化到Cortex A8 400MHz;2010年则瞬间提升至Cortex A8 1GHz;2011年,双核Cortex A9 1.2GHz开始普及;2012年,四核Cortex A9 1.4GHz出现......智能手机处理器的运输能力几乎以每年2.5倍的速度在提升。如果以平台的寿命来看,ARM9平台大约拥有5年的寿 命,ARM11为4年,在这之后,Cortex A8在主流市场坚持了一年半,而单核Cortex A9被直接跳过,双核Cortex A9一年、四核Cortex A9也是一年。
业界实际的更新速度远超ARM的预计
为何市场会出现如此强大的推动力,让企业可以集中全行业的技术和利润,去疯狂推动一台小小的手机疯狂升级?
最主要的原因是因为手机本身的定位发生了变化,过去大家需要用PC实现的应用和功能,如今都开始往手机上转移,这是推动手机硬件爆炸发展的原动力。
这样的需求转变给手机带来了无穷无尽的性能需求。
“安装飞机发动机的自行车”
如果我们给奇瑞QQ轿车安装1000马力的发动机,可以获得与超级跑车相近的性能吗?答案是否定的,因为奇瑞QQ的车体根本无法承受这样的动力输出。
同样的道理,我们把英特尔酷睿i7处理器装在手机上也没有意义,因为手机根本无力承担它的功耗。在这个层面上,我们是理性的,厂家也是理性的,至少在相当长一段时间内是这样。然而,这部分理性如今却在逐渐消失。
厂商不断地往手机里塞入更快、更强大的硬件,与此同时,却不得不限制它们的工作频率与工作时间。你看到的产品手册上赫然写着“四核1.7GHz”, 但实际使用中你永远无法得到这样的性能。这方面的例子比比皆是,从Nexus 4冷柜跑分暴涨30%,到K3V2的GPU频率缩水6成,大多数旗舰手机都无法发挥出它应有的性能。
来自Anandtech的著名测试:
根据第三方测试,目前的旗舰手机能以最高频率工作的时间少则数十秒,多的也只有几分钟,之后便不得不降低频率以缓解发热。消费者听着“性能提升 xx%”的宣传,花费高额费用抱着“四核1.7GHz”的手机回家,却只能享受30秒的快乐,这难道不是一种讽刺?往一台手机里安装根本无法全速运行的 “强大”处理器,与开头提到的往奇瑞QQ上安装1000马力的发动机有什么区别呢?
下面的表格是一个实例:LG为Optimus G Pro配备了强大的骁龙600处理器,但持续高负载工作3分钟后,实际性能却不如搭载了上一代APQ8064芯片的SONY Xperia Z。配置更高的新产品,在实际使用中却输掉了“性价比”,我们得到了配置,却没有得到性能。
(骁龙600 vs APQ8064不同机型性能对比,本表格数据来自爱搞机)
你也许会说,反正价格没有更贵,能不能全速没啥损失,但这样的观点也是错误的。记住:你永远是在为手机的标称性能埋单,而不是为实际性能埋单。八核手机即使只能发挥出四核手机的性能,它的价格也是“八核”级别的。硬件上所有的成本最终都会以各种形式转嫁在消费者身上。问题是:我们为什么要为发挥不出来的性能埋单呢?
这样的趋势在2013年乃至更远的未来并没有缓解的迹象。作为消费者,我们必须要明确自己的立场:这种趋势是错误的,我们有必要制止它进一步恶化!否则我们所付出的金钱将只能换来几个纸面上的数字,而“安装飞机发动机的自行车”迟早有一天要到来。
然而,指出错误很简单,纠正错误却很困难。如果无法得到一个对于正确的评价标准,那么对于未来的分析也就没有意义,这就启发我们去寻找一些不会被技术所改变的东西,作为衡量正确与错误的标准。
接下来,我们将提出一个相对客观的评价标准,并以之为准绳,对2013-2014年市面上主流的手机处理器进行逐个分析。
“不可逾越之墙”
什么是技术所无法改变的事物?对于智能手机而言,一是客观存在的物理定律,二是人的生理需求。因为本文的主题是处理器,因此我们把目光集中在处理器系统上。
可以确定的是,只要技术还没有进步到手机可靠意念操作,那么人体对设备温度的可以接受上限就是确定的;而只要手机还符合物理定律,在一定温度下它所能散发的热量也是固定的,这就勾勒出了一条“生死线”——在舒适的前提下,一个确定尺寸的手机,所采用的硬件功耗,或者说处理器系统的功耗是有极限的,只要超越这条线,就必须要降低工作频率,否则将会无法阻止温度的上升,性能自然也就无从谈起。因此我们认为,“手机的极限功耗不应该超过其最大可散热功耗”可以作为衡量产品的准绳。
(Galaxy S4发热量测试,本表格数据来自太平洋电脑网)
长久以来,业界都习惯于用配置和价格的关系作为评价标准,但是如果联系到配置与性能脱节的现实,这个标准已经濒临失效,因此我们需要提出一个新的评判标准,不妨姑且将其称为“体效值”。
何谓体效值?我们将体效值定义为设备体积与能耗系数的乘积,它代表了一台手机所可以连续提供的极限性能。将 这个参数与理论最大性能联合评价,能得出以下的结论:如果系统的体效值小于最大性能,那么这套系统就必然是错误的,因为存在着浪费。但是如果体效值大于最 大性能,那么这套系统有可能陷入“性能不够用”的疑问。最佳情况是体效值和最大性能相同,这意味着这套系统所蕴含的性能可以全部发挥,做到了设计可以得到 的极限。你可以把“体效值”简单理解为“每瓦特性能”。
任何一台手机机体,在有限的时间段内带走热量的能力都是有限的
手机绝对性能的测量相对简单,因此体效值中最关键的部分是“体”,即手机体积所能容纳的最大功率。这方面目前没有明确的行业标准,因此我们需要做一 些假设。首先,我们假设在现在以及将来的一段时间内,手机将主要依靠外壳进行被动散热,不会像电脑一样引入风扇等主动散热手段。其次,我们将人体感温度舒 适上限设为40度,而耐受极限设为50度。最后,我们将手机工作时环境温度设为25度,并且假定没有气流存在。
无外界对流时,手机的热量散发主要依靠空气的自然对流与本身的辐射。假定手机的温度为介于舒适上限与耐受极限之间的45度,那么与环境温度的差值即为20度。相对于手机这个体积的设备而言,四个边侧面的散热贡献可以忽略不计,主要的散热面为前后两个面。计算时假定手机为垂直放置。
下面计算开始,首先计算对流散热量,我们选择iPhone 5作为标准对象。iPhone 5的尺寸为123.8×58.6×7.6毫米,因此正面的面积为0.0073平方米。垂直放置的情况下,iPhone 5一个正面的传热系数为4.65W/(m2•℃),也就是说这样一个表面可以靠对流散发的热量是0.68W,由于有两个表面,因此靠机身自然对流可以散发 的热量为1.36W。考虑到还有侧边的存在,我们可以认为这个功率是1.5W。
接下来计算辐射热量。由于iPhone 5的材质是铝合金和玻璃,氧化铝合金的辐射率大约在0.3左右,而玻璃的辐射率大约是0.85,因此整体辐射率取0.6,那么在外壳温度整体为45度的时候,靠辐射可以散发的热量经过计算大约是1.16W。
也就是说,一台通体45度,垂直置于静态25度的环境中的iPhone 5,可以散发的热量极限是2.66W。
实际环境中,考虑到用户体验,手机不会也不可能做到整机均匀发热,这无疑会降低手机的散热能力,但由于人体与手机的接触也可以带走一定的热量,因此 两者互有增减,相信整体的散热功率不会与计算数值差距过大。因此,大约2.66W就是iPhone 5所能承受的最大整机功率(这里直接使用了整机功率,这是因为目前电子产品除了天线部分以外,消耗的电能绝大部分都转化成了热量,耗电量和发发热量基本相 等)。
曾经广为流传的两个手机CPU温度测试视频:(视频1)(视频2)
再来看看Galaxy S4。由于计算的方式是相同的,因此过程就不给出了,唯一的不同是,作为塑料外壳的Galaxy S4,在热辐射效率上要远高于铝合金的iPhone 5,具体来说在0.9左右(看来塑料机还是有一些好处的)。结果直接给出,Galaxy S4在同等条件下的散热量为4.15W。
Galaxy S4旗舰安卓手机的代表,因此更大尺寸的机器我们就不计算了。结果显而易见,对于iPhone 5这种尺寸的手机而言,系统的极限功率是2.66W,而Galaxy S4尺寸的产品则为4.15W。体积处于两者之间的产品,散热能力则介于它们之间。至此,体效积中的体就已经有了结论。因为这个参数是不会因为技术提升而 改变的,所以它可以作为我们判定未来新技术与新可能的良好标准。也就是说,对于一台5寸手机而言,我们可以得到的最大性能就是4.15W×每瓦特性能,不论这台手机的理论性能有多么强大。换句话说,只要一台5寸手机的整机最大功耗超过了4.15W,那么我们就一定可以判定:它的性能无法发挥。
进一步的,对于一台手机而言,屏幕所占据的功耗大约从4寸的1.2W到5寸的1.8W不等,因此我们可以得出,极限散热功耗中,留给CPU、 GPU、内存等计算系统的功耗上限,对于iPhone 5尺寸的手机而言是1.5W左右,对于Galaxy S4尺寸的手机而言是2.5W左右。
需要说明的是,在计算散热量时,我们所关注的对象是手机外表面,至于内部是如何传热的,对结果不会有影响。可能你会存在疑问,某手机内含热管,某手机拥有石墨散热膜,散热要好得多——这是错误的,辅助散热措施只是增加了手机内部的热传导效率,最终效果是提高手机整体的温度均匀性,而我们在计算的时候 已经假定了这个数值是100%,也就是内部热传递设计为完美状态的极限结果。
至此,我们可以对智能手机“核战争”带来的问题给出一个精确的描述:由于近年来手机配置的疯狂提升,导致手机的最大性能已经超越了体效值。这个前提下,任何理论性能的提升都是纸面的,功耗已经成为了一堵不可逾越的墙。在可以预见的未来,如果我们希望继续提升手机的性能,那就只能在能耗系数上下功夫。
OK,带着这个结论,让我们来重新审视一番市面上的主流手机处理器。
产品审查:高通骁龙800
首先我们来看一看高通。之所以首先观察高通,是因为相对而言高通的产品是变化幅度最小的,因此我们可以借用的历史数据就最多。在《四核处理器•上》 成文时,高通的最新产品是S4 Pro APQ8064。而在我们撰写本文时,高通重新命名了它的产品线,S4 Pro有了继任者骁龙600。这是一颗和APQ8064区别很小的芯片,最大的提升在于内存从双通道LPDDR2 533变成了双通道LPDDR3 1066,因此我们不打算深究这颗芯片。
高通的重头戏,以及下半年乃至明年的主打,将是骁龙800。它拥有改进后的Krait 400核心,主要改动是调整了内部缓存架构,降低异步设计带来的影响。同时,骁龙800引入了HPM工艺,主频达到了2.3GHz,成为手机SoC中的一 个超过2GHz大关的产品。除此之外,骁龙800还集成了新的Adreno 330 GPU,性能与规模再次翻倍。
骁龙800核心照片
相信看过之前的文章后,现在的你已经不会被上面充满诱惑力的宣传所击倒。是的,我们再次重复一遍:绝对性能的提升没有意义,决定用户体验的是体效值,或者说每瓦特性能。那么骁龙800的每瓦特性能有没有提升呢?
首先我们来看一看CPU部分。由于缓存的增强,Krait 400核心的执行效率必然会得到一定的提升,但是Krait核心从本质上来说依然是一个“增肥”版的Cortex A9,它所面对的最大问题其实是由于指令队列的不足,导致架构的IPC受限。
Krait的后端就像是规模巨大的工厂,而经过持续的升级,Krait的前端已经从小港口变成了大型码头——但是连接它们的依然只是一条省道。这样 的架构也许可以在理论测试中获得极高的成绩,但是在实际变幻莫测的应用代码面前,往往无法发挥应有的效率,根据某些第三方测试,在诸如视频解码、文件压缩 与解压缩等应用中,Krait 300核心的同频性能有时会不如Cortex A9甚至A7。这虽然不足以定性的给这个架构下结论,至少也可以说明一部分的问题。
文件压缩速度,骁龙600的Krait 300内核同频性能甚至不如Cortex A7
因此,综合来看,Krait系列核心的能耗,恐怕是比较悲观的——上篇中我们做过相应的比较,得到的数据也倾向于支持这样一个结论。APQ8064 的执行效率并不如Cortex A9,Krait 400核心虽然经过了两次升级,但是考虑到Krait 300的实际表现,我们认为其执行效率至多只能达到略高于A9的水平。也就是说,Krait 400架构效率上并没有大幅超越Cortex A9。
那么产品效率呢?在这之前笔者需要稍微岔开一些话题。不知道你是否发现,我们在对比效率的时候往往都会和Cortex A9相比,准确来说是和SAMSUNG Exynos 4412相比。为何要用它作为基准?这并不是因为偏心或是对于三星有着额外的好感,原因很简单,那就是根据之前我们对手机极限功耗的定义,在那样的功耗限 制之下,Exynos 4412是体效值与绝对性能之间最接近的产品:Exynos 4412的核心,工作在1.4GHz时单颗功耗约为440mW,1.6GHz约为600mW,总功耗即为1.8W与2.4W。因此Exynos 4412是一个极好的标准——如果有产品的效率比4412高,它就可以发挥出比4412更加优越的实际性能,否则就只能在降频中工作。
来自Anandtech的测试,骁龙S4 APQ8064单个核心的功耗大约是700mW
在骁龙800以外的产品中,高通采用的是28LP SiON/Poly工艺,这会导致漏电增加,继而降低能耗比。在上篇中我们引用外媒Anandtech的结论,得知28LP工艺的骁龙APQ8064,运行在1.5GHz的频率下,单个核心的功耗大约是700mW。
而到了骁龙800,高通终于引入了先进的HKMG技术,将工艺更换为了28HPM。那么,这个工艺是否能提升骁龙800的能耗比?根据TSMC对于 28HPM的工艺描述,我们认为这个答案同样也许是比较悲观的,因为28HPM本质上是用来提升性能的工艺,它的主要目的是让骁龙800得以运行在使用 28LP的骁龙600所无法达到的高频下,但是处理器本身的漏电并不会因此而减小。
台积电四种28纳米工艺的区别
我们粗略估计,运行在2.3GHz下的Krait 400核心,即便只考虑频率的提升,单个核心满载的功率也将超过1W,四核心的总功耗则会远超2.5W的散热功耗上限。至于能耗比,在低频段,骁龙800 的能耗比也许可以略超龙600,但是总体来说我们并不认为骁龙800在CPU部分的能耗比会大幅领先于Cortex A9,也就是说骁龙800的体效值将明显小于极限性能。
按照我们之前的分析,骁龙800在手机上的长期性能表现就将不会比Cortex A9提升太多(短期性能表现,例如基准测试,会因为设备的热容以及温度滞后效应而大幅提升,但是只要工作足够长——不超过三分钟——的时间后,性能将会降低到Cortex A9水平)。
使用工具监控骁龙APQ8064的CPU频率变化,运行2分钟以后,CPU频率降低到了1GHz以下
使用工具监控骁龙600的CPU频率变化,Krait 300核心根本无法维持全速工作
那么GPU部分呢?这方面的问题可能会比CPU更加严重。高通Adreno 300系列GPU的超低能耗比已经是众人皆知的问题,其严重程度远超CPU。由于GPU相对于CPU而言是低频大规模电路,因此它对于漏电的敏感程度要远 高于CPU,对于频率的敏感程度则不如CPU。骁龙800所集成的Adreno 330相对于Adreno 320而言规模提升了一倍,因此功耗的提升幅度自然也不会小到哪里去,我们假定Adreno 330可以借助HPM工艺,完全避免功耗的提升,它的能耗比能有多高?
对于这个问题,我们可以通过一个粗略的测试来判断。Galaxy S4和配备了骁龙600的手机,在3Dmark中的得分基本是相同的,但是根据耗电量得出的整机功耗估值方面,Galaxy S4所具备的SGX544MP3 GPU的功耗几乎只有Adreno320的15%甚至更低,换句话说就是SGX544MP3的能耗比几乎是Adreno330的7倍——实际上,根据粗略 测试的结果,Adren 320的功耗已经达到了大约6W,不论这个数字是否精确,Adren 320早已远远超过了2.5W,甚至4.15W的散热功耗极限。性能翻倍dreno 330即使维持功耗不变,也将和CPU一样,在实际工作中也将永远不可能发挥出其最大性能,它的体效值同样远远小于理论最大性能。
最终,我们对于骁龙800的预期表现是比较悲观的。我们认为,在CPU部分,配备骁龙800的产品,并不能让用户得到远超四核心Cortex A9——如宣传、测试以及参数上那样——的实际体验,而GPU方面则更会远远不如SGX544MP3,不论理论测试有多么强大。骁龙800并没能有效提升 能耗比,因此装有骁龙800的产品,其体效值将远远小于宣传的性能,作为结果,消费者购买的大部分参数和数字,将会永远停留在纸面上——当然,还有基准测 试软件里。
产品审查:Tegra 4与Tegra 4i
虽然都属于Tegra 4家族,但是实际上Tegra 4和Tegra 4i的核心并不相同:前者基于Cortex A15,而后者基于改进版Cortex A9。对于后者我们不会多加论述,我们将主要关注前者。
如同Tegra3,Tegra 4也引入了nVIDIA自行设计的vSMP 4+1技术。因此对于Tegra 4的效率分析,将会分为两个部分:4核部分与附加单核部分。
首先是4核部分。Tegra 4的所有核心都是典型的Cortex A15架构,工艺使用了TSMC 28HPL,因此对于这一部分的分析我们可以找到一个极好的参照物,那就是Nexus 10所配备的Exynos 5250。后者是一枚双核Cortex A15、32nm HKMG LP工艺、工作频率1.7GHz的SoC。根据已有的测试结果,Exynos 5250的CPU功耗为4W,也就是说单核功耗为2W。这 项对于Exynos 4412的440/600mW而言是一个相当大的数值,这也意味着Cortex A15的性能必须要四倍于Cortex A9,才可以维持效率的一致。NV做到了吗?很明显,也很遗憾,没有。Cortex A15的性能提升幅度远远没有功耗提升幅度大,两者之间的差距导致了Cortex A15的每瓦特性能相对于Cortex A9来说有着至少一半的下降。
采用A15架构的Exynos 5250单个CPU核心功耗约为2W,数据来自Anandtech
那么回头来看看Tegra 4。由于核心是相同的,我们只需要对比工艺。TSMC 28HPL相对于三星32nm HKMG LP,究竟有没有性能和漏电方面的提升我们很难判断,但是大体上两者属于同一时代的同一水准工艺,相信差距并不会过大,我们假设台积电的28LP工艺总体 能耗比三星降低30%——这已经几乎是同一代工艺可以存在的最大差距——这也远不足以抵消Cortex A15和Cortex A9近乎200%的差距,更何况Tegra 4的主频高达1.9GHz,这进一步降低了它的功耗可以低于2W/核心的可能性。这也就意味着,即便只有一颗核心工作,Tegra 4的功耗就已经逼近了4寸手机的散热功耗极限,而四核同时工作,如果不加限制,CPU部分的总功耗必将轻松突破8W。
既然能耗比如此之低,那么技术有何改变、理论性能有何提升、在哪里提升就完全没有意义了。在手机上,Tegra 4的四枚Cortex A15所能发挥出的长期性能,除了极少数情况下,可以几乎肯定的说,将远不如一个设计优秀的四核Cortex A9处理器。
那么辅助的拌核部分呢?NV没有公布拌核的细节资料,我们假设它工作在1GHz,由于HPL工艺带来的低漏电,预计可以让这枚核心的功耗降低到 0.6W左右,大约等同于一颗1.6GHz的Cortex A9。在这个工作条件下,Cortex A15的能耗比和Cortex A9比较接近,因此它们具备了接近的体效值。但是此时的Tegra 4,绝对性能只有四核Cortex A9的四分之一,体效值远远高于绝对性能,这也就意味着此时的Tegra 4会因为过慢而无法满足用户需求。
伴核要想省电,必须工作在更低的频率
综上所述,Tegra 4不论在哪个模式下,所能提供的最大性能都难以超越四核心Cortex A9处理器,把这样一颗处理器做进手机唯一的意义也许只有一个——想方设法让手机坚持满载运行三分钟,跑出一个惊世骇俗的基准测试分数,给手机发烧友作茶 余饭后跑分攀比的资本,就好比购买超级跑车上下班,除了炫耀以外没有任何意义。
至于Tegra 4的GPU部分,由于目前资料较少,所以无法给出分析对比,希望读者海涵。
当然我们也需要明白,Tegra 4的悲剧并不全是由于Tegra 4本身或是nVIDIA的技术实力导致的,究其根本,元凶还是Cortex A15核心过低的能耗比。这也决定了不仅是nVIDIA,其他任何试图在产品中引入标准Cortex A15架构的厂家,例如未来的华为海思K3V3,最终都将难逃“性能超不过A9”的魔咒。对于手机等便携式设备而言,Cortex A15毫无疑问是一个失败的设计,也无怪乎高通和苹果在几年前就决定放弃这个架构,自行以Cortex A9为基础发展自己的强化核心。这也从另一个方面看出,至少在目前可以看到的ARM产品中,Cortex A9依然是可以提供最强实际性能的产品,即便它已经问世超过了2年。
最后提一下Tegra 4i。相信nVIDIA规划这样一个产品,也是因为NV实际上非常明白Cortex A15是一颗怎样的核心。因此,我们甚至可以理解为,Tegra 4i才是针对手机市场所推出的高性能产品。改进的Cortex A9 r3p1核心可以带来最多15%的同功耗性能提升,也就是更高的体效值与实际性能。但是Tegra 4i却如同骁龙800一般选择了HPM工艺,并且因为需要集成基带而无法在2013年上市,这对于Tegra 4i和nVIDIA而言无疑是彻头彻尾的悲剧,尤其是如今Cortex A12箭在弦上的情况下。如果说Cortex A15可以看作ARM在被成功冲昏了头脑之后的大跃进,那么后者就可以看作是ARM在大跃进失败后的反省之作,肩负了Cortex A9正统继任者的使命。对于它,我们在后面予以讨论。
产品审查:三星Exynos 5 Octa
最后来谈一谈技术最为复杂,同时争议也最大的三星Exynos 5 Octa(Exynos 5410)。这个芯片最大的特色就是整合了ARM的big.LITTLE技术,内部集成了8个核心——四个Cortex A15为一组,四个Cortex A7为一组,从而成为了手机上第一枚超越四核的片上系统。
也许你会提出质疑,NV的Tegra 3和Tegra 4实际上也拥有5个核心,为什么它不能算作是五核SoC呢?原因很简单,因为Tegra多出来的那一枚核心其实设计上是作为四个主核心其中之一的映射,在实际工作中系统是识别不出这一颗核心的。
但Exynos 5 Octa不同,它的八颗核心在某些情况下是可以同时运行的,因此可以称之为八核SoC,虽然实际情况下这样的工作模式不一定会被用上,关于这点,即 Exynos 5 Octa是否是伪八核,同样也是围绕这颗芯片的众多争议中最大的一个,对此后面我们会详细讨论。
Big.Little架构
除了big.LITTLE以外,Exynos 5 Octa本质上是一颗非常典型的处理器,它拥有标准的Cortex A15核心、标准的ARM系统IP,支持的规格与系统配置也一如三星以往的风格,顶级而不顶尖。LPDDR3 1600的内存支持与12.8GB/s的理论带宽在手机SoC中实为翘楚,而PowerVR SGX544MP3运行在533MHz的高频下,假如不考虑信息尚不明确的Tegra 4,性能也足以进入ARM世界的前三:仅次于iPad4的SGX554MP4和骁龙800的Adreno 330。
工艺方面,三星使用了自家最新的28nm HKMG LP,根据三星的宣传资料,相对于32nm HKMG,28nm HKMG主要的提升在于集成度,也就是单位面积下可以实现更多的晶体管,提升幅度大约在35%左右。至于漏电等工艺性能,我们有理由认为不会和32nm HKMG,也就是上一代的Exynos 4412所采用的工艺有太大的差别,具体原因在上篇中我们也多有提及。三星32nm HKMG实际上是一个性能相当强悍的工艺,Exynos 5 Octa的基础至少也是有所保障的。
不过,如同之前说过的,Cortex A15本身不是一个利于手机使用的架构,只要把它做进手机,都要面对功耗难题,,三星也不能例外。Exynos 5 Octa的最高频率目前并没有明确的说法,也许会在1.7到1.9GHz之间,但我们知道的是,在Galaxy S4上,Exynos 5 Octa的最高频率只开放到了1.6GHz。
1.6GHz的标准Cortex A15核心满载功耗不会低于1.8W,三星即使经过大量优化,Exynos 5410四颗A15核心的总功率也依然要在6W以上,这大大超越了2.5W乃至4.15W的散热极限。实际情况可以作为这个推断的最佳例证:Galaxy S4的CPU满载工作的时间只能达到区区10秒,之后就不得不因为核心温度突破90度而被迫关闭Cortex A15核心。
Exynos 5 Octa是一个明显的市场导向产品,三星在设计它的时候,考虑优先点是市场对于参数的需求,而完全不顾这样规模的硬件是否可以安全的工作。当然,作为应 对,ARM提出了big.LITTLE,三星也将其引进到产品中,但是这样的行为并不能本质上改变这个设计的失败之处。有人也许会说,这不是很好吗,何来 失败?那就让我们继续研究下去。
运行5秒钟以后,猎户座5处理器的A15核心即开始降频
现在让我们来打个赌:如果你是Galaxy S4八核版的用户,你绝对会有这样的体会:Exynos 5410处理器主频在实际运行中非常不稳定,低于标称的1.6GHz是常态。
在Exynos 5410中,Cortex A15四核的最低工作频率是1.2GHz,而Cortex A7四核的最高工作频率也是1.2GHz。问题是,这两者的同频性能并不一样,导致以频率为控制参数的算法比较难写。于是三星在系统中将Cortex A7的有效频率显示为实际频率的一半,并以此作为控制参数,就实现了较为线性的频率——性能曲线。
也就是说,只要你看到Exynos 5 Octa的工作频率是1.2GHz以上,就意味着现在是Cortex A15在工作,而600MHz则意味着Cortex A15已经关闭,系统已经切换到1.2GHz的Cortex A7。由于频率调节十分频繁,所以这给我们计算Exynos 5 Octa的效率带来了一定的困难,不过我们依然可以从实际工作的情况下对于极限性能给出近似的计算。
Exynos 5410 CPU + GPU同时满载的情况,注意下方的频率曲线
根据爱活网友站enet的测试结果,在满负荷工作的时候,Exynos 5410的工作模式大约如下:Cortex A15于1.6GHz工作6秒左右,于1.2或1.4GHz工作4秒左右,然后切换到1.2GHz的Cortex A7工作10秒左右,并且在这样的序列下循环。由于频率调节的目标是功耗以及温度,因此我们可以近似认为在这样的工作序列下,处理器系统的平均功耗大约是 2.5W左右。如果将Cortex A15的性能归一化为同频Cortex A9的1.5倍,Cortex A7为0.7倍,因此我们可以得到在这20秒内,Exynos 5 Octa所输出的总性能相当于四核Cortex A9运行在1.53GHz时的性能。也就是说,Exynos 5 Octa所能提供的持续性能,甚至还不如Exynos 4412,因为后者在2.5W的功耗限制下可以运行在1.6GHz。
Exynos 4412依然是能耗比最为均衡的手机处理器
当然,这个结论有些粗略,我们只验证了基准测试时猎户座5处理器的CPU频率变化,实际应用中可能有所不同,但有一点可以确定,那就是Exynos 5410在手机上可以发挥的性能远远低于硬件设计的极限性能。Cortex A7与Cortex A15联合的效率,大约和Cortex A9不相上下,这也就意味着配备了Exynos 5 Octa的设备,其体效值并不会比Exynos 4412高。
然而,这并非Exynos 5 Octa的最佳工作模式。ARM big.LITTLE技术其实包含有三种工作模式:整体迁移、非对称多核心与异构多核心。整体迁移模式指Cortex A15或Cortex A7轮流工作,两者无法同时激活,具体开启的核心数字根据系统负载决定。非对称多核心则是将Cortex A15四核簇和Cortex A7四核簇看作两组非对称多核心簇,依靠外部总线工作在异步模式下,从而启动所有的八个核心。而第三种是最诱人的,也就是将每一个A15与A7组合成为一 个“处理器对”,将其看作一个单独的处理器,系统根据需求开启若干个“处理器对”,而每一对处理器究竟使用Cortex A15还是Cortex A7,完全根据该核心的负载决定。
从理论上来说,Exynos 5 Octa支持全部的三个模式,但是三星目前在系统中却只支持了第一种模式,产品中的工作模式也只有整体迁移。这导致一些人认为三星这颗CPU的技术开发尚 未完成,是“半成品”,因此并没有实现最佳的工作效果。甚至有一些分析表示,这是源于Exynos 5 Octa的硬件设计缺陷导致的,需要在未来的产品中才能修复。对此,我们认为这样的说法既是对的,也是错的。
big.little的三种工作模式
为什么这样说?前提是,单纯的降低功耗并没有意义,只有提升体效值才可以获得更强的性能。对于Exynos 5 Octa而言,其他的两种工作模式似乎可以降低功耗,但可以提升每瓦特性能吗?这是一个未知数,而且是一个相当不容乐观的未知数,原因之一就在于 Exynos 5 Octa的两组处理器,二级缓存的大小不同。
根据架构图,Exynos 5 Octa的Cortex A15部分,二级缓存为2MB,而Cortex A7部分只有512KB。如果是Cortex A9时代,这并不是问题,因为所有的二级缓存都是靠总线实现的访问。但是在Cortex A15和A7时代,ARM为了提升缓存效能,将L2 Cache整合进了多核心控制器SCU中,它的坏处就在这里:一旦系统内同时存在着激活的Cortex A7和Cortex A15,那么由于二级缓存的大小不同,两组核心之间的联合工作将会变得非常麻烦。
二级缓存是内存的映射,所以所有核心所访问的二级缓存的数据必须完全相同。Cortex A15和Cortex A7各自拥有自己独占的二级缓存,当两者协同工作时,缓存是无法共享的,维护两组L2之间的数据一致性会变成一件非常重要同时也非常影响性能的事情。高通 的异步架构之所以有性能损失,一致性开销就是其中很重要的因素之一。
在Exynos 5 Octa中,两组A15和A7核心的二级缓存大小不同,这就意味着即便是在最好的情况下,也会导致Cortex A15处理器簇的有效L2从2MB缩减到512KB,这对性能的影响极为巨大。
同一个处理器中,A15核心和A7核心的缓存容量根本就不相等,在它们公布工作时会带来问题
所以,三星选择了只实现第一种工作模式。在这个模式下,缓存一致性无需维持,只需要在切换时通过内存将缓存数据复制即可(A7到A15可以视作部分 填充,而A15到A7可以丢弃超出512KB的部分),甚至可以更简单的直接丢弃L2数据,令其重新填充。因为相对于联合工作所需要的一致性维护需求(其 频繁程度与缓存命中率相关,可能只比处理器时钟频率低2~3个量级)而言,由于动态频率控制导致的核心切换要少的多,至多只有每秒百次的水平,因此这样的 损失是最少的,换句话说,另外两种big.little模式虽然看起来更美好,但实际上反而会导致系统效率的降低,从而进一步降低搭载Exynos 5 Octa设备的体效值,使其变得比Cortex A9更慢。
从这个意义上说,如果你需要一颗手机处理器,至少在CPU部分,Exynos 5 Octa实际上相对于Exynos 4412而言是倒退的。这无疑是对于畸形市场需求的最佳打脸:超高的规格,强大的指标,性能却在偷偷的后退,不知道这到底迎合了谁的需求。
当然,Exynos 5 Octa也不全都是坏处。由于LPDDR3的引入,翻倍的内存带宽可以极大提升系统在日常使用中的感受,因此总体而言Exynos 5 Octa的体验不会有之前评价的那么悲观,只是会距离你所认为的强大相去甚远罢了。至于另一个好处则来源于PowerVR SGX544MP3这枚GPU。
就如同PC一样,手机对于GPU的需求也慢慢超过了CPU。不客气的说,现在的日常需求,一枚四核心Cortex A7就可以满足了,但是游戏所需要的性能却是永无止境的。在Exynos 4210“猎户座”刚刚发布的时候,Mali400MP4几乎可以满足所有游戏,这枚GPU不仅速度飞快,而且极为省电,能耗比相当高。但是随着手机游戏 的进步,在Exynos 4412上这枚GPU已经显出了疲态。三星在Exynos 5 Octa上作出更换GPU的决定非常及时。Exynos 5 Octa的3D性能达到了目前手机处理器的顶级水平,在日常使用中你有很多机会可以体验到它带来的提升。
根据粗略测试,搭载Exynos 5 Octa的Galaxy S4在运行3Dmark的时候,整机功耗不会超过2.5W,这也就意味着这枚GPU的满载功耗将不会超过1.5W。这无疑是一个非常振奋人心的数据,这意味着PowerVR SGX544MP3在维持了Mali400MP4能耗比的基础上(严格来说仍然有一定的下滑,但是远远高于继任者Mali T604)将其的最大性能扩展了几乎四倍,这样的提升才是符合用户需求的提升。对于这样的进步,我们需要高举双手给予掌声。
新一代处理器性能对比分析
虽然说我们之前通篇都在论述的观点是目前旗舰手机平台的性能受限于功耗,无法在日常使用中体现,但是不得不承认基准测试也是部分用户日常使用的功能 之一,而且这些芯片“不管实际情况,就跑分到底谁最快”也是很多人很有兴趣的问题之一。当然,相对于前几年的产品而言,现在的平台下跑分的意义不论如何都 在变得越来越小,因此我们不会再像上篇一样做连篇累牍的深入分析。取而代之的,我们只会从几个理论测试软件的成绩里大概的看一下它们之间的胜负关系与潜 力。
由于新一代手机处理器的降频问题十分严重,因此我们不能简单的去比较频率与分数,因为无法确定在实际测试中它们运行在什么频率下。这个问题对于骁龙 800而言相对小一些,因为Krait 400核心的实际功耗并没有超越设备散热极限太远,因此我们有理由认为在诸如Antutu跑分这类间歇性满载,且满载时间不超过一分钟的测试程序中,骁龙 800是可以运行在全负荷的2.3GHz的(除非厂商设定的温度控制阈值极为激进,)。
“绝不降频”的APQ8064处理器,很可惜搭载它的是内置散热片的高通开发参考平台
Exynos 5 Octa的情况在之前已经有所说明,但是由于Antutu的满载压力并没有系统稳定性测试软件那么高,因此我们假设Octa在跑Antutu时的频率分布 为1.6GHz、1.4GHz Cortex A15和1.2GHz Cortex A7各占1/3时间。这样根据DMIPS的数据折算,整体性能相当于1.19GHz的Cortex A15。考虑到Cortex A7在整数部份的同频性能与Cortex A15的差距并没有DMIPS所显示的大,但是浮点性能方面的差距非常明显,因此在整数部分,等效频率将会接近1.5GHz,而浮点部分则维持 1.19GHz。
至于Tegra 4,对于一般手机而言它几乎不可能跑到1.9GHz的满载频率,但是我们找到了nVIDIA Shield的测试结果。由于Shield拥有足够的空间安装散热片,因此可以避免频率的下降,因此在测试全程中,频率应当都可以维持在1.9GHz。
下面就让我们来看看结果。只采集CPU的整数和浮点部分。
结果一如我们的预料。如果不降频,那么Cortex A15的绝对性能将是最为强大的,即便骁龙800拥有高达2.3GHz的主频,它也不是全速运行的Tegra 4的对手。
同时,和Cortex A9的代表Exynos 4412比较的话,我们发现骁龙800的整数性能领先幅度并没有频率所表现的那么大,而Exynos 5 Octa由于过高的功耗,也没有表现出应有的性能。
下面我们计算一下每MHz下各个平台的对应性能:
再结合功耗,计算各个平台的能耗系数:
这个结果就比较有意思了。可以看到,Tegra 4在整数和浮点性能方面,单位功率的性能都没有超过Cortex A9,甚至整数方面的能耗比下降了一半。而Exynos 5 Octa在整数方面相对于Tegra 4的效率进步,更多的归功于能耗比更高的Cortex A7内核,毕竟不论是A7、A9还是A15,整数运算单元都是两个,理论上同频整数吞吐量没有区别,但是依然没能对Cortex A9实现实质性的提升。而骁龙800延续了之前产品在整数性能方面能耗比不如Cortex A9的传统。
因此,结论就十分清晰了:在限制运行在相同功耗的前提下,以对日常使用影响最大的整数性能而言,不论是骁龙800还是Exynos 5 Octa,都无法表现得比Cortex A9更好。当然这是理论测试,实际运行App时,由于处理器内部乱序执行和分支预测等方面的增强,几大主流新产品的表现会还是比上一代Exynos 4412强大一些,但是我们要重复之前说过的话:你不可能得到像测试分数那样巨大的体验提升,尤其是考虑到Tegra 4的跑分成绩已经高达40000分,骁龙800的跑分成绩超过了33000分,Exynos 5 Octa虽然不及以上两者但也接近29000分,而Exynos 4412只有区区16500分。
如此夸张的性能差别只有在跑分时才能体现
总体来说,虽然有着诸如GPU性能的良性提升与内存性能的良性提升,但是星星点点的美好并不能掩盖新一代处理器所面临的整体的问题。在我们已经分析过的三个产品中,实际上没有一个实现了效率的明显进步。这意味着虽然它们每一个都宣称自己比前一代提速xx%,但是实际使用中由于体效值的原地踏步,我们实际上无法感受到所宣称的速度。这样的情况维持一两代还可以勉强接受,但是如果一直持续下去,相信消费者终究会疲劳,就像现如今陷入困境的PC市场一样,最终不再有人愿意为新产品买单,而这显然是手机厂家所不愿意看到的。
从核心上寻找提高能耗比的方式,以ARM的技术实力似乎已经走到了尽头。那还有什么办法可以推进效率的进步呢?答案也许只有工艺了。
关键之中的关键:半导体工艺
通过改进处理器微架构来获得性能提升是最体面的方法,也是最难的方法。从40年前的英特尔4004,再到今天的酷睿i7,IPS(每周期指令吞吐量)也就是从1提升到2再提升到3的进步。再往上,就撞到了难以逾越的功耗之墙。
如何打破这堵高高的墙壁?答案只有一个:更好的工艺。对于ARM而言尤其如此。5年前的ARM11处理器还在使用老掉牙的130nm普通CMOS工 艺。而最近一到两年,由于无法从核心上榨取更多的油水,业界开始用越来越新的工艺制作最先进的ARM处理器,从45nm到32nm甚至现在的 28nm,ARM处理器在工艺上的进步速度要远超同期PC处理器。正是这些新工艺,支撑着ARM处理器在近几年内以每年200%的速度在提升。
但是提到工艺,我们就不得不再一次提到一个词:极限。没错,通过超量应用工艺,我们获得了超量的性能提升,但是工艺的储备并不是无穷无尽的,现在的 我们已经走在了工艺的极限上。如果是传统的工程极限,随着新技术和新方法的发明,最终都可以实现突破,但是工艺面临的这道极限的背后是物理定律。
在28nm以后,晶体管实在是太小了,小到我们必须重新梳理物理定律,才能准确掌握它的物理性质。随着半导体工艺线宽迈入20nm以下,集成电路中的某些结构已经开始迈入介观和微观之间的灰色地带。对于微观世界,也就是量子世界,人们目前所掌握的物理学,并不能给出太多具备足够工程价值的答案。
也许你很难想象,现代为处理器所使用的晶体管,其栅极漏电的很大一部分原因已经是量子隧穿效应。这是因为对于一个线宽只有30nm的晶体管而言,它 的栅极绝缘材料的厚度只有不到2nm,也就是说,只有不到10层原子的厚度。而工艺最先进的英特尔,其量产晶体管的栅极绝缘层厚度已经不到1nm,只有5 层原子的厚度。在这样的规模下,宏观的物理定律已经有相当程度的失效,这个规模的晶体管会做出什么行为?更多的只能靠猜测,靠无数次的实验。
当经典物理定律失效,人们需要在盲目的实验中找到解决方案时,进步的速度就变得不再可以预测。
单个晶体管的绝缘层厚度已经只有数十层原子
2013年已经是28nm的时代,按照预测,2014年业界就将往20nm迈进。但是这一步能顺利走出去么?相信没人对此能有足够的信心。作为世界 上最大的代工厂,台积电TSMC的工艺路线对于业界的影响力是最为巨大的,早在2009年,TSMC就已经宣布将要量产28nm逻辑电路工艺,但是实际情 况是直到2011年底,TSMC都没能拿出哪怕只用于性能测试的样品芯片,而最终的量产一直到2012年6月才在跌跌撞撞中开始,前后延期达三年。那么, 面对TSMC“2013年底量产20nm”的豪言壮语,你又能相信多少呢?
台积电早先公布的路线图,回头来看雄心壮志基本停留在纸上
TSMC的下一代20纳米工艺还面临一个问题——性能提升将非常有限。从官方演示文档中我们可以看到,TSMC的20nm规划中,针对移动设备的工 艺——也就是LP、HPL和HPM——被整合成了一种,名为20SoC。它的性能,以TSMC官方的预计,仅能实现漏电比28HPM降低20%、性能比 28HPM提升15%的水平。希望各位注意,对比的对象是28HPM,而28HPM的漏电水平与28LP是接近的,也就是说从28nm到 20nm,TSMC只实现了20%的漏电降低。
这是官方最乐观的预计,而实际情况可能要比这个悲观的多,一如TSMC对于28nm量产时间的预计一样。那么我们就可以得到一个自然而然的预 计:20nm时代,我们除了更高的集成度,什么都得不到。这就意味着,以20nm工艺制造的芯片,固然可以通过规模的扩大而获得更大的理论性能,却几乎无 法从工艺的进步得到单位功耗效率的提升。在目前手机处理器绝对性能已经超过体效值的大前提下,这样的结论几乎就已经宣布了,未来的产品不会为我们带来更快 的实际性能。
英特尔在2012年开始量产3D晶体管,台积电至少要等到2015年
那么更先进的工艺呢?例如16nm?根据目前的规划,TSMC将在16nm引入近年来半导体工艺中继HKMG后最大也可能是最后的进步,也就是3D 晶体管,又叫finfet。这个技术可以为单个晶体管带来40%的性能提升,同时降低30%的功耗,目前已由英特尔量产,而整个业界只有英特尔实现了量 产,由此可见其技术难度水平。我们没有理由认为,TSMC对于finfet的引入会一帆风顺,外加16nm对于EUV的需求以及EUV产业目前的状况,至 少在笔者看来,TSMC可以在2015年量产16nm finfet的概率几乎为0。至于GlobalFoundries或者三星,前者目前刚刚实现28nm的量产,虽然幻灯片已经写到了10nm,但是我们不 应对其抱有太大的信心,而三星的产能过小,即便有良好的工艺,也无法支撑业界的需求,因此不需要投以太大的注意力。
这就意味着,2014年和2015年对于ARM而言会非常艰难。因为先进工艺在这两年将出现空窗期,而没有先进工艺的支持,ARM系产品的性能进步 就只能停留在纸面。当然,也有一种选择,那就是提前在20nm上——就像英特尔所做的那样——引入finfet,但这会给本来就已充满变数的20nm工艺 增添新的难度,最极端情况下也许会导致2014年的彻底空白。因此我们似乎必须接受2014到2015年的空窗期。
那么,更先进,比16nm还先进的工艺呢?业界普遍认为,由于物理规律限制,目前常规晶体管的极限将在2nm左右到来,在这个规模下,基于宏观原理 工作的硅基半导体晶体管将彻底无法运行。而考虑到工程实际情况,也许在10nm时就已经会遭遇无法解决的问题。所以保守来说,我们依靠了40年,并以之建 立了辉煌信息产业大厦的硅基半导体工业,也许在10年内就会走到尽头,我们所剩下的工艺,乐观估计还有6代,悲观估计可能只有4代。之后,人们就必须要想 办法去寻找新的原理,以新的材料制造新的器件。突破终将会到来,但是究竟需要多长时间?谁也没把握,因为基础物理已经80年没有进步了,半导体行业在打光 手中所有牌之后的痛苦空白期到底有多长,没有人可以给出答案。
新架构,新希望?
在前文中,我们将Cortex A15批得体无完肤,也许你要有疑问:既然A15在手机上表现如此糟糕,ARM为何还要设计出这么一个核心?答案非常简单:ARM高估了半导体工艺的升级与技术进步速度,Cortex A15实际上是为20nm工艺所设计的核心。
让我们把时间倒回到2008年,TSMC在当时提出了未来5年半导体工艺路线图。如果一切都与图中的宣传精确吻合,我们在2010年就能用上 28nm处理器,而在2012年,也就是去年,我们将迈入20nm时代。按照这个进度,ARM在2013年将核心进化至Cortex A15就没有任何的问题。也许ARM的初衷是借助于20nm工艺良好的性能,可以强行将Cortex A15的实际功耗压缩到0.5W以内,获得两倍于Cortex A9的能耗比提升。这点从早期TSMC和ARM的演示文档中也可以看出来。而且,A15也的确做到了绝对性能提升两倍的设计目标。
TSMC画的大饼
只不过,工艺最终没能按照ARM所设想的发展下去。28nm跳票到2012年,20nm还在遥远的2014年,而且即便成功量产,其可以得到的性能 提升也极为有限,一连串的意料之外造成了Cortex A15的尴尬定位。由于工艺的失算,Cortex A9事实上失去了后继产品:Cortex A7的能耗比虽然很高,但其性能太弱,甚至不如Cortex A8;Cortex A15虽然绝对性能翻倍,但是能耗比过低,两者都无法作为Cortex A9的继任者。即便ARM通过big.LITTLE技术将二者捆绑在一起,最终实现的总体效率也只能基本上和Cortex A9打个平手,所谓的继任者更多成了纸面上而不是性能上的。
很明显,ARM被TSMC这个队友坑惨了。
有趣的是,在ARM官方面临产品线问题的时候,反而是两家ARM IP的购买商——高通和苹果——给出了比Cortex A15更好的解决方案。它们都规避了Cortex A15过于臃肿的架构设计,把注意力集中在对Cortex A9的优化和提升上。不约而同的,它们都选择了保留Cortex A9的前端、扩充Cortex A9的后端,区别是高通的着眼点在于提升指令的理论吞吐量,苹果的工作重心在提升内存表现。当然,最终的结果我们看到了,高通的方案并没有对Cortex A9形成实质上的优势,苹果的方案则很难找到对比的标准,但是至少这两家的行动方向是正确的。
因此在Cortex A15架构推出3年后的2013年,ARM痛定思痛,给出了自己针对这个问题的答案,那就是Cortex A12。
在设计规格上,ARM终于放弃了宏伟庞大的“200%性能提升”,转而只给Cortex A12定下了比Cortex A9快40%这样一个目标。这是一个相当现实的目标,尤其是考虑到Cortex A9的体系架构上的确存在一些过时的限制,让我们来看Cortex A12是怎么改的。
首先,如同其他的ARMv7架构处理器一样,Cortex A12提升了二级缓存的性能,学习前辈Cortex A15和A7的先进经验,把二级缓存整合进多核心控制器,所有核心终于可以不用再通过一条可怜的64bit总线访问自己的缓存,这将大大缓解拥堵现象。其 次,Cortex A12把NEON和vFP提升到了第四版,并且和Cortex A15一样引入了内部OoO(乱序执行)设计,指令执行时效率要比A9高很多。最后,A12的外部接口也从64bit AMBA 3升级到了128bit AMBA 4,带宽提升一倍有余。
Cortex A12凭什么降低了功耗?主要是三方面,一方面是最大并发取指数从3降低到2,另一方面是大幅度缩减了指令派发队列,最后一方面是大幅度缩减了运算单元的 数量。由于指令派发队列的意义在于可以支撑乱序执行,它所对应的寄存器资源和硬连接资源是非常庞大的,Cortex A15为所有8组8个运算单元设计了完整的8个独立指令队列,这无疑消耗了巨大的电力,而Cortex A12把这个数字缩减到了3。与此同时,Cortex A12的运算单元也减少到3组6个,即整数、存取和FP/NEON,每一组内包含两个运算单元,共享一个指令队列。
而Cortex A9就相当寒酸了,只有一个指令队列,支撑着2个整数ALU、一个存取单元和FP与NEON。仅仅依靠这样的改进,Cortex A12就几乎可以实现40%的性能提升,更不要说算上二级缓存、外部总线、以及更为前端的取指与解码部分——例如数据与指令部分重命名与分派彼此独立—— 的改进了。总体来说,Cortex A12是一个与Cortex A9相比性能提升40%、功耗维持不变的架构,它单凭一己之力拯救了ARM处理器摇摇欲坠的每瓦特性能,可以说是ARM的救星。A12唯一的问题只有一个 ——它最早也要等到2014年中才可能有产品,那时ARM很可能已经被英特尔大卸八块了。
如果我们把Cortex A12与高通Krait、苹果Swift放在一起看,可以发现一些比较有趣的地方。与ARM不同,高通Krait几乎保持了Cortex A9的前端设计,唯一的增强是取指部分的并发能力提升到3,后端则和Cortex A15一样堆积了数量巨大的执行器,具体来说是7个。这样的架构瓶颈来自于连接前端与后端的中间部分,导致Krait在实际应用中根本无法发挥其 3300DMIPS——只比Cortex A15低5.7%——的理论最高性能。至于苹果Swift,由于缺乏资料与有效的对比方式,在这里并不能给出太多的分析,但是苹果的优势在于硬件与软件之 间可以做到完全的匹配,因此即便苹果对Cortex A9进行如高通一般的单方面增强,也可以依靠自身的操作系统进行针对性的优化并将其发挥出来。因此在这三个介于Cortex A9和Cortex A15之间的设计中,我们认为Cortex A12是最为平衡的设计。只是——如之前所说,我们恐怕无法在2013年看到它了,甚至在2014年都有可能看不到最终产品的上市。因此Cortex A12是否真的实现了ARM的设计目标,我们也只能等到2014甚至2015年才能看到结果。
未来之路:ARM
至此,我们已经把现在以及未来的产品、技术、架构等等方面都分析过了,以这些分析为基础,我们已经可以预测一下2013到2014年的技术与产品格局。
由于新的Cortex A12很难在2014年之前问世,因此在2013年下半年到2014年中这段时间内,市场上的产品格局不会出现太大的变化。标准ARM阵营的企业,例如三 星,依然会选择Cortex A15作为其旗舰产品,高通则会用Krait 400与之进行对抗,对抗的资本是超过2GHz的频率,一如当年Pentium 4时代的英特尔。对于Cortex A15这个架构而言,如果不搭配Cortex A7(或者nVIDIA的伴核),其功耗将是不论如何也无法被手机所承受的,因此可以预见,big.LITTLE将是所有试图整合Cortex A15的芯片制造商唯一且必须的选择。目前有传闻,LG和华为都在设计自己的Cortex A15 SoC,那么我们几乎可以肯定,它们必然会采用4+4或者2+2的设计,或者插入自行设计的第五个核心。具体设计取决于设计师认为双核Cortex A7是否够用。
其他厂商方面,居于市场较边缘地位的厂家,也许会试图作出一些特立独行的搭配,以差异化的产品参与市场竞争。例如MTK已经宣布了一款八核Cortex A7的新产品,并宣称这颗SoC的所有八个Cortex A7核心都可以开启,是一枚真正的八核处理器,但是对于我 们也许只能报以呵呵。除此以外,也许会有某些厂商推出四核Cortex A7配备超级GPU的类似于游戏机的芯片,以迎合目前手机娱乐化的市场需求,这样的产品也许也可以获得不错的实际体验。但是总体来说所,主流手机SoC在 未来一年半内出现超过四核的可能性并不大,而且四核Cortex A9在CPU性能方面,一直到Cortex A12之前,都可以屹立在高端主流水准。因此对于那些手持Exynos 4412的用户,例如Galaxy S3的用户而言,如果你希望获得更强的CPU体验,那么你的升级日程完全可以推到2015年。
所以在未来的一年半之内,我们不能对看到让人眼前一亮的新产品报以太多的期待。不论是三星、nVIDIA、高通,都会以维持现有产品架构为主。至于 苹果,最大的可能是将A6处理器的双核Swift架构扩充至四核,但是以IOS的系统设计而言,这样的扩充有多大意义也很难说,或许硬件大战的后果是所有 人都无法逃避的。
而GPU部分,高通的产品在不解决能耗比问题之前,不论性能提升幅度有多巨大,都不具备太高的选择价值。而如果你是游戏重度玩家,那么Exynos 5 Octa在Android阵营里会是一个非常好的选择,前提是你需要有办法把CPU部分锁定在Cortex A7,否则Cortex A15巨大的功耗会抹杀掉你的大多数游戏体验。至于Mali400MP4,虽然老迈,但是运行一些非顶级大作的情况下依然拥有可以接受的性能,因此除非你 是基准测试爱好者,否则Mali400MP4除了较低的得分以外,并不存在太多问题。
工艺方面,我们在2013年应该是不可能看到量产的20nm工艺的,不论台积电如何对此信誓旦旦,都不要报以太大的期待。 GlobalFoundries在目前刚刚量产28nm,且产能非常有限的情况下,对于20nm的任何宣传都可以完全无视。反而是三星的20nm存在一些 变数,但是希望依然不大。
由于代工厂无法像英特尔一样靠销售最终产品去吸收工艺的成本,因此目前所有代工厂都普遍希望在20nm节点引入EUV光刻工艺。但是EUV工艺一直 以来的进度都非常缓慢,截止目前为止所实现的最大连续曝光功率只有40W,这个数字在2011年则是11W。在这个功率下,晶圆产出率只能达到每小时5 片,而满足量产需求的最低极限也需要60片,就正常情况而言,必须要达到100片每小时甚至更高的产量才可能获得正收益,与之对应的EUV光源功率需求就 来到了大约400W。换句话说,目前EUV光源的功率距量产目标还有10倍的距离。
从2011到2013年,光源功率的提升不到4倍,绝对功率提升不到30W,这就意味着10倍、350W的这样的需求缺口,称之为天堑似乎也不为 过。更糟糕的是,即便EUV光源的功率解决了,EUV生态系统还面临着光刻胶的反应速率过低、反应程度过低等问题,这些问题甚至比提升EUV光源功率更加 棘手。因此,对于业界曾经普遍希望的在2015年实现EUV光刻机的量产化,笔者认为实现的可能基本不存在。也就是说,16/14nm工艺上,全球代工厂 都将被迫采用193nm三次曝光来实现。
三次曝光会带来大量的问题,从成本到产量到良品率到曝光图案限制,无所不在。因此即便实现,对于芯片设计也会提出特殊要求,这对于那些希望将产品放在多个代工厂生产,或者希望中途更换代工厂的Fabless厂商而言,都会是一个极大的挑战。我们都知道苹果现在一直在坚决执行去三星化战略,但是在与TSMC的合作还没真正开始时,就又传出了将在2015年重新回归三星代工并且签下三年长约的消息,这说明了TSMC的20nm工艺情况并不乐观。
写在最后
我们可以很负责的说,从现在开始,所有的跑分天王都将沦为“只能跑分的天王”,不论厂家多么宣传我的产品具备多高的性能,多大的提升,只要你还是一个理性的消费者,都应该选择理性对待。