百人会云论坛2021|卢涛：带您走近Graphcore

作者：百人会 2021-01-15 23:51:01 来源：新能源汽车网

　　2021年1月15日，第七届中国电动汽车百人会论坛(2021)以“新发展格局与汽车产业变革”为主题拉开大幕。会期为2021年1月15-17日，大会主题聚焦“新发展格局与汽车产业变革”，3天会议期间共设置2场高层论坛以及7场主题论坛。

　　2021年1月15日，第五届中英电动汽车创新论坛的活动现场，Graphcore高级副总裁、中国区总经理卢涛向大家介绍了Graphcore这家年轻的企业：

　　在2016年5月份的时候，公司两个联合创始人Nigel Toon和Simons Knowles在英国的普林斯顿成立Graphcore这家公司。成立四年半以来，公司也得到了十足的发展，得到了资本界、学术界和产业界各种朋友们的支持。目前公司在全球大概500人的规模，公司做的这个产品主要是我们叫做IPU的针对AI应用打造的智能处理器单元。

　　除了IPU以外，Graphcore还联合打造了基于IPU的软件Poplar，针对AI这样一个工作负载协同打造的软件站。同时最后这个产品是以IPU平台的形式呈现给用户，这个产品可能是IPU的机器，或者IPU的服务器或者大规模的AI超算形态最后呈现给用户的。

　　目前公司四年半时间总共做了两代产品，我们2019年做的第一代16纳米的产品，上个月也就是12月份时候刚刚量产了中国第二代产品，基于7纳米的。公司成立到现在四年半时间，IPU在全球范围之内也开始在一些不同的行业里面得到了比较广泛的应用，到目前为止公司总共大概发货了超过一万片以上的IPU处理器，服务于全球将近一百个左右的商业用户或者机构。目前产品被应用在不同的领域，像数据中心、互联网、研究机构、高校、医疗、生物工程、金融以及汽车领域。

　　Graphcore从成立到现在虽然时间不长，四年半的时间，但是得到非常多的全球行业里面专家的一些认可，比如英国半导体之父、Arm联合创始人的Hauser爵士这样评价IPU，他认为在世界半导体史上有三次革命，第一次是70年代的CPU，第二次是90年代的GPU，第三次是由Graphcore率先提出的就是为AI计算而生的IPU。同时我们IPU也得到了学术界的一些高度的认可，比如图灵奖获得者，我们称为深度神经网络之父Geoff Hinton博士，曾经一次记者采访时询问他，您认为未来更加智能的处理器，面向未来的计算机是什么形态，他从他钱包里拿出来一个IPU，说这就是我认为未来的智能处理器的一个形态。

　　所以这里简单和大家汇报一下我们的产品，最新是2020年12月份量产的COLOSSUS MK2这样一个处理器，目前我们看到基本上在当今世界上最精密的处理器，是使用了台积电7纳米的工艺，在这样的一个芯片里面集成了将近600亿个晶体管，800平方毫米以上，这个是在今天工业界里面单一芯片最大的规模、最多晶体管的一个芯片。在这样一个处理器里面，我们集成250TFlops AI-Float运算能力，以及900MB的存储空间，同时集成将近1500个独立处理器单元，支持将近9000个任务的并行处理。所以这样一个处理器，我们叫做GC200。

　　基于7纳米的GC200处理器，以及针对通讯处理方面的一些创新，我们打造了IPU-MACHIN M2000，它是一个1U的刀片，属于即插即用的智能计算刀片，非常易于部署。在1U空间里面我们提供了1 PetaFlop IPU算力，450GB的存储空间，以及2.8T的通信带宽，超低延时。我们可以这么说，在这么一个1U的非常小的空间里面，可以满足基本上当今最复杂的机器智能或者AI的工作负载。可能这里面1PetaFlop或者450GB是什么概念，大家可能不一定有直接的认知，后面我们会进一步解释。

　　所以M2000这个产品形态基本上可以是一个M2000作为一个部署形态，或者四个M2000堆叠起来，8个M2000，或者甚至16个我们叫IPU-POD64，以及大规模横向扩展的IPU-POD64，非常像堆乐高，有这么小的零件，几个零件堆成一个小汽车，1U的处理单元作为一个基本的计算单元，最后根据您的需求非常灵活进行堆叠。

　　所以刚才我们讲的我们这些计算能力、存储空间大家可能不是有特别直观的认知，在今天基本上AI计算领域，大家都使用的非常多的NVIDIA的GPU，我们简单和GPU做一下对比，会有更加直观的认知。我们刚才讲算力、存储容量到底是什么样的概念?所以这里面最新的GPU我们叫DGX-A100，Graphcore的产品有八个M2000，和它对比的是我们大概花类似的钱的情况下，比如花20万美金买了GPU系统，以及花25万美金买了Graphcore的系统，我们在Graphcore的25万美金的系统里面，可以获得相对于GPU系统超过10倍以上的FP32的计算能力，FP32是大家今天做AI计算非常主要的能力。如果讲AI计算我们有三倍以上的能力，对于存储有将近10倍以上的存储容量的提升。可能大家对这个十倍、三倍、十二倍可能也还不是有特别直观的认知，我们在后面的一些材料里面会进一步来讲，这些对于我们实际工作的应用大概是什么样的体现。

　　作为一个智能的处理器，如果仅仅是一个处理器，或者是仅仅是一个硬件，那是远远不够的，因为你面对的是开发者，是研究者，中间的开发者、研究者使用您的处理器的时候，他使用的就是一个软件平台，我们的用户都是与软件打交道的，所以这里面我们针对IPU这颗处理器，以及IPU的系统，然后结合目标的AI应用，我们打造了POPLAR-SDK，在这里面我们提供了很多能力，比如像神经网络库、科学计算库等等，然后往上就是通过与像PyTorch、TensorFlow、甚至像ONNX、阿里巴巴HALO，还有百度的PaddlePaddle平台对接，最后以高层的抽象的形态呈现给开发者和用户。

　　同时这样一个系统我们还要讲怎么样能够进行部署，能够怎么样进行管理，这里面我们也基于标准的工业界开源像BMC，打造了我们系统的运维管理的系统。

　　所以我们刚才讲了很多我们芯片的FP32是GPU的10倍以上的性能，AI计算3倍以上的性能，存储10倍以上，那么最后呈现给用户什么样的性能?我们列举了今天比较主流的AI运算模型，像ResNet50，我们在M2000系统里面能够获得相对于NVIDIA的V100版4.1倍的性能，A100版相对于V100有1.5倍性能提升。像ResNeXt101有5.4倍提升，非常新的2019年谷歌研究员提出的EfficientNet-B4最新计算机视觉模型可以做到将近20倍的提升。

　　讲到语音大家都讲对话式的AI，百度的Deep Voice3，我们在IPU的系统上针对于GPU有十倍以上的性能提升。非常流行的自然语言处理任务BERT-Large，相对于DGX系统有5.3倍以上的性能提升。对于一些金融系统里面或者进行概率的算法模型里面，类似于一些传统机器学习的模型MCMC，有将近17倍以上的性能提升。

　　我们打造了这样一个IPU处理器以及软件，但是我们认为这还是不够的，因为Graphcore的一个很重要的精神，我们认为最后创新是要靠开放来获得的，所以Graphcore精神中间很重要的一部分是需要把我们的能力最后提交给、转换给我们AI的开发者和研究人员，所以与今天很多AI处理器厂商非常不一样，我们是完全开放的，我们今天在GitHub上从2020年7月份已经开展了像我们的各种各样的POPLAR图计算库、神经网络计算库、数学库、系数计算库，以及上层的TensorFlow、PyTorch我们讲的各种各样算法模型，以及在GitHub上2020年7月份全部开源了。同时开放还远远不够，我们认为最后你要打造一个真正围绕IPU的最后开发者和创新者的社区，我们也认为像我们这样一个比较小、比较新的公司还是不够的，我们目前和阿里巴巴和微软来进行一些联合的生态方面的探索，比如说阿里巴巴最近在GitHub上开源的一个项目HALO，是想在IPU、GPU等等不同的AI处理器之间，最后给用户呈现比较平滑迁移的框架，已经开放了针对IPU的实现的源代码，用户可以在GitHub上下载HALO就支持了。最近微软亚洲研究院也开放了NNFusion，和阿里的HALO比较类似，想在GPU和IPU之间打造比较平滑可以互相迁移的底层软件的框架。

　　前面讲了很多IPU软件系统，我们可能也会一起看看IPU怎么样体现在我们和汽车是怎么样结合的，因为IPU本身是一个比较通用的一个智能计算平台，所以能用的领域很多，我们刚才讲的很多领域，但是我们今天可能会分享一下，在汽车领域里面可能有一些什么样的应用。

　　首先我们看到有这样几个方面，一个可以通过云端的IPU驱动车载里面的一些应用，满足智能汽车对数据中心算力的超高要求，比如说今天我们在车里面大量部署了对话式的AI，这里面很多智能不是在车里面产生的，真正的智能是在云端里面，所以这里面可能是一个很好的例子。

　　然后可以通过云端的IPU和能力感知驱动高低的辅助驾驶以及自动驾驶的应用。最后还可以通过这样的智能方法探索能源方面的一些新的探索。

　　这里面有一个简单的例子，也是去年在第四季度Graphcore和福特做了一些探索和研究，中间就是我们Graphcore的研究员和福特公司的研究员一起共同探索了在IPU上使用一个叫分组神经网络的概念，来做了一个无人车类似于行人追踪的算法，中间发现IPU针对GPU有了非常大的性能提升，这个只是其中的一个例子。

　　最后，可能我们有这样的一个愿景，最后我们希望让数据中心最后能够上路。我们和汽车里面一些技术公司探讨时候，他们其实有一个非常大的障碍，很多人和我反馈，我们今天在做算法研究的时候用了NVIDIA的GPU，最后往车里面布置可能是另外某一个ARM处理器，最后架构不一样。然后我们需要做量化，最后需要做算法的量化，需要做算法的处理。最后真正上车之前还需要进行大规模模拟，又是第三个计算平台，这样一个新的算法，从最开始研发到最后上车可能需要18个月左右的一个周期。今天我们在想，我们因为IPU作为一个产品，它是一个训练和推力一体架构的处理器，有这个架构之后，有这样一个可能，你训练出来的算法模型就直接可以在车里面直接应用了，这里面大大缩减中间从GPU的架构往类似于NVIDIA的架构，甚至像一些别的ARM处理器的架构的迁移，以及需要不同的计算平台做模拟的一个过程，所以可以大大缩短算法迭代的过程。

　　最后在结束之想重复一下，我们Graphcore的愿景是我们打造IPU这个处理器，希望能够帮助AI的创新者能够在智能方面进行新的突破和新的创新。

试驾、服务、优惠购

网友评论