CPU/GPU高性能计算实战培训班--格致斯创(北京)科技有限公司

CPU/GPU高性能计算实战培训班日期：2018-04-02 13:11:15 阅读：次

联合主办单位:格致斯创迅奇（北京）科技有限公司

&联泰集群（北京）科技有限责任公司

时间：2018年5月25~27日

地点：北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群

关键字：

AI(Artificial Intelligence，人工智能)

DL（Deep Learning，深度学习）

ML（Machine Learning，机器学习）

高性能计算（High Performance Computing, HPC）

并行计算（Parallel Computing）

超级计算（supercomputing）

E级计算（Exascale computing）

异构计算（Heterogeneous computing）

GPU通用计算（GPGPU，General Purpose GPU，CUDA，OpenCL，OpenACC）

并行计算基础（MPI，OpenMP，Pthread）

加速卡（CPU，GPU，APU，FPGA，MIC）

前言：

深度学习DL和人工智能AI成为当下最炙手可热的技术趋势，将成为技术行业基础设施的核心组成部分。深度学习训练需要大量的计算资源，GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说，GPU更便宜（达到同样的计算能力GPU一般便宜10倍），而且计算更加密集（一台服务器可以搭配1/2/4/8/16块GPU），深度学习时代，训练过程，GPU为主CPU为辅。主流的深度学习评测benchmark，都聚焦用GPU来做测试，用CPU对比已经没有太大意义。

GPU的价值不止体现在深度学习，在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域，算法越来越复杂，需要处理的海量数据越来越巨大，高性能计算能力就显得尤为重要。GPU 高性能计算程序设计最大限度的利用硬件资源，提高了计算能力，降低时间成本，加速研发进度。

深度学习网络的计算里，最关键的是两种计算：如果是一个全连接层，它的计算主要是矩阵乘法；如果你是卷积层，核心计算是卷积计算。主流的深度卷积网络里，超过80%的计算源于卷积计算，一般的深度网络在最后一两层才用到全连接层，所以这个卷积操作其实是深度学习里最关键的核心技术。

我们针对深度学习的计算，有一套完整的解决方案，cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库，包含完整的矩阵乘法和卷积计算的实现，但并不开源。

想搞清楚如何优化矩阵乘法和卷积吗？如何用CPU+GPU加速你的程序？学完本次课程，你会找到答案。

专业要求：

Linux/vim常用命令

能写简单的C/C++

基本的计算机基础和数学基础

►培训课程：

第一天

8:30--11:30

高性能计算基础

1、并行计算的应用场景和实际意义（战略、经济和成本）；

2、并行计算机体系结构：处理器、内存和互连网，常用的并行计算机系统；

3、性能分析模型：如何测量并行性能和扩展性；

4、CPU/GPU体系结构对比介绍；

13:30--17:00

MPI编程入门

1、 MPI编程基本概念；

2、基本编程语句；

3、主要点到点通信函数；

4、上机实验hello world；

MPI编程进阶

1、自定义新的数据类型；

2、集合通信方法；

3、通信域和虚拟拓扑；

4、上机实验：计算圆周率；

第二天

8:30—11:30

多核编程OpenMP和Pthread

1、 Pthread编程；

2、 OpenMP多线程编程；

3、上机实验：分别实现计算圆周率；

13:30--17:00

GPU编程优化进程

1、 CUDA基础：API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比；

2、 CUDA优化：线程组织调度，分支语句，访存优化，数据传输，原子操作；

3、 GPU并行计算模式分析：分析调试：parallel nsight，visual profiler，cuda-gdb；

4、上机实验：Helloworld，向量加，cuBLAS，cuFFT ；

5、上机实验：矩阵乘，直方图，卷积，规约；

第三天

8:30--11:30

OpenACC编程基础与优化进阶

1、 OpenACC基础：概念，与CUDA区别，编译器，生态；

2、 OpenACC开发环境搭建配置；

3、 OpenACC四步开发流程：判断并行性，并行化表达，显式数据传递，优化；

3.1判断并行性：Profile工具pgprof；

3.2并行化表达：引导关键字Kernerls和Parallel Loop；

3.3显式管理数据的拷贝：引导关键字Data；

3.4优化：统一内存管理，线程并行层级，collapse，tile；

4、OpenACC上机实操

4.1. Hellow world;

4.2．矢量点乘；

多GPU开发

1、多GPU编程（混合OpenMP和MPI）；

2、上机实验：Jacobi迭代；

13:30--17:00

GPU深度学习

1、深度学习GPU解决方案：

1.1基于GPU的交互式深度学习训练平台：DIGITS；

1.2深度学习框架TensorFlow，Caffe等的GPU加速：cuDNN；

1.3 NVIDIA深度学习SDK：TensorRT，NCCL；

2、上机操作：通用深度学习框架的GPU加速库cuDNN的使用；

3、上机操作：深度学习前端推理引擎TensorRT的使用；

GPU技术前沿

1、 CUDA 9新特性；

2、 Pascal，Volta显卡新架构；

3、答疑解惑，互相讨论。

►培训班报名：

请编辑信息：单位+姓名+职务+邮箱+电话+发票类型+纳税人识别号至邮箱 info@gainstrong.net

►培训班联系人：

刘经理，电话010-67506231

QQ：2938469688

邮箱：liuhuanhuan@gainstrong.net

►培训班费用：

（包含教材费，培训费，午餐，不含差旅费用）

优惠一：同一单位2人或以上参加，可享受每人300元优惠

人员	一人参加	两人及以上
老师	3000元/人	2700元/人
学生	2500元/人	2200元/人

优惠二：买5赠1，同一单位5人及以上原价参加，可赠送一个名额（与优惠一只可选其一）

►汇款账号：

户名：格致斯创迅奇（北京）科技有限公司

开户银行：中国民生银行股份有限公司北京广安门支行

账号:693438855

►培训地点：

北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群