CPU/GPU高性能计算实战培训班日期:2018-04-02 13:11:15 阅读:

 

联合主办单位:格致斯创迅奇(北京)科技有限公司

&联泰集群(北京)科技有限责任公司

时间:2018年5月25~27日    

地点:北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群
 
关键字:
AI(Artificial Intelligence,人工智能)
DL(Deep Learning,深度学习)
ML(Machine Learning,机器学习)
高性能计算(High Performance Computing, HPC)
并行计算(Parallel Computing)
超级计算(supercomputing)
E级计算(Exascale computing)
异构计算(Heterogeneous computing)
GPU通用计算(GPGPU,General Purpose GPU,CUDA,OpenCL,OpenACC)
并行计算基础(MPI,OpenMP,Pthread)
加速卡(CPU,GPU,APU,FPGA,MIC)
 

前言:

深度学习DL和人工智能AI成为当下最炙手可热的技术趋势,将成为技术行业基础设施的核心组成部分。深度学习训练需要大量的计算资源,GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜(达到同样的计算能力GPU一般便宜10倍),而且计算更加密集(一台服务器可以搭配1/2/4/8/16GPU),深度学习时代,训练过程,GPU为主CPU为辅。主流的深度学习评测benchmark,都聚焦用GPU来做测试,用CPU对比已经没有太大意义。

 

GPU的价值不止体现在深度学习,在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。GPU 高性能计算程序设计最大限度的利用硬件资源,提高了计算能力,降低时间成本,加速研发进度。

 

深度学习网络的计算里,最关键的是两种计算:如果是一个全连接层,它的计算主要是矩阵乘法;如果你是卷积层,核心计算是卷积计算。主流的深度卷积网络里,超过80%的计算源于卷积计算,一般的深度网络在最后一两层才用到全连接层,所以这个卷积操作其实是深度学习里最关键的核心技术。

 

我们针对深度学习的计算,有一套完整的解决方案,cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库,包含完整的矩阵乘法和卷积计算的实现,但并不开源。

 

 想搞清楚如何优化矩阵乘法和卷积吗?如何用CPU+GPU加速你的程序?学完本次课程,你会找到答案。

 

专业要求:

Linux/vim常用命令

能写简单的C/C++

基本的计算机基础和数学基础


培训课程:

  第一天
8:30--11:30                          
高性能计算基础      

1、并行计算的应用场景和实际意义(战略、经济和成本);
2、并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统;
3、性能分析模型:如何测量并行性能和扩展性;
4、CPU/GPU体系结构对比介绍;
 
13:30--17:00                              
MPI编程入门 
1 MPI编程基本概念;
2、 基本编程语句; 
3、 主要点到点通信函数;
4、 上机实验hello world;

  

MPI编程进阶
1、 自定义新的数据类型; 
2、 集合通信方法; 
3、 通信域和虚拟拓扑 ;
4、 上机实验:计算圆周率;
 

   第二天

8:30—11:30

多核编程OpenMP和Pthread

1、 Pthread编程;

2、 OpenMP多线程编程;

3、 上机实验:分别实现计算圆周率;

 

13:30--17:00

GPU编程优化进程

1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比;  

2、 CUDA优化:线程组织调度,分支语句,访存优化,数据传输,原子操作; 

3、 GPU并行计算模式分析:分析调试:parallel nsight,visual profiler,cuda-gdb;

4、 上机实验:Helloworld,向量加,cuBLAS,cuFFT ;

5、 上机实验:矩阵乘,直方图,卷积,规约;

 
 

   第三天
8:30--11:30
OpenACC编程基础与优化进阶 
1、 OpenACC基础:概念,与CUDA区别,编译器,生态;
2、 OpenACC开发环境搭建配置; 
3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化;
3.1判断并行性:Profile工具pgprof;
3.2并行化表达:引导关键字Kernerls和Parallel Loop;
3.3显式管理数据的拷贝:引导关键字Data;
3.4优化:统一内存管理,线程并行层级,collapse,tile;
4、OpenACC上机实操
4.1. Hellow world;
4.2.矢量点乘;
 

多GPU开发
1、多GPU编程(混合OpenMP和MPI);
2、上机实验:Jacobi迭代;
 

13:30--17:00

GPU深度学习
1、 深度学习GPU解决方案:
1.1基于GPU的交互式深度学习训练平台:DIGITS;
1.2深度学习框架TensorFlow,Caffe等的GPU加速:cuDNN;
1.3 NVIDIA深度学习SDK:TensorRT,NCCL;
2、上机操作:通用深度学习框架的GPU加速库cuDNN的使用;
3、上机操作:深度学习前端推理引擎TensorRT的使用;

 
GPU技术前沿
1、 CUDA 9新特性;
2、 Pascal,Volta显卡新架构;
3、答疑解惑,互相讨论。

 
►培训班报名:

请编辑信息:单位+姓名+职务+邮箱+电话+发票类型+纳税人识别号至邮箱 info@gainstrong.net

►培训班联系人: 
刘经理,电话010-67506231
QQ:2938469688 
邮箱:liuhuanhuan@gainstrong.net
 
 
►培训班费用:

(包含教材费,培训费,午餐,不含差旅费用)
优惠一:同一单位2人或以上参加,可享受每人300元优惠
 
人员 一人参加 两人及以上
老师 3000元/人 2700元/人
学生 2500元/人 2200元/人
 
优惠二:买5赠1,同一单位5人及以上原价参加,可赠送一个名额(与优惠一只可选其一)
 
 
►汇款账号:

户名:格致斯创迅奇(北京)科技有限公司

开户银行:中国民生银行股份有限公司北京广安门支行
账号:693438855
 
 
►培训地点:

北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群
 
 应物会议中心.jpg