联合主办单位:格致斯创迅奇(北京)科技有限公司
&联泰集群(北京)科技有限责任公司
时间:2018年5月25~27日
地点:北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群
关键字:
AI(Artificial Intelligence,人工智能)
DL(Deep Learning,深度学习)
ML(Machine Learning,机器学习)
高性能计算(High Performance Computing, HPC)
并行计算(Parallel Computing)
超级计算(supercomputing)
E级计算(Exascale computing)
异构计算(Heterogeneous computing)
GPU通用计算(GPGPU,General Purpose GPU,CUDA,OpenCL,OpenACC)
并行计算基础(MPI,OpenMP,Pthread)
加速卡(CPU,GPU,APU,FPGA,MIC)
前言:
深度学习DL和人工智能AI成为当下最炙手可热的技术趋势,将成为技术行业基础设施的核心组成部分。深度学习训练需要大量的计算资源,GPU目前是深度学习最常使用的计算加速硬件。相对于CPU来说,GPU更便宜(达到同样的计算能力GPU一般便宜10倍),而且计算更加密集(一台服务器可以搭配1/2/4/8/16块GPU),深度学习时代,训练过程,GPU为主CPU为辅。主流的深度学习评测benchmark,都聚焦用GPU来做测试,用CPU对比已经没有太大意义。
GPU的价值不止体现在深度学习,在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域,算法越来越复杂,需要处理的海量数据越来越巨大,高性能计算能力就显得尤为重要。GPU 高性能计算程序设计最大限度的利用硬件资源,提高了计算能力,降低时间成本,加速研发进度。
深度学习网络的计算里,最关键的是两种计算:如果是一个全连接层,它的计算主要是矩阵乘法;如果你是卷积层,核心计算是卷积计算。主流的深度卷积网络里,超过80%的计算源于卷积计算,一般的深度网络在最后一两层才用到全连接层,所以这个卷积操作其实是深度学习里最关键的核心技术。
我们针对深度学习的计算,有一套完整的解决方案,cuDNN已经成为主流深度学习框架调用的深度学习GPU函数库,包含完整的矩阵乘法和卷积计算的实现,但并不开源。
想搞清楚如何优化矩阵乘法和卷积吗?如何用CPU+GPU加速你的程序?学完本次课程,你会找到答案。
专业要求:
Linux/vim常用命令
能写简单的C/C++
基本的计算机基础和数学基础
►培训课程:
第一天
8:30--11:30
高性能计算基础
1、并行计算的应用场景和实际意义(战略、经济和成本);
2、并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统;
3、性能分析模型:如何测量并行性能和扩展性;
4、CPU/GPU体系结构对比介绍;
13:30--17:00
MPI编程入门
1、 MPI编程基本概念;
2、 基本编程语句;
3、 主要点到点通信函数;
4、 上机实验hello world;
MPI编程进阶
1、 自定义新的数据类型;
2、 集合通信方法;
3、 通信域和虚拟拓扑 ;
4、 上机实验:计算圆周率;
第二天
8:30—11:30
多核编程OpenMP和Pthread
1、 Pthread编程;
2、 OpenMP多线程编程;
3、 上机实验:分别实现计算圆周率;
13:30--17:00
GPU编程优化进程
1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比;
2、 CUDA优化:线程组织调度,分支语句,访存优化,数据传输,原子操作;
3、 GPU并行计算模式分析:分析调试:parallel nsight,visual profiler,cuda-gdb;
4、 上机实验:Helloworld,向量加,cuBLAS,cuFFT ;
5、 上机实验:矩阵乘,直方图,卷积,规约;
第三天
8:30--11:30
OpenACC编程基础与优化进阶
1、 OpenACC基础:概念,与CUDA区别,编译器,生态;
2、 OpenACC开发环境搭建配置;
3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化;
3.1判断并行性:Profile工具pgprof;
3.2并行化表达:引导关键字Kernerls和Parallel Loop;
3.3显式管理数据的拷贝:引导关键字Data;
3.4优化:统一内存管理,线程并行层级,collapse,tile;
4、OpenACC上机实操
4.1. Hellow world;
4.2.矢量点乘;
多GPU开发
1、多GPU编程(混合OpenMP和MPI);
2、上机实验:Jacobi迭代;
13:30--17:00
GPU深度学习
1、 深度学习GPU解决方案:
1.1基于GPU的交互式深度学习训练平台:DIGITS;
1.2深度学习框架TensorFlow,Caffe等的GPU加速:cuDNN;
1.3 NVIDIA深度学习SDK:TensorRT,NCCL;
2、上机操作:通用深度学习框架的GPU加速库cuDNN的使用;
3、上机操作:深度学习前端推理引擎TensorRT的使用;
GPU技术前沿
1、 CUDA 9新特性;
2、 Pascal,Volta显卡新架构;
►培训班报名:
请编辑信息:单位+姓名+职务+邮箱+电话+发票类型+纳税人识别号至邮箱 info@gainstrong.net
►培训班联系人:
刘经理,电话010-67506231
QQ:2938469688
邮箱:liuhuanhuan@gainstrong.net
►培训班费用:
(包含教材费,培训费,午餐,不含差旅费用)
优惠一:同一单位2人或以上参加,可享受每人300元优惠
人员 |
一人参加 |
两人及以上 |
老师 |
3000元/人 |
2700元/人 |
学生 |
2500元/人 |
2200元/人 |
优惠二:买5赠1,同一单位5人及以上原价参加,可赠送一个名额(与优惠一只可选其一)
►汇款账号:
户名:格致斯创迅奇(北京)科技有限公司
开户银行:中国民生银行股份有限公司北京广安门支行
账号:693438855
►培训地点:
北京市海淀区丰秀中路3号院永丰科技企业加速器三区联泰集群