举办单位:格致斯创迅奇(北京)科技有限公司
时间:2019年3月21日~24日
地点:北京中科院计算所龙芯产业园
第一天 |
容器基础概念,在深度学习中的应用 |
1,容器的基本概念,包括功能介绍,运行机制等 2,容器和虚拟机的对比,容器的优势 3,容器的应用场景,在深度学习中如何应用
|
Docker容器的基础理论 |
1.Docker容器的基本架构 2.Docker容器基础组件详解 3.Docker容器的创建方式和实例分析 4.Docker容器网络设计 5.Docker容器数据卷管理 6.Docker容器存储驱动 7.Docker镜像及镜像的分层机制 8.Docker镜像仓库管理 9.Nvidia-docker的概念和应用 10.Docker容器对于GPU的管理 11.Dockerfile详解 Docker容器技术实战上机: 1.Docker容器的环境搭建和命令使用 2.Dockerfile操作实战
|
|
第二天 |
kubernetes容器管理平台 |
1,kubernetes的由来 2. kubernetes核心概念 3. kubernetes技术架构与设计理念 4. kubernetes常用对象 5. kubernetes的核心组件和运行机制 6. kubernetes核心配置文件yaml的介绍 7. kubernetes的网络模式与常用的网络插件(CNI) 8. kubernetes的存储模式与常用的存储插件 9. kubernetes负载均衡和弹性伸缩 10.kubernetes监控解决方案 11.kubernetes日志管理 12.kubernetes DNS管理 13.kubernetes NVIDIA GPU管理和调度 14.kubernetes在深度学习中的应用 Kubernetes上机实战: 1.kubernetes快速部署 2.kubernetes操作实战(yaml配置,系统调试等)
|
第三天 |
GPU高性能计算——OpenACC编程基础与优化进阶 |
并行计算的应用场景和实际意义 并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统 性能分析模型:如何测量并行性能和扩展性 CPU/GPU体系结构对比介绍:流水线、多核、缓存、访存、通信模型、分支预测等
|
OpenACC基础:概念,与CUDA区别,编译器,生态 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化 判断并行性:Profile工具pgprof 并行化表达:引导关键字Kernerls和Parallel Loop 显式管理数据的拷贝:引导关键字Data OpenACC上机实战:矢量点乘 OpenACC优化:统一内存管理,线程并行层级,collapse,tile
|
||
第四天 |
GPU高性能计算——CUDA编程基础与优化进阶 |
CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比 CUDA开发环境搭建和工具配置 CUDA上机:Helloworld,向量加 CUDA优化进阶:线程组织调度,分支语句,访存优化,数据传输,原子操作 CUDA上机:矩阵乘、直方图 GPU并行计算模式及案例分析 分析调试:parallel nsight,visual profiler,cuda-gdb CUDA上机实战:卷积,reduce和scan GPU异步编程,多GPU编程(混合OpenMP和MPI)及调试调优工具 OpenACC互操作性:OpenMP,MPI,CUDA NVIDIA最新技术:CUDA 10新特性,Turing显卡
|
GPU高性能计算——深度学习 |
1.1基于GPU的交互式深度学习训练平台:DIGITS; 1.2深度学习框架的GPU加速:TensorFlow,Caffe等; 1.3 NVIDIA深度学习SDK:cuDNN,TensorRT,NCCL; 1.4深度学习显卡选择; 深度学习上机实操: Caffe,TensorFlow,Theano等通用深度学习框架的GPU加速库cuDNN的使用; 深度学习前端推理引擎TensorRT的使用;
|