Skip to content

Latest commit

 

History

History
46 lines (29 loc) · 5.38 KB

File metadata and controls

46 lines (29 loc) · 5.38 KB

Tutorial-SCOW

人工智能(AI)的迅猛发展正深刻影响着学术界和工业界。AI技术的进步依赖于处理海量数据和复杂模型的能力,因此,高性能计算(HPC)平台成为推动AI研究和应用的关键工具。尽管HPC在技术上提供了强大的支持,其使用的复杂性却给学术研究人员和工业从业者带来了挑战。许多研究人员和工程师面临着平台配置繁琐、资源调度复杂以及编程模型不友好的问题,这些因素可能延缓AI项目的开发进程。

SCOW(Super Computing On Web)是一个基于Web的超算门户和管理系统,旨在解决这些使用障碍。通过SCOW,超算用户无需安装任何软件,只需使用现代浏览器即可高效利用超算资源完成计算任务。用户可以通过网页界面进行作业提交、文件管理、终端调用、用户管理等多项操作,极大降低了使用门槛。

本教程通过一系列在SCOW上运行AI的案例,帮助用户快速掌握在HPC环境中进行AI学习和研究的方法,助力学术界和工业界更高效地利用高性能计算资源。

下面我们首先介绍如何在 SCOW 平台上申请计算资源,然后通过简单案例 Tutorial 0 介绍如何在 SCOW 平台上进行计算,最后是 AI 相关的教程介绍。

Tutorial SCOW

本教程介绍如何在基于 SCOW 的集群上申请计算资源并运行各类计算任务。

平台分为智算平台(SCOW AI集群)和超算平台(SCOW HPC集群)。根据不同需求,某些单位部署的SCOW系统仅包含SCOW AI或SCOW HPC。其中SCOW AI是基于Kubernetes容器的算力集群,SCOW HPC是基于鹤思作业调度系统的裸金属服务器的算力集群。请根据自身情况选择使用。两个集群里,用户共享同一个HOME目录。

教程内容

教程目前由多个独立的案例构成:

Python 环境

  • Tutorial0 搭建Python环境: 在超算平台,通过安装miniconda工具来创建和管理隔离的Python环境;在智算平台中,基础镜像一般已经包含Python环境,只需要验证即可。

Pytorch 基础

  • Tutorial1 回归类问题: 在超算平台,通过预测房价这一简单案例展示如何使用全连接神经网络解决回归问题,并在单机单显卡上运行案例。

CV 相关

大模型相关