@zmxj123实验室新买了一台4U的服务器,共320线程和6张Pro 6000,我作为管理员,该怎么拟一个章程呢 中发帖

先说一下实验室Bg:既有数学计算(吃U),又有GPU要求(训练、推理模型跑AI)。 
之前实验室有一台小服务器,包括但不限于出现了以下问题:
1.环境混乱,装了某个版本的库但是从论文的GitHub扒下来的代码不适配,于是直接覆盖装回特定版本,别人又用不了了。
2.root权限混乱,每个人都有自己的代码要跑,要装很多东西,于是给他们root权限,由此带来的问题就是有些人权限过大,本科生不怎么会搞直接root一把梭哈。
3.存储空间吃紧,大量的数据集和模型直接放在SSD中,导致一共一个8T的固态直接塞满,有的时候剩余空间是0,还得一个个私聊删除。(我主要是做CPU方面的使用,不太懂,如果我们把数据集和模型放在16T机械里面,对于一个一跑就是一天的训练过程会有明显影响吗?最佳实践难不成是都放在SSD中?)
4.安全意识淡薄,之前某个本科生电脑被拿下,直接疯狂扫描服务器的port并且还进来...