让你在没有 root 权限的机器上跑镜像

# 背景：为什么我们需要它？

在科研和开发过程中，我们经常遇到这样的难题：

环境依赖地狱：代码依赖特定的 CUDA 版本、Ubuntu 版本或一大堆 Python 库，手动配置极易冲突。
没有 root 权限：实验室服务器、学校的 HPC 集群通常由管理员统一管理，普通用户账户没有 sudo 权限。
Docker 无法使用：标准 Docker 需要守护进程（Daemon）以 root 身份运行，没有权限往往意味着 docker: command not found 或 permission denied。

虽然 Podman 是一个很好的免 root 替代品，但它对 Linux 内核版本有要求（需要 User Namespaces 支持），在某些老旧系统上仍然难以安装。

这时候，udocker 就是一个非常实用的解决方案。

# 什么是 udocker？

udocker 是一个专门为在用户空间运行 Docker 容器而设计的工具。

纯用户空间：不需要 root 权限，也不需要安装系统级守护进程。
兼容性强：本质上是一个 Python 脚本，几乎可以在很多 Linux 发行版（CentOS 6/7、Ubuntu、Fedora 等）上运行。
原理：通过 PRoot（利用 ptrace 机制）或 Fakechroot 等技术，模拟 root 环境与文件系统挂载，让容器“以为”自己运行在特权环境中。

一句话总结：只要你能运行 Python，就能跑 udocker，进而跑 Docker 镜像。

# 1. 安装 udocker

安装过程很简单：下载脚本并初始化。

# 1.1 下载 udocker 脚本

curl -L https://raw.githubusercontent.com/indigo-dc/udocker/master/udocker.py > udocker

# 1.2 赋予执行权限

chmod +x udocker

# 1.3 移动到你的 bin 目录（可选）

前提：~/.local/bin 已在 PATH 中。

mv udocker ~/.local/bin/

# 1.4 初始化

这会自动下载所需的引擎二进制文件到 ~/.udocker 目录。

udocker install

# 1.5 验证安装

udocker version

# 2. 基本使用：像 Docker 一样操作

udocker 的命令设计上尽量模仿 Docker，但有一个关键区别：udocker 严格区分“容器创建”和“容器运行”。

# 2.1 拉取镜像（pull）

# 拉取 PyTorch 镜像
udocker pull pytorch/pytorch:1.13.0-cuda11.6-cudnn8-runtime

# 2.2 创建容器（create）

在 Docker 中，docker run 常同时完成创建和启动；在 udocker 中，更推荐先显式创建容器。

# 从镜像创建一个名为 "my_experiment" 的容器
udocker create --name=my_experiment pytorch/pytorch:1.13.0-cuda11.6-cudnn8-runtime

# 2.3 运行容器（run）

# 运行容器并进入交互式终端
# -v 挂载目录：将宿主机当前目录挂载到容器 /workspace
udocker run -v "$(pwd)":/workspace my_experiment /bin/bash

进入容器后，你会看到自己是 root（容器内部视角）。你可以 apt-get install 或 pip install，但这些改动只影响容器文件系统，不会影响宿主机。

# 3. 进阶技巧：科研场景专用

# 3.1 启用 GPU 支持（NVIDIA）

# 使用 --nvidia 标志启用 GPU 支持
udocker run --nvidia my_experiment nvidia-smi

注意：udocker 不包含驱动程序，它只是将宿主机的 /dev/nvidia* 设备与相关库映射进容器。请确保宿主机已正确安装显卡驱动。

# 3.2 更改运行模式（execmode）

如果遇到 Segmentation fault 或某些程序跑不起来，可以尝试更改执行模式。udocker 提供多种模式（不同版本可用项可能略有差异）。

P1/P2（PRoot）：默认模式，兼容性最好，但 I/O 密集任务可能有性能损耗。
F1/F2/F3（Fakechroot）：性能更好，但兼容性可能稍差。
R1（RunC）：若内核/环境满足条件，性能接近原生 Docker。

查看当前模式：

udocker setup --execmode my_experiment

切换为某个模式（示例：F3）：

udocker setup --execmode=F3 my_experiment

# 4. 常见问题与局限

# 4.1 端口映射

udocker 默认使用宿主机网络栈（Host Mode），因此通常不能像 Docker 那样使用 -p 8080:80 做 NAT 端口转发。

如果容器内服务监听 8000，通常就是在宿主机 8000 上监听。

# 4.2 安全

udocker 的目标偏向“可用性”，而不是强隔离。不要在容器里运行不可信/恶意代码，因为它可能影响当前用户可访问的文件（例如你的 HOME 目录）。

# 4.3 清理与空间占用

容器文件默认存储在 ~/.udocker/containers 下，不用的容器/镜像建议定期清理。

# 删除容器
udocker rm my_experiment

# 删除镜像（按实际 tag 替换）
udocker rmi pytorch/pytorch:xxxx

# 总结

在受限的服务器或 HPC 环境下，udocker 可以在无需 root 权限的前提下运行容器化环境，适合解决“在别人的机器上跑我的环境”这一类问题。

如果你在集群上装不上 Docker，又想复用 Docker Hub 上现成镜像，可以优先试试 udocker。