Data Science Logo 数据科学/机器学习环境配置

Python 数据科学生态、深度学习框架完整配置指南

环境方案选择

推荐方案:新手使用 Anaconda,进阶使用 Miniconda 或 pip + 虚拟环境
Anaconda(推荐新手)

完整的数据科学发行版

  • 预装 1500+ 科学计算包
  • conda 包管理
  • Jupyter 内置
  • 图形化管理界面

缺点:体积较大(3GB+)

Miniconda(推荐进阶)

Anaconda 的轻量版本

  • 只包含 Python+conda
  • 按需安装包
  • 体积小(50MB)
  • 灵活定制

适合有经验的用户

pip + venv(原生方案)

使用 Python 原生工具

  • 无需额外安装
  • 轻量灵活
  • 标准方案

需要手动管理依赖

Anaconda/Miniconda 安装

Anaconda 下载

完整数据科学环境

下载地址:

验证安装:
conda --version
conda list
Miniconda 下载

轻量级 conda 发行版

下载地址:

安装后配置:
# 配置国内镜像
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --set show_channel_urls yes
conda 常用命令
环境管理
# 创建环境
conda create -n myenv python=3.11

# 激活环境
conda activate myenv

# 退出环境
conda deactivate

# 查看环境
conda env list

# 删除环境
conda env remove -n myenv
包管理
# 安装包
conda install 包名

# 更新包
conda update 包名

# 查看已安装包
conda list

# 搜索包
conda search 包名

# 更新 conda
conda update conda

核心科学计算库

提示:使用 conda 安装可以自动处理二进制依赖,推荐优先使用 conda
数值计算
NumPy

基础数值计算库

conda install numpy
# 或
pip install numpy
SciPy

科学计算库

conda install scipy
数据处理
Pandas

数据分析核心库

conda install pandas
Polars

高性能 DataFrame

pip install polars
数据可视化
# Matplotlib - 基础绘图
conda install matplotlib

# Seaborn - 统计图表
conda install seaborn

# Plotly - 交互式图表
pip install plotly

# Bokeh - 交互式可视化
conda install bokeh
机器学习
# Scikit-learn - 经典 ML
conda install scikit-learn

# XGBoost - 梯度提升
conda install py-xgboost

# LightGBM - 轻量提升
pip install lightgbm

深度学习框架

GPU 支持:如需 GPU 加速,请确保安装正确的 CUDA 版本
PyTorch(推荐)

Facebook 出品的深度学习框架

  • 动态图,易调试
  • Python 优先
  • 研究首选
安装命令:
# CPU 版本
conda install pytorch torchvision torchaudio cpuonly -c pytorch

# GPU 版本 (CUDA 11.8)
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

# 或访问官网获取最新命令
# https://pytorch.org/
官方网站
TensorFlow

Google 出品的深度学习框架

  • 静态图,性能好
  • 生产部署友好
  • Keras 集成
安装命令:
# TensorFlow 2.x
pip install tensorflow

# 或 GPU 版本
pip install tensorflow[and-cuda]

# Keras (已包含在 TF 中)
# from tensorflow import keras
官方网站
PaddlePaddle(百度)

国产深度学习框架

  • 中文文档
  • 产业实践丰富
  • 模型库完善
安装命令:
# CPU 版本
pip install paddlepaddle

# GPU 版本
pip install paddlepaddle-gpu
官方网站
JAX

Google 的高性能数值计算库

  • NumPy 兼容
  • 自动微分
  • XLA 加速
安装命令:
# 基础安装
pip install jax jaxlib

# GPU 版本
pip install --upgrade "jax[cuda11_pip]" -f https://storage.googleapis.com/jax-releases/jax_cuda_releases.html
GitHub

开发工具

Jupyter 生态

交互式编程环境

安装:
# Jupyter Notebook
conda install jupyter

# JupyterLab (推荐)
conda install jupyterlab

# 启动
jupyter lab
常用扩展:
  • • jupyter_contrib_nbextensions - 功能扩展
  • • jupyterthemes - 主题美化
  • • ipywidgets - 交互组件
IDE 选择
PyCharm(专业开发)

科学计算模式,Jupyter 支持

下载
VS Code(轻量编辑)

配合 Python、Jupyter 插件

下载
Spyder(科学计算)

MATLAB 风格,数据分析友好

conda install spyder

GPU 加速配置

GPU 要求:NVIDIA 显卡,支持 CUDA 计算能力 3.5+
CUDA 环境配置
1. 确认显卡支持
# Windows: 设备管理器 → 显示适配器
# 或使用命令
nvidia-smi
2. 安装 NVIDIA 驱动

NVIDIA 官网 下载最新驱动

3. 安装 CUDA Toolkit
# 访问 NVIDIA 官网下载
# https://developer.nvidia.com/cuda-toolkit
# 或使用 conda 安装
conda install -c nvidia cuda-toolkit
4. 安装 cuDNN

NVIDIA cuDNN 下载

验证:PyTorch 中使用 torch.cuda.is_available() 检查

学习资源

常见问题

优先顺序:conda > pip

  • conda - 优先用于科学计算包(numpy、pandas 等),可以处理二进制依赖
  • pip - 用于 conda 没有的包,或纯 Python 包
注意:不要混用 conda 和 pip 安装同一个包,可能导致依赖冲突

# 使用 conda 创建环境
conda create -n ml_env python=3.11
conda activate ml_env

# 安装项目依赖
conda install numpy pandas scikit-learn

# 导出环境配置
conda env export > environment.yml

# 从配置创建环境
conda env create -f environment.yml

# 使用 pip + venv
python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate     # Windows

框架优势适用场景
PyTorch 易上手、调试方便 学术研究、快速原型
TensorFlow 部署成熟、生态完善 生产环境、移动端

建议:初学者从 PyTorch 开始,更容易理解深度学习概念

排查步骤:

  1. 确认 NVIDIA 驱动已安装:nvidia-smi
  2. 确认 CUDA 版本与 PyTorch/TF 兼容
  3. PyTorch 中运行:import torch; print(torch.cuda.is_available())
  4. 检查是否正确安装 GPU 版本而非 CPU 版本
# PyTorch 查看 CUDA 信息
import torch
print(torch.version.cuda)
print(torch.cuda.device_count())

环境验证

# 验证 Python 和 conda
python --version
conda --version

# 验证核心库
python -c "import numpy; print('NumPy:', numpy.__version__)"
python -c "import pandas; print('Pandas:', pandas.__version__)"
python -c "import sklearn; print('Scikit-learn:', sklearn.__version__)"

# 验证 PyTorch
python -c "import torch; print('PyTorch:', torch.__version__); print('CUDA:', torch.cuda.is_available())"

# 验证 TensorFlow
python -c "import tensorflow as tf; print('TensorFlow:', tf.__version__)"

# 启动 Jupyter
jupyter lab --version