Merge branch 'workflow_test'

lus105 · lus105 · commit dc66a3829e90 · 2025-09-11T12:59:20.000+03:00
diff --git a/environment.yaml b/environment.yaml
@@ -32,7 +32,6 @@ dependencies:
       - opencv-python
       - matplotlib
       - scikit-learn
-      - pynvml
       - ruff
       - segmentation-models-pytorch
       - ipywidgets
diff --git a/requirements.txt b/requirements.txt
@@ -26,7 +26,6 @@ scikit-learn
 timm
 onnx
 onnxruntime-gpu
-pynvml
 ruff
 ipywidgets
 ipykernel
diff --git a/src/eval.py b/src/eval.py
@@ -14,7 +14,6 @@
     instantiate_callbacks,
     log_hyperparameters,
     task_wrapper,
-    log_gpu_memory_metadata,
 )
 
 log = RankedLogger(__name__, rank_zero_only=True)
@@ -34,8 +33,6 @@ def evaluate(cfg: DictConfig) -> tuple[dict[str, Any], dict[str, Any]]:
     """
     assert cfg.model.ckpt_path, 'The checkpoint path (cfg.model.ckpt_path) is not set!'
 
-    log_gpu_memory_metadata()
-
     log.info(f'Instantiating datamodule <{cfg.data._target_}>')
     datamodule: LightningDataModule = hydra.utils.instantiate(cfg.data)
 
diff --git a/src/train.py b/src/train.py
@@ -18,7 +18,6 @@
     instantiate_loggers,
     log_hyperparameters,
     task_wrapper,
-    log_gpu_memory_metadata,
     save_model_metadata,
     is_running_in_docker,
 )
@@ -40,7 +39,6 @@ def train(cfg: DictConfig) -> tuple[dict[str, Any], dict[str, Any]]:
     Returns:
         Tuple[Dict[str, Any], Dict[str, Any]]: metrics and dict with all instantiated objects.
     """
-    log_gpu_memory_metadata()
 
     # set seed for random number generators in pytorch, numpy and python.random
     if cfg.get('seed'):
diff --git a/src/utils/__init__.py b/src/utils/__init__.py
@@ -7,7 +7,6 @@
     instantiate_callbacks,
     instantiate_loggers,
     log_hyperparameters,
-    log_gpu_memory_metadata,
     run_sh_command,
     save_model_metadata,
     is_running_in_docker,
diff --git a/src/utils/utils.py b/src/utils/utils.py
@@ -13,11 +13,6 @@
 from omegaconf import DictConfig, OmegaConf
 from lightning_utilities.core.rank_zero import rank_zero_only
 import torch
-from pynvml import (
-    nvmlDeviceGetHandleByIndex,
-    nvmlDeviceGetMemoryInfo,
-    nvmlInit,
-)
 
 from src.utils import pylogger, rich_utils
 
@@ -311,26 +306,6 @@ def log_hyperparameters(object_dict: dict[str, Any]) -> None:
         logger.log_hyperparams(hparams)
 
 
-def log_gpu_memory_metadata() -> None:
-    """_Logging GPUs memory metadata (total, free and used) if it's available by
-    PYNVML.
-    """
-    gpus_num = torch.cuda.device_count()
-    if gpus_num == 0:
-        return
-    nvmlInit()
-    cards = (nvmlDeviceGetHandleByIndex(num) for num in range(gpus_num))
-    for i, card in enumerate(cards):
-        info = nvmlDeviceGetMemoryInfo(card)
-        div = 1023**3
-        total_gb = info.total / div
-        free_gb = info.free / div
-        used_gb = info.used / div
-        log.info(f'GPU memory info: card {i} : total : {total_gb:.2f} GB')
-        log.info(f'GPU memory info: card {i} : free  : {free_gb:.2f} GB')
-        log.info(f'GPU memory info: card {i} : used  : {used_gb:.2f} GB')
-
-
 def save_model_metadata(
     model_path: str,
     host_model_path: str,