Do tests for labels mgt.

MarenBermudezBoeckle · MarenBermudezBoeckle · commit 1c6bbc47b5f6 · 2025-02-01T17:19:12.000+01:00
diff --git a/tests/data_management/test_data_mgt_labels.py b/tests/data_management/test_data_mgt_labels.py
@@ -1,26 +1,122 @@
-import numpy as np
+import pandas as pd
 import pytest
 
+from project_mbb.config import BLD
 from project_mbb.data_management.clean_labels import (
-    create_labels_var_relation,
     _concat_labels_var,
     _filter_labels_var,
     _rename_variables_eng,
 )
 
-def assert_categorical_equal(left, right):
-    assert_series_equal(pd.Series(left), pd.Series(right))
 
-def test_concat_labels_var(data):
-    data_test = _concat_labels_var(data)
+@pytest.fixture
+def enusc_raw():
+    enusc_raw_path = BLD / "data" / "ENUSC_raw.csv"
+    enusc_raw = pd.read_csv(enusc_raw_path)
+    return enusc_raw
 
-    column = ["variable_name", "label"]
-    variable_name ={"rph_ID, "Kish", "Conglomerado", }
 
-    data_test["rph_ID"] = "Identificador de persona"
-    data_test["Kish"] = "Informante Kish"
-    data_test["Conglomerado"] = "Pseudoconglomerado"
-    data_test["HUR"] = "Hurto consumado"
-    
+@pytest.fixture
+def labels_raw():
+    labels_raw_path = BLD / "data" / "column_labels.csv"
+    labels_raw = pd.read_csv(labels_raw_path)
+    return labels_raw
 
-    
+
+@pytest.fixture
+def data_test():
+    data = {
+        "variable_name": ["rph_id", "idhogar", "enc_idr", "enc_region", "enc_rpc"],
+        "label": [
+            "Identificador de persona",
+            "Identificador de hogar",
+            "Folio de la vivienda",
+            "Región",
+            "Región, provincia, comuna",
+        ],
+    }
+    return pd.DataFrame(data)
+
+
+def test_concat_labels_var(enusc_raw, labels_raw):
+    data_test = _concat_labels_var(enusc_raw, labels_raw)
+
+    assert (
+        "variable_name" in data_test.columns
+    ), "Column 'variable_name' not found in DataFrame"
+    assert "label" in data_test.columns, "Column 'label' not found in DataFrame"
+
+    # indexes are original ones: s.t if we want to include other variables into
+    # the filtering then we can continue using this test
+    assert all(
+        [
+            data_test["variable_name"].iloc[0] == "rph_ID"
+            and data_test["label"].iloc[0] == "Identificador de persona",
+            data_test["variable_name"].iloc[1247] == "HUR"
+            and data_test["label"].iloc[1247] == "Hurto consumado",
+            data_test["variable_name"].iloc[1300] == "Conglomerado"
+            and data_test["label"].iloc[1300] == "Pseudoconglomerado",
+        ]
+    )
+
+
+def test_filter_labels_var(data_test):
+    expected = {
+        "variable_name": ["rph_id", "enc_region"],
+        "label": [
+            "Identificador de persona",
+            "Región",
+        ],
+    }
+
+    var_filt = ["rph_id", "enc_region"]
+
+    var_labels_fake = data_test
+    expected_df = pd.DataFrame(expected)
+
+    data_filt = _filter_labels_var(var_labels_fake, var_filt)
+    data_filt = data_filt.reset_index(drop=True)
+    expected_df = expected_df.reset_index(drop=True)
+
+    pd.testing.assert_frame_equal(data_filt, expected_df, check_like=False)
+
+
+def test_rename_variable_eng(data_test):
+    rename_mapping = {
+        "rph_id": "person_id",
+        "idhogar": "household_id",
+        "enc_idr": "housing_folio",
+        "enc_region": "region",
+        "enc_rpc": "commune",
+    }
+
+    renamed_data_test = _rename_variables_eng(data_test, rename_mapping)
+
+    expected = {
+        "variable_name": [
+            "person_id",
+            "household_id",
+            "housing_folio",
+            "region",
+            "commune",
+        ],
+        "label": [
+            "Identificador de persona",
+            "Identificador de hogar",
+            "Folio de la vivienda",
+            "Región",
+            "Región, provincia, comuna",
+        ],
+    }
+
+    expected_df = pd.DataFrame(expected)
+
+    pd.testing.assert_frame_equal(renamed_data_test, expected_df, check_like=True)
+
+
+def test_task_clean_labels_shape():
+    labels_clean_path = BLD / "data" / "variable_labels_clean.pkl"
+    labels_clean = pd.read_pickle(labels_clean_path)
+    shape = labels_clean.shape
+    expected_shape = (66, 2)
+    assert expected_shape == shape