Modified MWTabFile

ptth222 · ptth222 · commit 66afdd188a51 · 2024-05-03T05:11:44.000-04:00
Closes #6. Added a validate method, a from_dict method, and changed some data members to properties.
diff --git a/src/mwtab/mwschema.py b/src/mwtab/mwschema.py
@@ -15,7 +15,13 @@
 
 from schema import Schema, Optional, Or, And
 
-from . import mwtab
+
+class _duplicate_key_list(list):
+    """Class identical to list that can be used for type checking. Used to handle dealing with parsing duplicate keys in JSON."""
+    def __init__(self, *args, **kwargs):
+        super(_duplicate_key_list, self).__init__(*args, **kwargs)
+
+
 
 if sys.version_info.major == 2:
     str = unicode
@@ -122,7 +128,7 @@
             "Factors": dict,
             Optional("Additional sample data"): {
                 Optional("RAW_FILE_NAME"): str,
-                Optional(str): Or(str, mwtab._duplicate_key_list)
+                Optional(str): Or(str, _duplicate_key_list)
             }
         }
     ]
diff --git a/src/mwtab/mwtab.py b/src/mwtab/mwtab.py
@@ -28,14 +28,16 @@
 import json_duplicate_keys as jdks
 
 from .tokenizer import tokenizer
+from .validator import validate_file
+from .mwschema import section_schema_mapping, _duplicate_key_list
 
 
 # The stuff before the MWTabFile class is all to do with being able to handle duplicate keys from a JSON file.
 # Python's parser can't do it and you have to do some workarounds for it.
-class _duplicate_key_list(list):
-    """Class identical to list that can be used for type checking. Used to handle dealing with parsing duplicate keys in JSON."""
-    def __init__(self, *args, **kwargs):
-        super(_duplicate_key_list, self).__init__(*args, **kwargs)
+# class _duplicate_key_list(list):
+#     """Class identical to list that can be used for type checking. Used to handle dealing with parsing duplicate keys in JSON."""
+#     def __init__(self, *args, **kwargs):
+#         super(_duplicate_key_list, self).__init__(*args, **kwargs)
 
 
 # From https://stackoverflow.com/questions/14902299/json-loads-allows-duplicate-keys-in-a-dictionary-overwriting-the-first-value
@@ -67,6 +69,52 @@ def _match_process(matchobj):
     return '"Additional sample data": {' + temp_string + '}'
 
 
+# Descriptor to handle the convenience properties for MWTabFile.
+class MWTabProperty:
+    def __set_name__(self, owner, name):
+        self._name = name
+    
+    def __get__(self, obj, type=None):
+        if obj.__dict__.get("_" + self._name + "_was_set"):
+            return obj.__dict__[self._name]
+        
+        if self._name == "study_id" or self._name == "analysis_id":
+            try:
+                return obj["METABOLOMICS WORKBENCH"].get(self._name.upper())
+            except Exception:
+                return None
+        
+        if self._name == "header":
+            try:
+                return " ".join(
+                    ["#METABOLOMICS WORKBENCH"]
+                    + [item[0] + ":" + item[1] for item in obj["METABOLOMICS WORKBENCH"].items() if item[0] not in ["VERSION", "CREATED_ON"]]
+                )
+            except Exception:
+                return None
+        
+        # try:
+        #     if self._name == "study_id":
+        #         return obj["METABOLOMICS WORKBENCH"].get("STUDY_ID")
+        #     if self._name == "analysis_id":
+        #         return obj["METABOLOMICS WORKBENCH"].get("ANALYSIS_ID")
+        #     if self._name == "header":
+        #         return " ".join(
+        #             ["#METABOLOMICS WORKBENCH"]
+        #             + [item[0] + ":" + item[1] for item in obj["METABOLOMICS WORKBENCH"].items() if item[0] not in ["VERSION", "CREATED_ON"]]
+        #         )
+        # except KeyError:
+        #     raise KeyError("Missing header information \"METABOLOMICS WORKBENCH\"")
+        # raise AttributeError("Unknown attribute " + self._name)
+    
+    def __set__(self, obj, value):
+        obj.__dict__[self._name] = value
+        obj.__dict__["_" + self._name + "_was_set"] = True
+    
+    def __delete__(self, obj):
+        del obj.__dict__[self._name]
+
+
 class MWTabFile(OrderedDict):
     """MWTabFile class that stores data from a single ``mwTab`` formatted file in
     the form of :py:class:`collections.OrderedDict`.
@@ -89,6 +137,10 @@ class MWTabFile(OrderedDict):
         "NMR_BINNED_DATA": "",
         "METABOLITES": ""
     }
+    
+    study_id = MWTabProperty()
+    analysis_id = MWTabProperty()
+    header = MWTabProperty()
 
     def __init__(self, source, *args, **kwds):
         """File initializer.
@@ -97,10 +149,41 @@ def __init__(self, source, *args, **kwds):
         """
         super(MWTabFile, self).__init__(*args, **kwds)
         self.source = source
-        self.study_id = ""
-        self.analysis_id = ""
-        self.header = ""
-
+        self._study_id = None
+        self._study_id_was_set = False
+        self._analysis_id = None
+        self._analysis_id_was_set = False
+        self._header = None
+        self._header_was_set = False
+        
+    def validate(self, section_schema_mapping=section_schema_mapping, verbose=True, metabolites=True):
+        """Validate the instance.
+        
+        :param dict section_schema_mapping: Dictionary that provides mapping between section name and schema definition.
+        :param bool verbose: whether to be verbose or not.
+        :param bool metabolites: whether to validate metabolites section.
+        :return: Validated file and errors if verbose is False.
+        :rtype: :py:class:`collections.OrderedDict`, _io.StringIO
+        """
+        return validate_file(
+                    mwtabfile=self,
+                    section_schema_mapping=section_schema_mapping,
+                    verbose=verbose,
+                    metabolites=metabolites
+                )
+    
+    @classmethod
+    def from_dict(cls, input_dict):
+        """Create a new MWTabFile instance from input_dict.
+        
+        :param dict input_dict: Dictionary to create the new instance from.
+        :return: New instance of MWTabFile
+        :rtype: :class:`~mwtab.mwtab.MWTabFile`
+        """
+        new_mwtabfile = cls("Internal dictionary. ID: " + str(id(input_dict)))
+        new_mwtabfile.update(input_dict)
+        return new_mwtabfile
+        
     def read(self, filehandle):
         """Read data into a :class:`~mwtab.mwtab.MWTabFile` instance.
 
@@ -127,16 +210,20 @@ def read(self, filehandle):
         else:
             raise TypeError("Unknown file format")
 
-        try:
-            self.study_id = self["METABOLOMICS WORKBENCH"].get("STUDY_ID")
-            self.analysis_id = self["METABOLOMICS WORKBENCH"].get("ANALYSIS_ID")
-            # self.header = self["METABOLOMICS WORKBENCH"].get("HEADER")
-            self.header = " ".join(
-                ["#METABOLOMICS WORKBENCH"]
-                + [item[0] + ":" + item[1] for item in self["METABOLOMICS WORKBENCH"].items() if item[0] not in ["VERSION", "CREATED_ON"]]
-            )
-        except KeyError as e:
-            raise KeyError("File missing header information \"METABOLOMICS WORKBENCH\"", e)
+        # try:
+        #     # Call managed property getters to set initial value.
+        #     self.study_id
+        #     self.analysis_id
+        #     self.header
+        #     # self.study_id = self["METABOLOMICS WORKBENCH"].get("STUDY_ID")
+        #     # self.analysis_id = self["METABOLOMICS WORKBENCH"].get("ANALYSIS_ID")
+        #     # # self.header = self["METABOLOMICS WORKBENCH"].get("HEADER")
+        #     # self.header = " ".join(
+        #     #     ["#METABOLOMICS WORKBENCH"]
+        #     #     + [item[0] + ":" + item[1] for item in self["METABOLOMICS WORKBENCH"].items() if item[0] not in ["VERSION", "CREATED_ON"]]
+        #     # )
+        # except KeyError as e:
+        #     raise KeyError("File missing header information \"METABOLOMICS WORKBENCH\"", e)
 
         filehandle.close()
 
diff --git a/src/mwtab/tokenizer.py b/src/mwtab/tokenizer.py
@@ -18,7 +18,7 @@
 from __future__ import print_function, division, unicode_literals
 from collections import deque, namedtuple, OrderedDict
 
-from . import mwtab
+from .mwschema import _duplicate_key_list
 
 
 KeyValue = namedtuple("KeyValue", ["key", "value"])
@@ -73,8 +73,8 @@ def tokenizer(text):
                         key = key.strip()
                         value = value.strip()
                         if key in additional_data:
-                            if not isinstance(additional_data[key], mwtab._duplicate_key_list):
-                                additional_data[key] = mwtab._duplicate_key_list([additional_data[key], value])
+                            if not isinstance(additional_data[key], _duplicate_key_list):
+                                additional_data[key] = _duplicate_key_list([additional_data[key], value])
                             else:
                                 additional_data[key].append(value)
                         else:
diff --git a/src/mwtab/validator.py b/src/mwtab/validator.py
@@ -19,7 +19,7 @@
 import sys
 import traceback
 
-from .mwschema import section_schema_mapping, base_schema
+from .mwschema import section_schema_mapping, base_schema, _duplicate_key_list
 
 import mwtab
 
@@ -125,7 +125,7 @@ def validate_subject_samples_factors(mwtabfile):
                     )
             
             duplicate_keys = [key for key, value in subject_sample_factor["Additional sample data"].items() 
-                              if isinstance(value, mwtab.mwtab._duplicate_key_list)]
+                              if isinstance(value, _duplicate_key_list)]
             if duplicate_keys:
                 subject_samples_factors_errors.append("SUBJECT_SAMPLE_FACTORS: Entry #" + str(index + 1) + 
                                                       " has the following duplicate keys:\n\t" + 
@@ -293,8 +293,8 @@ def validate_file(mwtabfile, section_schema_mapping=section_schema_mapping, verb
     :param dict section_schema_mapping: Dictionary that provides mapping between section name and schema definition.
     :param bool verbose: whether to be verbose or not.
     :param bool metabolites: whether to validate metabolites section.
-    :return: Validated file.
-    :rtype: :py:class:`collections.OrderedDict`
+    :return: Validated file and errors if verbose is False.
+    :rtype: :py:class:`collections.OrderedDict`, _io.StringIO
     """
     # setup
     if not verbose:
diff --git a/tests/test_mwtabfile.py b/tests/test_mwtabfile.py
@@ -143,3 +143,63 @@ def test_read_in_duplicate_keys_tab():
     assert isinstance(new_mwtabfile["SUBJECT_SAMPLE_FACTORS"][0]["Additional sample data"]['key_1'], mwtab.mwtab._duplicate_key_list)    
 
 
+def test_validate():
+    """Test that the validate method validates the object."""
+    
+    mwtabfile = mwtab.mwtab.MWTabFile("tests/example_data/other_mwtab_files/ST000122_AN000204_duplicate_keys.txt")
+        
+    with open("tests/example_data/other_mwtab_files/ST000122_AN000204_duplicate_keys.txt", "r", encoding="utf-8") as f:
+        mwtabfile.read(f)
+    
+    _, errors = mwtabfile.validate(verbose=False)
+    
+    assert "duplicate keys" in errors
+    
+    
+def test_from_dict():
+    """Test that the from_dict method works to create a new MWTabFile object."""
+    
+    with open("tests/example_data/other_mwtab_files/incorrect_section_order.json", "r", encoding="utf-8") as f:
+        json_file = loads(f.read())
+    
+    mwtabfile = mwtab.mwtab.MWTabFile.from_dict(json_file)
+    
+    assert mwtabfile.study_id == "ST000000"
+
+
+def test_properties():
+    """Test that the study_id, analysis_id, and header properties behave as expected."""
+    
+    mwtabfile = mwtab.mwtab.MWTabFile("tests/example_data/other_mwtab_files/ST000122_AN000204_duplicate_keys.txt")
+        
+    with open("tests/example_data/other_mwtab_files/ST000122_AN000204_duplicate_keys.txt", "r", encoding="utf-8") as f:
+        mwtabfile.read(f)
+    
+    assert mwtabfile.study_id == "ST000122"
+    assert mwtabfile.analysis_id == "AN000204"
+    assert mwtabfile.header == "#METABOLOMICS WORKBENCH STUDY_ID:ST000122 ANALYSIS_ID:AN000204 PROJECT_ID:PR000109"
+    
+    temp = mwtabfile["METABOLOMICS WORKBENCH"]
+    del mwtabfile["METABOLOMICS WORKBENCH"]
+    
+    assert mwtabfile.study_id is None
+    assert mwtabfile.analysis_id is None
+    assert mwtabfile.header is None
+    
+    mwtabfile["METABOLOMICS WORKBENCH"] = temp
+    
+    assert mwtabfile.study_id == "ST000122"
+    assert mwtabfile.analysis_id == "AN000204"
+    assert mwtabfile.header == "#METABOLOMICS WORKBENCH STUDY_ID:ST000122 ANALYSIS_ID:AN000204 PROJECT_ID:PR000109"
+    
+    mwtabfile.study_id = "asdf"
+    mwtabfile.analysis_id = "qwer"
+    mwtabfile.header = "zxcv"
+    
+    assert mwtabfile.study_id == "asdf"
+    assert mwtabfile.analysis_id == "qwer"
+    assert mwtabfile.header == "zxcv"
+
+
+
+