add interactions

tommydangerous · tommydangerous · commit 51f031ffd416 · 2024-05-14T10:09:19.000-07:00
diff --git a/mlops/unit_4_triggering/custom/inference.py b/mlops/unit_4_triggering/custom/inference.py
@@ -1,57 +1,46 @@
-import json
-import os
-from typing import Dict, List, Union
+from typing import Dict, List, Tuple, Union
 
-from pandas import Series
-from scipy.sparse._csr import csr_matrix
+from sklearn.feature_extraction import DictVectorizer
 from xgboost import Booster
 
-from mlops.utils..data_preparation.feature_engineering import combine_features
-from mlops.utils..models.xgboost import build_data, load_model
+from mlops.utils.data_preparation.feature_engineering import combine_features
+from mlops.utils.models.xgboost import build_data
 
 if 'custom' not in globals():
     from mage_ai.data_preparation.decorators import custom
 
+DEFAULT_INPUTS = [
+    {
+        # target = "duration": 11.5
+        'DOLocationID': 239,
+        'PULocationID': 236,
+        'trip_distance': 1.98,
+    },
+    {
+        # target = "duration" 20.8666666667
+        'DOLocationID': '170',
+        'PULocationID': '65',
+        'trip_distance': 6.54,
+    },
+]
+
 
 @custom
 def predict(
-    training_set: Dict[str, List[Union[Series, csr_matrix]]],
-    model_settings: Dict[str, List[Booster]],
+    model_settings: Dict[str, Tuple[Booster, DictVectorizer]],
     **kwargs,
 ) -> List[float]:
-    inputs: List[Dict[str, Union[float, int]]] = kwargs.get(
-        'inputs',
-        [
-            {
-                # target = "duration": 11.5
-                'DOLocationID': 239,
-                'PULocationID': 236,
-                'trip_distance': 1.98,
-            },
-            {
-                # target = "duration" 20.8666666667
-                'DOLocationID': '170',
-                'PULocationID': '65',
-                'trip_distance': 6.54,
-            },
-        ],
-    )
-
-    dict_vectorizer = training_set['build'][6]
-    print(dict_vectorizer)
-    vectors = dict_vectorizer.transform(combine_features(inputs))
-
-    print(model_settings)
-    model = model_settings.get(
-        'xgboost',
-        load_model(kwargs.get('model_dir'), 'model.ubj', 'config.json'),
-    )
+    inputs: List[Dict[str, Union[float, int]]] = kwargs.get('inputs', DEFAULT_INPUTS)
+    inputs = combine_features(inputs)
+    
+    model, vectorizer = model_settings['xgboost']
+    vectors = vectorizer.transform(inputs)
 
     predictions = model.predict(build_data(vectors))
 
-    for idx, input_feature in enumerate(input_dicts):
+    for idx, input_feature in enumerate(inputs):
         print(f'Prediction of duration using these features: {predictions[idx]}')
-        for key, value in input_features[idx].items():
+        for key, value in inputs[idx].items():
             print(f'\t{key}: {value}')
 
     return predictions.tolist()
diff --git a/mlops/unit_4_triggering/interactions/playground.yaml b/mlops/unit_4_triggering/interactions/playground.yaml
@@ -0,0 +1,31 @@
+inputs:
+  number field:
+    style:
+      input_type: number
+    type: text_field
+layout:
+- - variable: PULocationID
+    width: 1
+  - variable: DOLocationID
+    width: 1
+- - variable: trip_distance
+    width: 1
+variables:
+  DOLocationID:
+    description: e.g. 239, 170
+    input: number field
+    name: DOLocationID
+    types:
+    - integer
+  PULocationID:
+    description: e.g. 236, 65
+    input: number field
+    name: PULocationID
+    types:
+    - integer
+  trip_distance:
+    description: e.g. 1.98, 6.54
+    input: number field
+    name: Trip distance
+    types:
+    - float
diff --git a/mlops/unit_4_triggering/pipelines/predict/interactions.yaml b/mlops/unit_4_triggering/pipelines/predict/interactions.yaml
@@ -1,9 +1,5 @@
 blocks:
   inference:
-    - description: null
-      layout: []
-      name: null
-      permissions: []
-      uuid: playground
-      variables: {}
+  - uuid: playground.yaml
 layout: []
+permissions: []
diff --git a/mlops/unit_4_triggering/pipelines/predict/metadata.yaml b/mlops/unit_4_triggering/pipelines/predict/metadata.yaml
@@ -1,67 +1,47 @@
 blocks:
-  - all_upstream_blocks_executed: true
-    color: null
-    configuration:
-      global_data_product:
-        uuid: training_set
-    downstream_blocks:
-      - inference
-      - model
-    executor_config: null
-    executor_type: local_python
-    has_callback: false
-    language: python
-    name: Training data
-    retry_config: null
-    status: executed
-    timeout: null
-    type: global_data_product
-    upstream_blocks: []
-    uuid: training_data
-  - all_upstream_blocks_executed: true
-    color: null
-    configuration:
-      file_source:
-        path: unit_4_triggering/global_data_products/model.py
-      global_data_product:
-        uuid: xgboost
-    downstream_blocks:
-      - inference
-    executor_config: null
-    executor_type: local_python
-    has_callback: false
-    language: python
-    name: Model
-    retry_config: null
-    status: executed
-    timeout: null
-    type: global_data_product
-    upstream_blocks: []
-    uuid: model
-  - all_upstream_blocks_executed: true
-    color: teal
-    configuration:
-      file_source:
-        path: null
-    downstream_blocks: []
-    executor_config: null
-    executor_type: local_python
-    has_callback: false
-    language: python
-    name: inference
-    retry_config: null
-    status: failed
-    timeout: null
-    type: custom
-    upstream_blocks:
-      - training_data
-      - model
-    uuid: inference
+- all_upstream_blocks_executed: true
+  color: null
+  configuration:
+    file_source:
+      path: unit_4_triggering/global_data_products/model.py
+    global_data_product:
+      uuid: xgboost
+  downstream_blocks:
+  - inference
+  executor_config: null
+  executor_type: local_python
+  has_callback: false
+  language: python
+  name: Model
+  retry_config: null
+  status: executed
+  timeout: null
+  type: global_data_product
+  upstream_blocks: []
+  uuid: model
+- all_upstream_blocks_executed: true
+  color: teal
+  configuration:
+    file_source:
+      path: null
+  downstream_blocks: []
+  executor_config: null
+  executor_type: local_python
+  has_callback: false
+  language: python
+  name: inference
+  retry_config: null
+  status: executed
+  timeout: null
+  type: custom
+  upstream_blocks:
+  - model
+  uuid: inference
 cache_block_output_in_memory: false
 callbacks: []
 concurrency_config: {}
 conditionals: []
-created_at: "2024-05-09 02:45:15.656239+00:00"
+created_at: '2024-05-09 02:45:15.656239+00:00'
 data_integration: null
 description: Online inference pipeline.
 executor_config: {}
@@ -80,5 +60,6 @@ tags: []
 type: python
 uuid: predict
 variables:
-  model_dir: ""
+  model_dir: ''
+variables_dir: /root/.mage_data/unit_4_triggering
 widgets: []