[SPARK-55363][PS][TESTS] Make ops tests with "decimal_nan" columns ignore NaN vs. None #54146

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Closed

ueshin wants to merge 1 commit into apache:master from ueshin:issues/SPARK-55363/ignore_null

+89 −35

python/pyspark/pandas/tests/data_type_ops/test_boolean_ops.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -55,7 +55,10 @@ def test_add(self): @@
             for col in self.numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
-                self.assert_eq(b_pser + pser, b_psser + psser, check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(
+                    b_pser + pser, b_psser + psser, check_exact=False, ignore_null=ignore_null
+                )
             for col in self.non_numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
                 if col == "bool":
@@ Expand All / @@ -74,7 +77,10 @@ def test_sub(self): @@
             self.assertRaises(TypeError, lambda: b_psser - True)
             for col in self.numeric_df_cols:
-                self.assert_eq(b_pser - pdf[col], b_psser - psdf[col], check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(
+                    b_pser - pdf[col], b_psser - psdf[col], check_exact=False, ignore_null=ignore_null
+                )
             for col in self.non_numeric_df_cols:
                 self.assertRaises(TypeError, lambda: b_psser - psdf[col])
@@ Expand All / @@ -91,7 +97,10 @@ def test_mul(self): @@
             self.assert_eq(b_pser * False, b_psser * False)
             for col in self.numeric_df_cols:
-                self.assert_eq(b_pser * pdf[col], b_psser * psdf[col], check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(
+                    b_pser * pdf[col], b_psser * psdf[col], check_exact=False, ignore_null=ignore_null
+                )
             for col in self.non_numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
@@ Expand Down Expand Up / @@ -149,7 +158,10 @@ def test_mod(self): @@
             self.assertRaises(TypeError, lambda: b_psser % True)
             for col in self.numeric_df_cols:
-                self.assert_eq(b_pser % pdf[col], b_psser % psdf[col], check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(
+                    b_pser % pdf[col], b_psser % psdf[col], check_exact=False, ignore_null=ignore_null
+                )
             for col in self.non_numeric_df_cols:
                 self.assertRaises(TypeError, lambda: b_psser % psdf[col])
@@ Expand Down @@

python/pyspark/pandas/tests/data_type_ops/test_num_arithmetic.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -44,15 +44,26 @@ def test_add(self): @@
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
-                self.assert_eq(pser + pser, psser + psser, check_exact=False)
-                self.assert_eq(pser + 1, psser + 1, check_exact=False)
-                self.assert_eq(pser + pser.astype(bool), psser + psser.astype(bool), check_exact=False)
-                self.assert_eq(pser + True, psser + True, check_exact=False)
-                self.assert_eq(pser + False, psser + False, check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(pser + pser, psser + psser, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(pser + 1, psser + 1, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(
+                    pser + pser.astype(bool),
+                    psser + psser.astype(bool),
+                    check_exact=False,
+                    ignore_null=ignore_null,
+                )
+                self.assert_eq(pser + True, psser + True, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(pser + False, psser + False, check_exact=False, ignore_null=ignore_null)
                 for n_col in self.non_numeric_df_cols:
                     if n_col == "bool":
-                        self.assert_eq(pser + pdf[n_col], psser + psdf[n_col], check_exact=False)
+                        self.assert_eq(
+                            pser + pdf[n_col],
+                            psser + psdf[n_col],
+                            check_exact=False,
+                            ignore_null=ignore_null,
+                        )
                     else:
                         self.assertRaises(TypeError, lambda: psser + psdf[n_col])
@@ Expand All / @@ -63,15 +74,26 @@ def test_sub(self): @@
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
-                self.assert_eq(pser - pser, psser - psser, check_exact=False)
-                self.assert_eq(pser - 1, psser - 1, check_exact=False)
-                self.assert_eq(pser - pser.astype(bool), psser - psser.astype(bool), check_exact=False)
-                self.assert_eq(pser - True, psser - True, check_exact=False)
-                self.assert_eq(pser - False, psser - False, check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(pser - pser, psser - psser, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(pser - 1, psser - 1, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(
+                    pser - pser.astype(bool),
+                    psser - psser.astype(bool),
+                    check_exact=False,
+                    ignore_null=ignore_null,
+                )
+                self.assert_eq(pser - True, psser - True, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(pser - False, psser - False, check_exact=False, ignore_null=ignore_null)
                 for n_col in self.non_numeric_df_cols:
                     if n_col == "bool":
-                        self.assert_eq(pser - pdf[n_col], psser - psdf[n_col], check_exact=False)
+                        self.assert_eq(
+                            pser - pdf[n_col],
+                            psser - psdf[n_col],
+                            check_exact=False,
+                            ignore_null=ignore_null,
+                        )
                     else:
                         self.assertRaises(TypeError, lambda: psser - psdf[n_col])
@@ Expand Down @@

python/pyspark/pandas/tests/data_type_ops/test_num_mod.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -37,10 +37,17 @@ def test_mod(self): @@
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
-                self.assert_eq(pser % pser, psser % psser, check_exact=False)
-                self.assert_eq(pser % pser.astype(bool), psser % psser.astype(bool), check_exact=False)
-                self.assert_eq(pser % True, psser % True, check_exact=False)
-                self.assert_eq(pser % 1, psser % 1, check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(pser % pser, psser % psser, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(
+                    pser % pser.astype(bool),
+                    psser % psser.astype(bool),
+                    check_exact=False,
+                    ignore_null=ignore_null,
+                )
+                self.assert_eq(pser % True, psser % True, check_exact=False, ignore_null=ignore_null)
+                self.assert_eq(pser % 1, psser % 1, check_exact=False, ignore_null=ignore_null)
                 if not col.startswith("decimal"):
                     self.assert_eq(pser % 0, psser % 0, check_exact=False)
                 if col in ["int", "int32"]:
@@ Expand Down @@

python/pyspark/pandas/tests/data_type_ops/test_num_ops.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -102,7 +102,8 @@ def test_from_to_pandas(self): @@
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
                 pser, psser = pdf[col], psdf[col]
-                self.assert_eq(pser, psser._to_pandas(), check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(pser, psser._to_pandas(), check_exact=False, ignore_null=ignore_null)
                 self.assert_eq(ps.from_pandas(pser), psser)
         def test_isnull(self):
@@ Expand All / @@ -113,12 +114,16 @@ def test_isnull(self): @@
         def test_neg(self):
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
-                self.assert_eq(-pdf[col], -psdf[col], check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(-pdf[col], -psdf[col], check_exact=False, ignore_null=ignore_null)
         def test_abs(self):
             pdf, psdf = self.pdf, self.psdf
             for col in self.numeric_df_cols:
-                self.assert_eq(abs(pdf[col]), abs(psdf[col]), check_exact=False)
+                ignore_null = self.ignore_null(col)
+                self.assert_eq(
+                    abs(pdf[col]), abs(psdf[col]), check_exact=False, ignore_null=ignore_null
+                )
         def test_invert(self):
             pdf, psdf = self.pdf, self.psdf
@@ Expand Down @@

python/pyspark/pandas/tests/data_type_ops/test_num_reverse.py

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -44,35 +44,38 @@ def test_radd(self):
  
            pdf, psdf = self.pdf, self.psdf

            for col in self.numeric_df_cols:

                pser, psser = pdf[col], psdf[col]

                self.assert_eq(1 + pser, 1 + psser, check_exact=False)

                ignore_null = self.ignore_null(col)

                self.assert_eq(1 + pser, 1 + psser, check_exact=False, ignore_null=ignore_null)

                # self.assert_eq(0.1 + pser, 0.1 + psser)

                self.assertRaises(TypeError, lambda: "x" + psser)

                self.assert_eq(True + pser, True + psser, check_exact=False)

                self.assert_eq(False + pser, False + psser, check_exact=False)

                self.assert_eq(True + pser, True + psser, check_exact=False, ignore_null=ignore_null)

                self.assert_eq(False + pser, False + psser, check_exact=False, ignore_null=ignore_null)

                self.assertRaises(TypeError, lambda: datetime.date(1994, 1, 1) + psser)

                self.assertRaises(TypeError, lambda: datetime.datetime(1994, 1, 1) + psser)

        def test_rsub(self):

            pdf, psdf = self.pdf, self.psdf

            for col in self.numeric_df_cols:

                pser, psser = pdf[col], psdf[col]

                self.assert_eq(1 - pser, 1 - psser, check_exact=False)

                ignore_null = self.ignore_null(col)

                self.assert_eq(1 - pser, 1 - psser, check_exact=False, ignore_null=ignore_null)

                # self.assert_eq(0.1 - pser, 0.1 - psser)

                self.assertRaises(TypeError, lambda: "x" - psser)

                self.assert_eq(True - pser, True - psser, check_exact=False)

                self.assert_eq(False - pser, False - psser, check_exact=False)

                self.assert_eq(True - pser, True - psser, check_exact=False, ignore_null=ignore_null)

                self.assert_eq(False - pser, False - psser, check_exact=False, ignore_null=ignore_null)

                self.assertRaises(TypeError, lambda: datetime.date(1994, 1, 1) - psser)

                self.assertRaises(TypeError, lambda: datetime.datetime(1994, 1, 1) - psser)

        def test_rmul(self):

            pdf, psdf = self.pdf, self.psdf

            for col in self.numeric_df_cols:

                pser, psser = pdf[col], psdf[col]

                self.assert_eq(1 * pser, 1 * psser, check_exact=False)

                ignore_null = self.ignore_null(col)

                self.assert_eq(1 * pser, 1 * psser, check_exact=False, ignore_null=ignore_null)

                # self.assert_eq(0.1 * pser, 0.1 * psser)

                self.assertRaises(TypeError, lambda: "x" * psser)

                self.assert_eq(True * pser, True * psser, check_exact=False)

                self.assert_eq(False * pser, False * psser, check_exact=False)

                self.assert_eq(True * pser, True * psser, check_exact=False, ignore_null=ignore_null)

                self.assert_eq(False * pser, False * psser, check_exact=False, ignore_null=ignore_null)

                self.assertRaises(TypeError, lambda: datetime.date(1994, 1, 1) * psser)

                self.assertRaises(TypeError, lambda: datetime.datetime(1994, 1, 1) * psser)

    @@ -116,10 +119,11 @@ def test_rmod(self):
  
            pdf, psdf = self.pdf, self.psdf

            for col in self.numeric_df_cols:

                pser, psser = pdf[col], psdf[col]

                self.assert_eq(1 % pser, 1 % psser, check_exact=False)

                ignore_null = self.ignore_null(col)

                self.assert_eq(1 % pser, 1 % psser, check_exact=False, ignore_null=ignore_null)

                # self.assert_eq(0.1 % pser, 0.1 % psser)

                self.assert_eq(True % pser, True % psser, check_exact=False)

                self.assert_eq(False % pser, False % psser, check_exact=False)

                self.assert_eq(True % pser, True % psser, check_exact=False, ignore_null=ignore_null)

                self.assert_eq(False % pser, False % psser, check_exact=False, ignore_null=ignore_null)

                self.assertRaises(TypeError, lambda: datetime.date(1994, 1, 1) % psser)

                self.assertRaises(TypeError, lambda: datetime.datetime(1994, 1, 1) % psser)

python/pyspark/pandas/tests/data_type_ops/testing_utils.py

-Original file line number
+Diff line change
@@ Expand Up / @@ -22,6 +22,7 @@ @@
     import pandas as pd
     import pyspark.pandas as ps
+    from pyspark.loose_version import LooseVersion
     from pyspark.pandas.typedef.typehints import (
         extension_dtypes_available,
         extension_float_dtypes_available,
@@ Expand Down Expand Up / @@ -219,3 +220,6 @@ def check_extension(self, left, right): @@
             pandas versions. Please refer to https://github.com/pandas-dev/pandas/issues/39410.
             """
             self.assert_eq(left, right)
+        def ignore_null(self, col):
+            return LooseVersion(pd.__version__) >= LooseVersion("3.0") and col == "decimal_nan"

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-55363][PS][TESTS] Make ops tests with "decimal_nan" columns ignore NaN vs. None #54146

Diff view

Diff view

There are no files selected for viewing

gaogaotiantian Feb 4, 2026

Uh oh!

ueshin Feb 4, 2026

Uh oh!

ueshin Feb 4, 2026

Uh oh!

gaogaotiantian Feb 4, 2026

Uh oh!

ueshin Feb 4, 2026

Uh oh!

gaogaotiantian Feb 5, 2026

Uh oh!

[SPARK-55363][PS][TESTS] Make ops tests with "decimal_nan" columns ignore NaN vs. None #54146

[SPARK-55363][PS][TESTS] Make ops tests with "decimal_nan" columns ignore NaN vs. None #54146

Uh oh!

Uh oh!

Diff view

Diff view

There are no files selected for viewing

gaogaotiantian Feb 4, 2026

Choose a reason for hiding this comment

Uh oh!

ueshin Feb 4, 2026

Choose a reason for hiding this comment

Uh oh!

ueshin Feb 4, 2026

Choose a reason for hiding this comment

Uh oh!

gaogaotiantian Feb 4, 2026

Choose a reason for hiding this comment

Uh oh!

ueshin Feb 4, 2026

Choose a reason for hiding this comment

Uh oh!

gaogaotiantian Feb 5, 2026

Choose a reason for hiding this comment

Uh oh!