Add pandas test cases

Mahmoud Hanafy · Mahmoud Hanafy · commit e6cd103cea8d · 2015-12-28T07:52:20.000+02:00
diff --git a/src/main/scala/com/high-performance-spark-examples/dataframe/HappyPandas.scala b/src/main/scala/com/high-performance-spark-examples/dataframe/HappyPandas.scala
@@ -105,7 +105,6 @@ object HappyPanda {
 
 
   /**
-    *
     * @param name name of panda
     * @param zip zip code
     * @param pandaSize size of panda in KG
@@ -121,17 +120,22 @@ object HappyPanda {
 
   //tag::minMaxPandasSizePerZip[]
   def minMaxPandaSizePerZip(pandas: DataFrame): DataFrame = {
-    // List of strings
-    pandas.groupBy(pandas("zip")).agg(("min", "pandaSize"), ("max", "pandaSize"))
-    // Map of column to aggregate
-    pandas.groupBy(pandas("zip")).agg(Map("pandaSize" -> "min",
-      "pandaSize" -> "max"))
-    // expression literals
+    pandas.groupBy(pandas("zip")).agg(min("pandaSize"), max("pandaSize"))
   }
   //end::minMaxPandasSizePerZip[]
 
+  def minPandaSizeMaxAgePerZip(pandas: DataFrame): DataFrame = {
+    // this query can be written in two methods
+
+    // 1
+    pandas.groupBy(pandas("zip")).agg(("pandaSize", "min"), ("age", "max"))
+
+    // 2
+    pandas.groupBy(pandas("zip")).agg(Map("pandaSize" -> "min", "age" -> "max"))
+  }
+
   //tag::complexAggPerZip[]
-  def complexAggPerZip(pandas: DataFrame): DataFrame = {
+  def minMeanSizePerZip(pandas: DataFrame): DataFrame = {
     // Compute the min and mean
     pandas.groupBy(pandas("zip")).agg(min(pandas("pandaSize")), mean(pandas("pandaSize")))
   }
@@ -141,7 +145,7 @@ object HappyPanda {
     val sqlCtx = pandas.sqlContext
     //tag::pandasSQLQuery[]
     pandas.registerTempTable("pandas")
-    val miniPandas = sqlCtx.sql("SELECT * FROM pandas WHERE pandaSize < 100")
+    val miniPandas = sqlCtx.sql("SELECT * FROM pandas WHERE pandaSize < 12")
     //end::pandasSQLQuery[]
     miniPandas
   }
@@ -157,9 +161,6 @@ object HappyPanda {
     * Orders pandas by size ascending and by age descending.
     * Pandas will be sorted by "size" first and if two pandas have the same "size"
     * will be sorted by "age".
-    *
-    * @param pandas
-    * @return
     */
   def orderPandas(pandas: DataFrame): DataFrame = {
     //tag::simpleSort[]
@@ -172,14 +173,14 @@ object HappyPanda {
     val windowSpec = Window
       .orderBy(pandas("age"))
       .partitionBy(pandas("zip"))
-      .rowsBetween(start = 10, end = 10) // use rangeBetween for range instead
+      .rowsBetween(start = -1, end = 1) // use rangeBetween for range instead
     //end::relativePandaSizesWindow[]
 
     //tag::relativePandaSizesQuery[]
     val pandaRelativeSizeFunc = (pandas("pandaSize") -
       avg(pandas("pandaSize")).over(windowSpec))
 
-    pandas.select(pandas("name"), pandas("zip"), pandas("pandaSize"),
+    pandas.select(pandas("name"), pandas("zip"), pandas("pandaSize"), pandas("age"),
       pandaRelativeSizeFunc.as("panda_relative_size"))
     //end::relativePandaSizesQuery[]
   }
diff --git a/src/test/scala/com/high-performance-spark-examples/dataframe/HappyPandas.scala b/src/test/scala/com/high-performance-spark-examples/dataframe/HappyPandas.scala
@@ -3,7 +3,7 @@
  */
 package com.highperformancespark.examples.dataframe
 
-import com.highperformancespark.examples.dataframe.HappyPanda.PandaInfo
+import com.highperformancespark.examples.dataframe.HappyPanda.{PandaInfo, Pandas}
 import com.holdenkarau.spark.testing._
 import org.apache.spark.sql.types._
 import org.apache.spark.sql.{DataFrame, Row, SQLContext}
@@ -13,26 +13,32 @@ class HappyPandasTest extends DataFrameSuiteBase {
   val toronto = "toronto"
   val sandiego = "san diego"
   val virginia = "virginia"
-  val pandInfoList = List(PandaInfo(toronto, "giant", 1, 2),
+  val pandaInfoList = List(PandaInfo(toronto, "giant", 1, 2),
                           PandaInfo(sandiego, "red", 2, 3),
                           PandaInfo(virginia, "black", 1, 10))
 
+  val pandasList = List(Pandas("bata", "10010", 10, 2),
+                        Pandas("wiza", "10010", 20, 4),
+                        Pandas("dabdob", "11000", 8, 2),
+                        Pandas("hanafy", "11000", 15, 7),
+                        Pandas("hamdi", "11111", 20, 10))
+
   //tag::approxEqualDataFrames[]
 
   test("verify simple happy pandas Percentage") {
     val expectedResult = List(Row(toronto, 0.5), Row(sandiego, 2/3.0), Row(virginia, 1/10.0))
     val expectedDf = createDF(expectedResult, ("place", StringType),
                                               ("percentHappy", DoubleType))
 
-    val inputDF = sqlContext.createDataFrame(pandInfoList)
+    val inputDF = sqlContext.createDataFrame(pandaInfoList)
     val result = HappyPanda.happyPandasPercentage(inputDF)
 
     approxEqualDataFrames(expectedDf, result, 1E-5)
   }
   //end::approxEqualDataFrames[]
 
   test("verify approx by hand") {
-    val inputDF = sqlContext.createDataFrame(pandInfoList)
+    val inputDF = sqlContext.createDataFrame(pandaInfoList)
     val resultDF = HappyPanda.happyPandasPercentage(inputDF)
     val resultRows = resultDF.collect()
 
@@ -48,7 +54,7 @@ class HappyPandasTest extends DataFrameSuiteBase {
   }
 
   test("test encode Panda type") {
-    val inputDF = sqlContext.createDataFrame(pandInfoList)
+    val inputDF = sqlContext.createDataFrame(pandaInfoList)
     val resultDF = HappyPanda.encodePandaType(inputDF)
 
     val expectedRows = List(Row(toronto, 0), Row(sandiego, 1), Row(virginia, 2))
@@ -61,7 +67,7 @@ class HappyPandasTest extends DataFrameSuiteBase {
   //tag::exactEqualDataFrames[]
   test("verify exact equality") {
     // test minHappyPandas
-    val inputDF = sqlContext.createDataFrame(pandInfoList)
+    val inputDF = sqlContext.createDataFrame(pandaInfoList)
     val result = HappyPanda.minHappyPandas(inputDF, 2)
     val resultRows = result.collect()
 
@@ -71,7 +77,7 @@ class HappyPandasTest extends DataFrameSuiteBase {
   //end::exactEqualDataFrames[]
 
   test("test happyPandasPlaces") {
-    val inputDF = sqlContext.createDataFrame(pandInfoList)
+    val inputDF = sqlContext.createDataFrame(pandaInfoList)
     val resultDF = HappyPanda.happyPandasPlaces(inputDF)
 
     val expectedRows = List(PandaInfo(toronto, "giant", 1, 2),
@@ -81,26 +87,141 @@ class HappyPandasTest extends DataFrameSuiteBase {
     equalDataFrames(expectedDF, resultDF)
   }
 
-  // Make a test once we have hivectx in the base
-  def futureTestRrelativePandaSize() {
-    val sqlCtx = sqlContext
-    // TODO: Generate some data instead of using the small static data
-    val inputDF = loadPandaStuffies(sqlCtx)
-    val result = HappyPanda.computeRelativePandaSizes(inputDF)
-    val resultRows = result.collect()
-    assert(List() === resultRows)
+  test("test maxPandaSizePerZip") {
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.maxPandaSizePerZip(inputDF)
+
+    val expectedRows = List(Row(pandasList(1).zip, pandasList(1).pandaSize),
+                            Row(pandasList(3).zip, pandasList(3).pandaSize),
+                            Row(pandasList(4).zip, pandasList(4).pandaSize))
+    val expectedDF = createDF(expectedRows, ("zip", StringType),
+                                            ("max(pandaSize)", IntegerType))
+
+    equalDataFrames(expectedDF.orderBy("zip"), resultDF.orderBy("zip"))
+  }
+
+  test("test minMaxPandaSizePerZip"){
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.minMaxPandaSizePerZip(inputDF)
+
+    val expectedRows = List(
+      Row(pandasList(1).zip, pandasList(0).pandaSize, pandasList(1).pandaSize),
+      Row(pandasList(3).zip, pandasList(2).pandaSize, pandasList(3).pandaSize),
+      Row(pandasList(4).zip, pandasList(4).pandaSize, pandasList(4).pandaSize))
+
+    val expectedDF = createDF(expectedRows, ("zip", StringType),
+                                            ("min(pandaSize)", IntegerType),
+                                            ("max(pandaSize)", IntegerType))
+
+    equalDataFrames(expectedDF.orderBy("zip"), resultDF.orderBy("zip"))
+  }
+
+  test("test minPandaSizeMaxAgePerZip") {
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.minPandaSizeMaxAgePerZip(inputDF)
+
+    val expectedRows = List(
+      Row(pandasList(1).zip, pandasList(0).pandaSize, pandasList(1).age),
+      Row(pandasList(3).zip, pandasList(2).pandaSize, pandasList(3).age),
+      Row(pandasList(4).zip, pandasList(4).pandaSize, pandasList(4).age))
+
+    val expectedDF = createDF(expectedRows, ("zip", StringType),
+                                            ("min(pandaSize)", IntegerType),
+                                            ("max(age)", IntegerType))
+
+    equalDataFrames(expectedDF.orderBy("zip"), resultDF.orderBy("zip"))
+  }
+
+  test("test complexAggPerZip") {
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.minMeanSizePerZip(inputDF)
+
+    val expectedRows = List(
+      Row(pandasList(1).zip, pandasList(0).pandaSize, 15.0),
+      Row(pandasList(3).zip, pandasList(2).pandaSize, 11.5),
+      Row(pandasList(4).zip, pandasList(4).pandaSize, 20.0))
+
+    val expectedDF = createDF(expectedRows, ("zip", StringType),
+                                            ("min(pandaSize)", IntegerType),
+                                            ("avg(pandaSize)", DoubleType))
+
+    approxEqualDataFrames(expectedDF.orderBy("zip"), resultDF.orderBy("zip"), 1e-5)
+  }
+
+
+  test("test Simple SQL example") {
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.simpleSqlExample(inputDF)
+
+    val expectedRows = List(pandasList(0), pandasList(2))
+    val expectedDF = sqlContext.createDataFrame(expectedRows)
+
+    equalDataFrames(expectedDF, resultDF)
+  }
+
+  test("test Order Pandas") {
+    val inputDF = sqlContext.createDataFrame(pandasList)
+    val resultDF = HappyPanda.orderPandas(inputDF)
+
+    val expectedRows = List(pandasList(2), pandasList(0), pandasList(3),
+                            pandasList(4), pandasList(1))
+    val expectedDF = sqlContext.createDataFrame(expectedRows)
+
+    equalDataFrames(expectedDF, resultDF)
+  }
+
+
+  test("test computeRelativePandaSizes") {
+    val inputDF = loadPandaStuffies()
+    val resultDF = HappyPanda.computeRelativePandaSizes(inputDF)
+
+    val expectedDF = getExpectedPandasRelativeSize()
+
+    approxEqualDataFrames(expectedDF.orderBy("name"), resultDF.orderBy("name"), 1e-2)
+  }
+
+  private def getExpectedPandasRelativeSize():DataFrame = {
+    val expectedRows = List(
+      Row("name1-1", "zip1", 10, 1, -5.0),
+      Row("name2-1", "zip1", 20, 2, 5.0),
+      Row("name3-1", "zip1", 15, 3, 1.6666),
+      Row("name4-1", "zip1",  5, 4, -5.0),
+
+      Row("name1-2", "zip2",  5, 1, -7.5),
+      Row("name2-2", "zip2", 20, 2, 4.66666),
+      Row("name3-2", "zip2", 21, 3, 0.5),
+
+      Row("name1-3", "zip3", 10, 1, 0.0),
+      Row("name2-3", "zip3", 10, 2, 0.0),
+
+      Row("name1-4", "zip4",  5, 1, 0.0))
+
+    val expectedDF = createDF(expectedRows, ("name", StringType),
+                                            ("zip", StringType),
+                                            ("pandaSize", IntegerType),
+                                            ("age", IntegerType),
+                                            ("panda_relative_size", DoubleType))
+
+    expectedDF
   }
 
-  def loadPandaStuffies(sqlCtx: SQLContext): DataFrame = {
-    val pandaStuffies = List(Row("ikea", null, 0.2, 94110),
-      Row("tube", 6, 0.4, 94110),
-      Row("panda", 6, 0.5, 94110),
-      Row("real", 30, 77.5, 100000))
-    val schema = StructType(List(StructField("name", StringType, true),
-      StructField("age", IntegerType, true),
-      StructField("pandaSize", DoubleType, true),
-      StructField("zip", IntegerType, true)))
-    sqlCtx.createDataFrame(sc.parallelize(pandaStuffies), schema)
+  private def loadPandaStuffies(): DataFrame = {
+    val pandaStuffies = List(
+      Pandas("name1-1", "zip1", 10, 1),
+      Pandas("name2-1", "zip1", 20, 2),
+      Pandas("name3-1", "zip1", 15, 3),
+      Pandas("name4-1", "zip1", 5, 4),
+
+      Pandas("name1-2", "zip2", 5, 1),
+      Pandas("name2-2", "zip2", 20, 2),
+      Pandas("name3-2", "zip2", 21, 3),
+
+      Pandas("name1-3", "zip3", 10, 1),
+      Pandas("name2-3", "zip3", 10, 2),
+
+      Pandas("name1-4", "zip4", 5, 1))
+
+    sqlContext.createDataFrame(sc.parallelize(pandaStuffies))
   }