rapidsai · wmalpica · Jul 17, 2018 · Jul 18, 2018 · Jul 20, 2018 · Jul 20, 2018
diff --git a/include/gdf/parquet/api.h b/include/gdf/parquet/api.h
@@ -34,6 +34,6 @@ BEGIN_NAMESPACE_GDF_PARQUET
 extern "C" gdf_error
 read_parquet_file(const char *const  filename,
                   gdf_column **const out_gdf_columns,
-                  std::size_t *const out_gdf_columns_length);
+                  size_t *const out_gdf_columns_length);
 
 END_NAMESPACE_GDF_PARQUET
diff --git a/src/parquet/api.cpp b/src/parquet/api.cpp
@@ -33,24 +33,24 @@ BEGIN_NAMESPACE_GDF_PARQUET
 namespace {
 
 template <::parquet::Type::type TYPE>
-struct parquet_traits {};
+struct parquet_physical_traits {};
 
-#define PARQUET_TRAITS_FACTORY(TYPE, DTYPE)                                   \
+#define PARQUET_PHYSICAL_TRAITS_FACTORY(TYPE, DTYPE)                          \
     template <>                                                               \
-    struct parquet_traits<::parquet::Type::TYPE> {                            \
+    struct parquet_physical_traits<::parquet::Type::TYPE> {                   \
         static constexpr gdf_dtype dtype = GDF_##DTYPE;                       \
     }
 
-PARQUET_TRAITS_FACTORY(BOOLEAN, INT8);
-PARQUET_TRAITS_FACTORY(INT32, INT32);
-PARQUET_TRAITS_FACTORY(INT64, INT64);
-PARQUET_TRAITS_FACTORY(INT96, invalid);
-PARQUET_TRAITS_FACTORY(FLOAT, FLOAT32);
-PARQUET_TRAITS_FACTORY(DOUBLE, FLOAT64);
-PARQUET_TRAITS_FACTORY(BYTE_ARRAY, invalid);
-PARQUET_TRAITS_FACTORY(FIXED_LEN_BYTE_ARRAY, invalid);
+PARQUET_PHYSICAL_TRAITS_FACTORY(BOOLEAN, INT8);
+PARQUET_PHYSICAL_TRAITS_FACTORY(INT32, INT32);
+PARQUET_PHYSICAL_TRAITS_FACTORY(INT64, INT64);
+PARQUET_PHYSICAL_TRAITS_FACTORY(INT96, invalid);
+PARQUET_PHYSICAL_TRAITS_FACTORY(FLOAT, FLOAT32);
+PARQUET_PHYSICAL_TRAITS_FACTORY(DOUBLE, FLOAT64);
+PARQUET_PHYSICAL_TRAITS_FACTORY(BYTE_ARRAY, invalid);
+PARQUET_PHYSICAL_TRAITS_FACTORY(FIXED_LEN_BYTE_ARRAY, invalid);
 
-#undef PARQUET_TRAITS_FACTORY
+#undef PARQUET_PHYSICAL_TRAITS_FACTORY
 
 template <::parquet::Type::type TYPE>
 static inline std::size_t
@@ -81,15 +81,16 @@ _ReadBatch(const std::shared_ptr<::parquet::ColumnReader> &column_reader,
     std::size_t              batch_size     = 8;
     std::size_t              total_read     = 0;
     do {
-        batch = reader->ReadBatchSpaced(batch_size,
-                                        definition_levels,
-                                        repetition_levels,
-                                        values + batch_actual,
-                                        valid_bits,
-                                        0,
-                                        &levels_read,
-                                        &values_read,
-                                        &nulls_count);
+        batch = reader->ReadBatchSpaced(
+          batch_size,
+          definition_levels,
+          repetition_levels,
+          values + batch_actual,
+          valid_bits + static_cast<std::ptrdiff_t>(batch_actual / 8),
+          0,
+          &levels_read,
+          &values_read,
+          &nulls_count);
         total_read += static_cast<std::size_t>(values_read);
         batch_actual += batch;
         batch_size = std::max(batch_size * 2, min_batch_size);
@@ -99,14 +100,80 @@ _ReadBatch(const std::shared_ptr<::parquet::ColumnReader> &column_reader,
     return total_read;
 }
 
+struct ParquetTypeHash {
+    template <class T>
+    std::size_t
+    operator()(T t) const {
+        return static_cast<std::size_t>(t);
+    }
+};
+
+const std::unordered_map<::parquet::Type::type, gdf_dtype, ParquetTypeHash>
+  dtype_from_physical_type_map{
+    {::parquet::Type::BOOLEAN, GDF_INT8},
+    {::parquet::Type::INT32, GDF_INT32},
+    {::parquet::Type::INT64, GDF_INT64},
+    {::parquet::Type::INT96, GDF_invalid},
+    {::parquet::Type::FLOAT, GDF_FLOAT32},
+    {::parquet::Type::DOUBLE, GDF_FLOAT64},
+    {::parquet::Type::BYTE_ARRAY, GDF_invalid},
+    {::parquet::Type::FIXED_LEN_BYTE_ARRAY, GDF_invalid},
+  };
+
+const std::
+  unordered_map<::parquet::LogicalType::type, gdf_dtype, ParquetTypeHash>
+    dtype_from_logical_type_map{
+      {::parquet::LogicalType::NONE, GDF_invalid},
+      {::parquet::LogicalType::UTF8, GDF_invalid},
+      {::parquet::LogicalType::MAP, GDF_invalid},
+      {::parquet::LogicalType::MAP_KEY_VALUE, GDF_invalid},
+      {::parquet::LogicalType::LIST, GDF_invalid},
+      {::parquet::LogicalType::ENUM, GDF_invalid},
+      {::parquet::LogicalType::DECIMAL, GDF_invalid},
+      {::parquet::LogicalType::DATE, GDF_DATE32},
+      {::parquet::LogicalType::TIME_MILLIS, GDF_invalid},
+      {::parquet::LogicalType::TIME_MICROS, GDF_invalid},
+      {::parquet::LogicalType::TIMESTAMP_MILLIS, GDF_TIMESTAMP},
+      {::parquet::LogicalType::TIMESTAMP_MICROS, GDF_invalid},
+      {::parquet::LogicalType::UINT_8, GDF_invalid},
+      {::parquet::LogicalType::UINT_16, GDF_invalid},
+      {::parquet::LogicalType::UINT_32, GDF_invalid},
+      {::parquet::LogicalType::UINT_64, GDF_invalid},
+      {::parquet::LogicalType::INT_8, GDF_INT8},
+      {::parquet::LogicalType::INT_16, GDF_INT16},
+      {::parquet::LogicalType::INT_32, GDF_INT32},
+      {::parquet::LogicalType::INT_64, GDF_INT64},
+      {::parquet::LogicalType::JSON, GDF_invalid},
+      {::parquet::LogicalType::BSON, GDF_invalid},
+      {::parquet::LogicalType::INTERVAL, GDF_invalid},
+      {::parquet::LogicalType::NA, GDF_invalid},
+    };
+
+static inline gdf_dtype
+_DTypeFrom(const ::parquet::ColumnDescriptor *const column_descriptor) {
+    const ::parquet::LogicalType::type logical_type =
+      column_descriptor->logical_type();
+
+    if (logical_type != ::parquet::LogicalType::NONE) {
+        return dtype_from_logical_type_map.at(logical_type);
+    }
+
+    const ::parquet::Type::type physical_type =
+      column_descriptor->physical_type();
+
+    return dtype_from_physical_type_map.at(physical_type);
+}
+
 template <::parquet::Type::type TYPE>
 static inline gdf_error
-_AllocateGdfColumn(const std::size_t num_rows, gdf_column *const _gdf_column) {
+_AllocateGdfColumn(const std::size_t                        num_rows,
+                   const ::parquet::ColumnDescriptor *const column_descriptor,
+                   gdf_column &                             _gdf_column) {
     const std::size_t value_byte_size =
       static_cast<std::size_t>(::parquet::type_traits<TYPE>::value_byte_size);
 
     try {
-        _gdf_column->data =
+        _gdf_column.data =
           static_cast<void *>(new std::uint8_t[num_rows * value_byte_size]);
     } catch (const std::bad_alloc &e) {
 #ifdef GDF_DEBUG
@@ -116,7 +183,7 @@ _AllocateGdfColumn(const std::size_t num_rows, gdf_column *const _gdf_column) {
     }
 
     try {
-        _gdf_column->valid = static_cast<gdf_valid_type *>(
+        _gdf_column.valid = static_cast<gdf_valid_type *>(
           new std::uint8_t[arrow::BitUtil::BytesForBits(num_rows)]);
     } catch (const std::bad_alloc &e) {
 #ifdef GDF_DEBUG
@@ -125,26 +192,30 @@ _AllocateGdfColumn(const std::size_t num_rows, gdf_column *const _gdf_column) {
         return GDF_BAD_ALLOC;
     }
 
-    _gdf_column->size  = num_rows;
-    _gdf_column->dtype = parquet_traits<TYPE>::dtype;
+    _gdf_column.size  = num_rows;
+    _gdf_column.dtype = _DTypeFrom(column_descriptor);
 
     return GDF_SUCCESS;
 }
 
 static inline gdf_error
-_AllocateGdfColumns(const std::size_t                        num_columns,
-                    const std::size_t                        num_rows,
-                    const std::vector<::parquet::Type::type> type_nums,
-                    gdf_column *const                        gdf_columns) {
+_AllocateGdfColumns(
+  const std::size_t                                       num_columns,
+  const std::size_t                                       num_rows,
+  const std::vector<const ::parquet::ColumnDescriptor *> &column_descriptors,
+  gdf_column *const                                       gdf_columns) {
 #define WHEN(TYPE)                                                            \
     case ::parquet::Type::TYPE:                                               \
-        _AllocateGdfColumn<::parquet::Type::TYPE>(num_rows, _gdf_column);     \
+        _AllocateGdfColumn<::parquet::Type::TYPE>(                            \
+          num_rows, column_descriptor, _gdf_column);                          \
         break
 
     for (std::size_t i = 0; i < num_columns; i++) {
-        gdf_column *const _gdf_column = &gdf_columns[i];
+        gdf_column &                             _gdf_column = gdf_columns[i];
+        const ::parquet::ColumnDescriptor *const column_descriptor =
+          column_descriptors[i];
 
-        switch (type_nums[i]) {
+        switch (column_descriptor->physical_type()) {
             WHEN(BOOLEAN);
             WHEN(INT32);
             WHEN(INT64);
@@ -190,7 +261,7 @@ read_parquet_file(const char *const  filename,
     const std::unique_ptr<FileReader> file_reader =
       FileReader::OpenFile(filename);
 
-    const std::shared_ptr<const ::parquet::FileMetaData> metadata =
+    const std::shared_ptr<const ::parquet::FileMetaData> &metadata =
       file_reader->metadata();
 
     const std::size_t num_row_groups =
@@ -210,12 +281,14 @@ read_parquet_file(const char *const  filename,
 
     if (gdf_columns == nullptr) { return GDF_BAD_ALLOC; }
 
-    std::vector<::parquet::Type::type> type_nums;
-    type_nums.reserve(num_columns);
+    std::vector<const ::parquet::ColumnDescriptor *> column_descriptors;
+    column_descriptors.reserve(num_columns);
     for (std::size_t i = 0; i < num_columns; i++) {
-        type_nums.emplace_back(file_reader->RowGroup(0)->Column(i)->type());
+        column_descriptors.emplace_back(
+          file_reader->RowGroup(0)->Column(i)->descr());
     }
-    if (_AllocateGdfColumns(num_columns, num_rows, type_nums, gdf_columns)
+    if (_AllocateGdfColumns(
+          num_columns, num_rows, column_descriptors, gdf_columns)
         != GDF_SUCCESS) {
         return GDF_BAD_ALLOC;
     }

diff --git a/src/parquet/column_reader.cpp b/src/parquet/column_reader.cpp
@@ -261,52 +261,6 @@ _ReadValuesSpaced(DecoderType * decoder,
                                  valid_bits_offset);
 }
 
-template <class DataType>
-inline std::int64_t
-ColumnReader<DataType>::ReadBatch(std::int64_t  batch_size,
-                                  std::int16_t *def_levels,
-                                  std::int16_t *rep_levels,
-                                  T *           values,
-                                  std::int64_t *values_read) {
-    if (!HasNext()) {
-        *values_read = 0;
-        return 0;
-    }
-
-    batch_size =
-      std::min(batch_size, num_buffered_values_ - num_decoded_values_);
-
-    std::int64_t num_def_levels = 0;
-    std::int64_t num_rep_levels = 0;
-
-    std::int64_t values_to_read = 0;
-
-    if (descr_->max_definition_level() > 0 && def_levels) {
-        num_def_levels = ReadDefinitionLevels(batch_size, def_levels);
-        for (std::int64_t i = 0; i < num_def_levels; ++i) {
-            if (def_levels[i] == descr_->max_definition_level()) {
-                ++values_to_read;
-            }
-        }
-    } else {
-        values_to_read = batch_size;
-    }
-
-    if (descr_->max_repetition_level() > 0 && rep_levels) {
-        num_rep_levels = ReadRepetitionLevels(batch_size, rep_levels);
-        if (def_levels && num_def_levels != num_rep_levels) {
-            throw ::parquet::ParquetException(
-              "Number of decoded rep / def levels did not match");
-        }
-    }
-
-    *values_read = _ReadValues(current_decoder_, values_to_read, values);
-    std::int64_t total_values = std::max(num_def_levels, *values_read);
-    ConsumeBufferedValues(total_values);
-
-    return total_values;
-}
-
 template <typename DataType>
 inline std::int64_t
 ColumnReader<DataType>::ReadBatchSpaced(std::int64_t  batch_size,

diff --git a/src/parquet/column_reader.h b/src/parquet/column_reader.h
@@ -32,12 +32,6 @@ class ColumnReader : public ::parquet::ColumnReader {
 
     bool HasNext();
 
-    std::int64_t ReadBatch(std::int64_t  batchSize,
-                           std::int16_t *definitionLevels,
-                           std::int16_t *repetitionLevels,
-                           T *           values,
-                           std::int64_t *valuesRead);
-
     std::int64_t ReadBatchSpaced(std::int64_t  batch_size,
                                  std::int16_t *def_levels,
                                  std::int16_t *rep_levels,

diff --git a/src/tests/parquet/CMakeLists.txt b/src/tests/parquet/CMakeLists.txt
@@ -36,15 +36,14 @@ file(MAKE_DIRECTORY ${BENCHMARK_ROOT}/lib)
 
 add_library(Google::Benchmark INTERFACE IMPORTED)
 add_dependencies(Google::Benchmark benchmark_ep)
-target_include_directories(Google::Benchmark INTERFACE
-    ${BENCHMARK_ROOT}/include)
-target_link_libraries(Google::Benchmark INTERFACE
-	${BENCHMARK_ROOT}/lib/libbenchmark.a)
+set_target_properties(Google::Benchmark
+    PROPERTIES INTERFACE_INCLUDE_DIRECTORIES ${BENCHMARK_ROOT}/include)
+set_target_properties(Google::Benchmark
+    PROPERTIES INTERFACE_LINK_LIBRARIES ${BENCHMARK_ROOT}/lib/libbenchmark.a)
 
 add_library(Google::Benchmark::Main INTERFACE IMPORTED)
-target_link_libraries(Google::Benchmark::Main INTERFACE
-    Google::Benchmark
-    ${BENCHMARK_ROOT}/lib/libbenchmark_main.a)
+set_target_properties(Google::Benchmark::Main
+    PROPERTIES INTERFACE_LINK_LIBRARIES ${BENCHMARK_ROOT}/lib/libbenchmark_main.a)
 endif()
 
 set(file_reader_SRCS

diff --git a/src/tests/parquet/decoding/decoding-test.cpp b/src/tests/parquet/decoding/decoding-test.cpp
@@ -45,7 +45,10 @@ checkRowGroups(const std::unique_ptr<gdf::parquet::FileReader> &reader) {
         const std::shared_ptr<parquet::RowGroupReader> row_group =
           reader->RowGroup(r);
 
-        std::int64_t                           values_read = 0;
+        std::int64_t levels_read;
+        std::int64_t values_read = 0;
+        std::int64_t nulls_count;
+
         int                                    i;
         std::shared_ptr<parquet::ColumnReader> column;
 
@@ -67,11 +70,15 @@ checkRowGroups(const std::unique_ptr<gdf::parquet::FileReader> &reader) {
             int64_t rows_read_total = 0;
             while (rows_read_total < amountToRead) {
                 int64_t rows_read =
-                        int32_reader->ReadBatch(amountToRead,
-                                                    dresult.data(),
-                                                    rresult.data(),
-                                                    (int32_t *) (&(valuesBuffer[rows_read_total])),
-                                                    &values_read
+                        int32_reader->ReadBatchSpaced(amountToRead,
+                                                      dresult.data(),
+                                                      rresult.data(),
+                                                      (int32_t *) (&(valuesBuffer[rows_read_total])),
+                                                      valid_bits.data(),
+                                                      0,
+                                                      &levels_read,
+                                                      &values_read,
+                                                      &nulls_count
                         );
                 std::cout << "rows_read: " << rows_read << std::endl;
                 rows_read_total += rows_read;

diff --git a/src/tests/parquet/file_reader/CMakeLists.txt b/src/tests/parquet/file_reader/CMakeLists.txt
@@ -21,6 +21,7 @@ set(PARQUET_FILE_PATH
     ${CMAKE_SOURCE_DIR}/src/tests/parquet/file_reader/reader-test.parquet)
 
 GDF_ADD_PARQUET_TEST(file_reader-test
+    file_reader-test.cpp
     single_column_file-test.cpp
     api-test.cpp)