task4.gmm.yaml

active_set: minimal

sets:
  - set_id: minimal
    description: Minimal GMM based system to test that everything works
    dataset:
      method: development
    dataset_method_parameters:
      development:
        name: DCASE2017_Task4tagging_DevelopmentSet
        fold_list: [1]
        evaluation_mode: folds
    feature_stacker:
      stacking_recipe: mfcc
    feature_normalizer:
      enable: true
    feature_aggregator:
      enable: false
    learner:
      method: gmm
      file_hop: 1
    learner_method_parameters:
      gmm:
        n_components: 1
    recognizer:
      frame_accumulation:
        enable: true
        type: sliding_sum
        window_length_seconds: 1.0
      frame_binarization:
        enable: true
        type: global_threshold
        threshold: 100
      event_post_processing:
        enable: true
        minimum_event_length_seconds: 0.1
        minimum_event_gap_second: 0.1

defaults:
  # ==========================================================
  # Flow
  # ==========================================================
  flow:
    initialize: true
    extract_features: true
    feature_normalizer: true
    train_system: true
    test_system: true
    evaluate_system: true

  # ==========================================================
  # General
  # ==========================================================
  general:
    overwrite: false                    # Overwrite previously stored data

    challenge_submission_mode: true    # Save results into path->challenge_results for challenge submission

    print_system_progress: true         #
    use_ascii_progress_bar: false       #

    log_system_parameters: false        #
    log_system_progress: false          #
    log_learner_status: false           #

    scene_handling: scene-dependent     # [scene-dependent, scene-independent]

  # ==========================================================
  # Paths
  # ==========================================================
  path:
    data: data/

    system_base: system/task4/
    feature_extractor: feature_extractor/
    feature_normalizer: feature_normalizer/
    learner: learner/
    recognizer: recognizer/
    evaluator: evaluator/

    recognizer_challenge_output: challenge_submission/task4/
    logs: logs/

  # ==========================================================
  # Logging
  # ==========================================================
  logging:
    enable: true                        #
    colored: true                       # Colored console logging

    parameters:
      version: 1
      disable_existing_loggers: false
      formatters:
        simple:
          format: "[%(levelname).1s] %(message)s"
        normal:
          format: "%(asctime)s\t[%(name)-20s]\t[%(levelname)-8s]\t%(message)s"
        extended:
          format: "[%(asctime)s] [%(name)s]\t [%(levelname)-8s]\t %(message)s \t(%(filename)s:%(lineno)s)"

      handlers:
        console:
          class: logging.StreamHandler
          level: DEBUG
          formatter: simple
          stream: ext://sys.stdout

        info_file_handler:
          class: logging.handlers.RotatingFileHandler
          level: INFO                                           # Max logging level to save
          formatter: normal                                     # [simple, extended]
          filename: custom.info.log
          maxBytes: 10485760                                    # 10MB
          backupCount: 20
          encoding: utf8

        debug_file_handler:
          class: logging.handlers.RotatingFileHandler
          level: DEBUG                                          # Max logging level to save
          formatter: normal                                     # [simple, extended]
          filename: custom.debug.log
          maxBytes: 10485760                                    # 10MB
          backupCount: 20
          encoding: utf8

        error_file_handler:
          class: logging.handlers.RotatingFileHandler
          level: ERROR                                          # Max logging level to save
          formatter: extended                                   # [simple, extended]
          filename: custom.errors.log
          maxBytes: 10485760                                    # 10MB
          backupCount: 20
          encoding: utf8

      loggers:
        my_module:
          level: ERROR
          handlers: [console]
          propagate: no

      root:
        level: INFO
        handlers: [console, error_file_handler, info_file_handler, debug_file_handler]

  # ==========================================================
  # Dataset
  # ==========================================================
  dataset:
    method: development

  dataset_method_parameters:
    development:
      name: DCASE2017_Task4tagging_DevelopmentSet
      fold_list: [1]
      evaluation_mode: folds

    challenge_train:
      name: DCASE2017_Task4tagging_DevelopmentSet
      evaluation_mode: full

    challenge_test:
      name: DCASE2017_Task4tagging_EvaluationSet
      evaluation_mode: full

  # ==========================================================
  # Feature extractor
  # ==========================================================
  feature_extractor:
    fs: 44100                               # Sampling frequency
    win_length_seconds: 0.04                # Window length
    hop_length_seconds: 0.02                # Hop length

  feature_extractor_method_parameters:
    mel:                                    # Mel band energy
      mono: true                            # [true, false]
      window: hamming_asymmetric            # [hann_asymmetric, hamming_asymmetric]
      spectrogram_type: magnitude           # [magnitude, power]
      n_mels: 40                            # Number of mel bands used
      normalize_mel_bands: false            # [true, false]
      n_fft: 2048                           # FFT length
      fmin: 0                               # Minimum frequency when constructing mel bands
      fmax: 22050                           # Maximum frequency when constructing mel band
      htk: false                            # Switch for HTK-styled mel-frequency equation
      log: true                             # Logarithmic

    mfcc:                                   # Mel-frequency cepstral coefficients
      mono: true                            # [true, false]
      window: hamming_asymmetric            # [hann_asymmetric, hamming_asymmetric]
      spectrogram_type: magnitude           # [magnitude, power]
      n_mfcc: 20                            # Number of MFCC coefficients
      n_mels: 40                            # Number of mel bands used
      n_fft: 2048                           # FFT length
      fmin: 0                               # Minimum frequency when constructing mel bands
      fmax: 22050                           # Maximum frequency when constructing mel band
      htk: false                            # Switch for HTK-styled mel-frequency equation

    mfcc_delta:                             # MFCC delta coefficients
      width: 9                              #

    mfcc_acceleration:                      # MFCC acceleration coefficients
      width: 9                              #


  # ==========================================================
  # Feature stacker
  # ==========================================================
  feature_stacker:
    # ==========================================================
    # Valid feature vector recipe formats:
    #  - [extractor (string)]                                                       => full vector
    #  - [extractor (string)]=[start index (int)]-[end index (int)]                 => default channel 0 and vector [start:end]
    #  - [extractor (string)]=[channel (int)]:[start index (int)]-[end index (int)] => specified channel and vector [start:end]
    #  - [extractor (string)]=1,2,3,4,5                                             => vector [1,2,3,4,4]
    #  - [extractor (string)]=0                                                     => specified channel and full vector
    # ==========================================================
    stacking_recipe: mel

  # ==========================================================
  # Feature normalizer
  # ==========================================================
  feature_normalizer:
    enable: true
    type: global                                        # [global]

  # ==========================================================
  # Feature aggregator
  # ==========================================================
  feature_aggregator:
    enable: false
    aggregation_recipe: flatten                         # [mean, std,cov, kurtosis, skew, flatten]
    win_length_seconds: 0.1
    hop_length_seconds: 0.02

  # ==========================================================
  # Learner
  # ==========================================================
  learner:
    method: mlp

  learner_method_parameters:
    gmm:
      n_components: 16                      # Number of Gaussian components
      covariance_type: diag                 # [diag|tied|full|spherical]
      tol: 0.001
      reg_covar: 0
      max_iter: 40
      n_init: 1
      init_params: kmeans
      random_state: 0

    gmm_deprecated:
      n_components: 16                       # Number of Gaussian components
      covariance_type: diag                 # [diag|full] Diagonal or full covariance matrix
      random_state: 0
      tol: 0.001
      min_covar: 0.001
      n_iter: 40
      n_init: 1
      params: wmc
      init_params: wmc

    mlp:
      seed: 1

      keras:
        backend: theano
        backend_parameters:
          floatX: float64
          device: cpu
          fastmath: false
          optimizer: None
          openmp: false
          threads: 1
          CNR: true

      validation:
        enable: true
        setup_source: generate_balanced     # [dataset, generate_balanced]
        validation_amount: 0.10             # [0.0-1.0]

      training:
        epochs: 100
        batch_size: 256
        shuffle: true
        callbacks:
          - type: EarlyStopping
            parameters:
              monitor: val_categorical_accuracy         # quantity to be monitored.
              min_delta: 0.001                          # minimum change in the monitored quantity to qualify as an improvement, i.e. an absolute change of less than min_delta, will count as no improvement.
              patience: 10                              # number of epochs with no improvement after which training will be stopped.
              verbose: 0                                # verbosity mode.
              mode: max                                 # {auto, min, max}. In min mode, training will stop when the quantity monitored has stopped decreasing; in max mode it will stop when the quantity monitored has stopped increasing; in auto mode, the direction is automatically inferred from the name of the monitored quantity.

      model:
        # class_nam can be any standard Keras layer, e.g. Dense, Activation, Dropout
        # Magic parameter values: FEATURE_VECTOR_LENGTH, CLASS_COUNT
        config:
          - class_name: Dense
            config:
              units: 50
              kernel_initializer: uniform
              activation: relu

          - class_name: Dropout
            config:
              rate: 0.2

          - class_name: Dense
            config:
              units: 50
              kernel_initializer: uniform
              activation: relu

          - class_name: Dropout
            config:
              rate: 0.2

          - class_name: Dense
            config:
              units: CLASS_COUNT
              kernel_initializer: uniform
              activation: sigmoid

        loss: binary_crossentropy

        optimizer:
          type: Adam

        metrics:
          - categorical_accuracy

  # ==========================================================
  # Recognizer
  # ==========================================================
  recognizer:
    enable: true

    frame_accumulation:
      enable: false
      type: sliding_sum                         # [sliding_sum, sliding_mean, sliding_median]
      window_length_seconds: 1.0                # seconds

    frame_binarization:
      enable: true
      type: global_threshold                    # [frame_max, global_threshold]
      threshold: 0.5                            #

    event_activity_processing:
       enable: true
       type: median_filtering
       window_length_seconds: 0.54              # seconds

    event_post_processing:
      enable: true
      minimum_event_length_seconds: 0.1         # seconds
      minimum_event_gap_second: 0.1             # seconds

  # ==========================================================
  # Evaluator
  # ==========================================================
  evaluator:
    enable: true

    saving:
      enable: true                # To save evaluation results into yaml-file

      # ==========================================================
      # Filename template, fields:
      # - {parameter_set}
      # - {parameter_hash}
      # - {dataset_name}
      # ==========================================================
      filename: eval_[{parameter_hash}].yaml