Data Loaders

Define where your data comes from and how to create data selections.

Dataloaders Section

The dataloaders section in your config defines data sources:

dataloaders:
  my_data:
    type: parquet
    path: data/train.parquet

A data selection defines a subset of your data to analyze. DQM-ML can create multiple selections from a single dataloader configuration.

By default, a dataloader creates one selection for the entire dataset:

dataloaders:
  train_data:
    type: parquet
    path: data/train.parquet

Use filter to select rows matching specific values:

dataloaders:
  birds:
    type: parquet
    path: data/images.parquet
    filter:
      class: bird

Use split_by to create multiple selections based on column values:

dataloaders:
  coco_classes:
    type: parquet
    path: data/images.parquet
    split_by: class
    split_values: [dog, cat, bird, elephant]

Creates 4 selections: coco_classes_dog, coco_classes_cat, coco_classes_bird, coco_classes_elephant

If split_values is omitted, all unique values in the column are used.

Selection names identify data in metrics output:

Configuration	Selection Name(s)
No split	`<dataloader_name>`
With split	`<dataloader_name>_<value>`

dataloaders:
  train_2023:
    type: parquet
    path: data/train.parquet
    filter:
      year: 2023

dataloaders:
  by_category:
    type: parquet
    path: data/products.parquet
    split_by: category

dataloaders:
  train_data:
    type: parquet
    path: data/train.parquet

  test_data:
    type: parquet
    path: data/test.parquet