unitxt.dataset module¶

Bases: GeneratorBasedBuilder

as_dataset(split: Split | None = None, in_memory=False) → Dataset | DatasetDict[source]¶

Return a Dataset for the specified split.

Parameters:

split (datasets.Split) – Which subset of the data to return.
in_memory (bool, defaults to False) – Whether to copy the data in-memory.

Returns:

datasets.Dataset

Example:

from datasets import load_dataset_builder
builder = load_dataset_builder('rotten_tomatoes')
builder.download_and_prepare()
ds = builder.as_dataset(split='train')
print(ds)
# prints:
# Dataset({
#     features: ['text', 'label'],
#     num_rows: 8530
# })

as_streaming_dataset(split: str | None = None, base_path: str | None = None) → Dict[str, IterableDataset] | IterableDataset[source]¶

property generators¶