Unitxt: streamlining data processing
Unitxt is a Python library for getting data prepared and ready for utilization in training, evaluation and inference of language models. It provides a set of reusable building blocks and methodology for defining datasets and metrics.
In one line of code, it prepares a dataset or mixtures-of-datasets into an input-output format for training and evaluation. Our aspiration is to be simple, adaptable, and transparent.
- Introduction
- Loading Datasets
- Installation
- Adding Datasets
- Adding Stream Operators and Metrics
- Concepts
- Backend
- Operators
- Contributors Guide
- unitxt
- unitxt package
- Subpackages
- Submodules
- unitxt.api module
- unitxt.artifact module
- unitxt.blocks module
- unitxt.card module
- unitxt.catalog module
- unitxt.collections module
- unitxt.dataclass module
- unitxt.dataset module
- unitxt.dataset_utils module
- unitxt.dict_utils module
- unitxt.file_utils module
- unitxt.formats module
- unitxt.fusion module
- unitxt.generator_utils module
- unitxt.hf_utils module
- unitxt.instructions module
- unitxt.loaders module
- unitxt.logging_utils module
- unitxt.metric module
- unitxt.metric_utils module
- unitxt.metrics module
- unitxt.normalizers module
- unitxt.operator module
- unitxt.operators module
- unitxt.processors module
- unitxt.random_utils module
- unitxt.recipe module
- unitxt.register module
- unitxt.schema module
- unitxt.split_utils module
- unitxt.splitters module
- unitxt.standard module
- unitxt.stream module
- unitxt.task module
- unitxt.templates module
- unitxt.text_utils module
- unitxt.type_utils module
- unitxt.utils module
- unitxt.validate module
- unitxt.version module
- Module contents
- unitxt package
- Catalog