SpeechRecognition¶

class flash.audio.speech_recognition.model.SpeechRecognition(backbone='facebook/wav2vec2-base-960h', processor_backbone=None, optimizer='Adam', lr_scheduler=None, learning_rate=None)[source]¶

The SpeechRecognition task is a Task for converting speech to text. For more details, see Speech Recognition.

Parameters

backbone¶ (str) – Any speech recognition model from HuggingFace/transformers.
learning_rate¶ (Optional[float]) – Learning rate to use for training, defaults to 1e-5.
optimizer¶ (TypeVar(OPTIMIZER_TYPE, str, Callable, Tuple[str, Dict[str, Any]], None)) – Optimizer to use for training.
lr_scheduler¶ (Optional[TypeVar(LR_SCHEDULER_TYPE, str, Callable, Tuple[str, Dict[str, Any]], Tuple[str, Dict[str, Any], Dict[str, Any]], None)]) – The LR scheduler to use during training.

classmethod available_finetuning_strategies(cls)¶

Returns a list containing the keys of the available Finetuning Strategies.

Return type: List[str]

classmethod available_lr_schedulers(cls)¶

Returns a list containing the keys of the available LR schedulers.

Return type: List[str]

classmethod available_optimizers(cls)¶

Returns a list containing the keys of the available Optimizers.

Return type: List[str]

classmethod available_outputs(cls)¶

Returns the list of available outputs (that can be used during prediction or serving) for this Task.

Examples

..testsetup:

>>> from flash import Task

>>> print(Task.available_outputs())
['preds', 'raw']

Return type: List[str]