Text-to-Speech (TTS) Datasets for Multilingual Voice Synthesis

TTS Speech Datasets

Czech audio dataset for neural TTS training

Czech (Czech Republic)

Czech TTS Dataset for Speech Synthesis

Studio-quality Czech speech dataset featuring expressive recordings by native speakers.

76 Speech Hours

76 People

TTSLanguage Modelling

German AI voice dataset for training multilingual TTS models

German (Germany)

German TTS Dataset for Speech Synthesis

Studio-quality German speech dataset featuring expressive recordings by native speakers.

45 Speech Hours

45 People

TTSLanguage Modelling

Algerian Arabic TTS monologue speech dataset for text-to-speech model training

Arabic (Algeria)

Algerian Arabic TTS Dataset for Speech Synthesis

Studio-quality Algerian Arabic speech dataset featuring expressive recordings by native speakers.

30 Speech Hours

30 People

TTSLanguage Modelling

Studio-quality Egyptian Arabic speech dataset for TTS systems

Arabic (Egypt)

Egyptian Arabic TTS Dataset for Speech Synthesis

Studio-quality Egyptian Arabic speech dataset featuring expressive recordings by native speakers.

31 Speech Hours

31 People

TTSLanguage Modelling

Saudi Arabian Arabic monologue voice dataset for speech synthesis applications

Arabic (Saudi Arabia)

Saudi Arabian Arabic TTS Dataset for Speech Synthesis

Studio-quality Saudi Arabian Arabic speech dataset featuring expressive recordings by native speakers.

32 Speech Hours

32 People

TTSLanguage Modelling

Bahasa TTS dataset for AI voice generation

Bahasa (Indonesia)

Bahasa TTS Dataset for Speech Synthesis

Studio-quality Bahasa speech dataset featuring expressive recordings by native speakers.

33 Speech Hours

33 People

TTSLanguage Modelling

Indian Bengali studio-recorded speech data for building TTS models

Bengali (India)

Indian Bengali TTS Dataset for Speech Synthesis

Studio-quality Indian Bengali speech dataset featuring expressive recordings by native speakers.

34 Speech Hours

34 People

TTSLanguage Modelling

High-fidelity Bangladesh Bengali speech recordings for voice AI

Bengali (Bangladesh)

Bangladesh Bengali TTS Dataset for Speech Synthesis

Studio-quality Bangladesh Bengali speech dataset featuring expressive recordings by native speakers.

83 Speech Hours

83 People

TTSLanguage Modelling

Bulgarian monologue voice dataset for speech synthesis applications

Bulgarian (Bulgaria)

Bulgarian TTS Dataset for Speech Synthesis

Studio-quality Bulgarian speech dataset featuring expressive recordings by native speakers.

72 Speech Hours

72 People

TTSLanguage Modelling

Native Danish speech dataset for training text-to-speech systems

Danish (Denmark)

Danish TTS Dataset for Speech Synthesis

Studio-quality Danish speech dataset featuring expressive recordings by native speakers.

35 Speech Hours

35 People

TTSLanguage Modelling

Dutch audio dataset for neural TTS training

Dutch (Netherlands)

Dutch TTS Dataset for Speech Synthesis

Studio-quality Dutch speech dataset featuring expressive recordings by native speakers.

36 Speech Hours

36 People

TTSLanguage Modelling

Expressive Australian English monologue dataset for voice synthesis

English (Australia)

Australian English TTS Dataset for Speech Synthesis

Studio-quality Australian English speech dataset featuring expressive recordings by native speakers.

37 Speech Hours

37 People

TTSLanguage Modelling

Clean Canadian English WAV audio dataset for TTS development

English (Canada)

Canadian English TTS Dataset for Speech Synthesis

Studio-quality Canadian English speech dataset featuring expressive recordings by native speakers.

38 Speech Hours

38 People

TTSLanguage Modelling

Professional Indian English speech corpus for text-to-speech AI

English (India)

Indian English TTS Dataset for Speech Synthesis

Studio-quality Indian English speech dataset featuring expressive recordings by native speakers.

39 Speech Hours

39 People

TTSLanguage Modelling

New Zealand English scripted speech dataset for TTS and language modeling

English (New Zealand)

New Zealand English TTS Dataset for Speech Synthesis

Studio-quality New Zealand English speech dataset featuring expressive recordings by native speakers.

40 Speech Hours

40 People

TTSLanguage Modelling

UK English dataset for voice assistant and TTS systems

English (UK)

UK English TTS Dataset for Speech Synthesis

Studio-quality UK English speech dataset featuring expressive recordings by native speakers.

41 Speech Hours

41 People

TTSLanguage Modelling

Long-form US English monologue dataset for speech generation

English (US)

US English TTS Dataset for Speech Synthesis

Studio-quality US English speech dataset featuring expressive recordings by native speakers.

42 Speech Hours

42 People

TTSLanguage Modelling

Native Philippines English speech dataset for training text-to-speech systems

English (Philippines)

Philippines English TTS Dataset for Speech Synthesis

Studio-quality Philippines English speech dataset featuring expressive recordings by native speakers.

75 Speech Hours

75 People

TTSLanguage Modelling

Filipino voice dataset for custom TTS engine development

Filipino (Philippines)

Filipino TTS Dataset for Speech Synthesis

Studio-quality Filipino speech dataset featuring expressive recordings by native speakers.

66 Speech Hours

66 People

TTSLanguage Modelling

High-fidelity Finnish speech recordings for voice AI

Finnish (Finland)

Finnish TTS Dataset for Speech Synthesis

Studio-quality Finnish speech dataset featuring expressive recordings by native speakers.

43 Speech Hours

43 People

TTSLanguage Modelling

French speech data for TTS and prosody modeling

French (France)

French TTS Dataset for Speech Synthesis

Studio-quality French speech dataset featuring expressive recordings by native speakers.

44 Speech Hours

44 People

TTSLanguage Modelling

Canadian French studio-recorded speech data for building TTS models

French (Canada)

Canadian French TTS Dataset for Speech Synthesis

Studio-quality Canadian French speech dataset featuring expressive recordings by native speakers.

74 Speech Hours

74 People

TTSLanguage Modelling

Professional Swiss German speech corpus for text-to-speech AI

German (Switzerland)

Swiss German TTS Dataset for Speech Synthesis

Studio-quality Swiss German speech dataset featuring expressive recordings by native speakers.

79 Speech Hours

79 People

TTSLanguage Modelling

Gujarati voice dataset for custom TTS engine development

Gujarati (India)

Gujarati TTS Dataset for Speech Synthesis

Studio-quality Gujarati speech dataset featuring expressive recordings by native speakers.

46 Speech Hours

46 People

TTSLanguage Modelling

Phonetically rich Hindi dataset for speech synthesis research

Hindi (India)

Hindi TTS Dataset for Speech Synthesis

Studio-quality Hindi speech dataset featuring expressive recordings by native speakers.

47 Speech Hours

47 People

TTSLanguage Modelling

Italian India dataset for studio-grade speech AI

Italian (Italy)

Italian TTS Dataset for Speech Synthesis

Studio-quality Italian speech dataset featuring expressive recordings by native speakers.

48 Speech Hours

48 People

TTSLanguage Modelling

Monologue Japanese speech dataset for voice technology training

Japanese (Japan)

Japanese TTS Dataset for Speech Synthesis

Studio-quality Japanese speech dataset featuring expressive recordings by native speakers.

49 Speech Hours

49 People

TTSLanguage Modelling

Kannada TTS monologue speech dataset for text-to-speech model training

Kannada (India)

Kannada TTS Dataset for Speech Synthesis

Studio-quality Kannada speech dataset featuring expressive recordings by native speakers.

50 Speech Hours

50 People

TTSLanguage Modelling

Studio-quality Korean speech dataset for TTS systems

Korean (South Korea)

Korean TTS Dataset for Speech Synthesis

Studio-quality Korean speech dataset featuring expressive recordings by native speakers.

51 Speech Hours

51 People

TTSLanguage Modelling

Malay dataset for voice assistant and TTS systems

Malay (Malaysia)

Malay TTS Dataset for Speech Synthesis

Studio-quality Malay speech dataset featuring expressive recordings by native speakers.

81 Speech Hours

81 People

TTSLanguage Modelling

Malayalam monologue voice dataset for speech synthesis applications

Malayalam (India)

Malayalam TTS Dataset for Speech Synthesis

Studio-quality Malayalam speech dataset featuring expressive recordings by native speakers.

52 Speech Hours

52 People

TTSLanguage Modelling

Mandarin Chinese TTS dataset for AI voice generation

Mandarin (China)

Mandarin Chinese TTS Dataset for Speech Synthesis

Studio-quality Mandarin Chinese speech dataset featuring expressive recordings by native speakers.

53 Speech Hours

53 People

TTSLanguage Modelling

Marathi studio-recorded speech data for building TTS models

Marathi (India)

Marathi TTS Dataset for Speech Synthesis

Studio-quality Marathi speech dataset featuring expressive recordings by native speakers.

54 Speech Hours

54 People

TTSLanguage Modelling

Native Norwegian speech dataset for training text-to-speech systems

Norwegian (Norway)

Norwegian TTS Dataset for Speech Synthesis

Studio-quality Norwegian speech dataset featuring expressive recordings by native speakers.

55 Speech Hours

55 People

TTSLanguage Modelling

Odia audio dataset for neural TTS training

Odia (India)

Odia TTS Dataset for Speech Synthesis

Studio-quality Odia speech dataset featuring expressive recordings by native speakers.

56 Speech Hours

56 People

TTSLanguage Modelling

Expressive Polish monologue dataset for voice synthesis

Polish (Poland)

Polish TTS Dataset for Speech Synthesis

Studio-quality Polish speech dataset featuring expressive recordings by native speakers.

57 Speech Hours

57 People

TTSLanguage Modelling

Clean Portuguese WAV audio dataset for TTS development

Portuguese (Portugal)

Portuguese TTS Dataset for Speech Synthesis

Studio-quality Portuguese speech dataset featuring expressive recordings by native speakers.

58 Speech Hours

58 People

TTSLanguage Modelling

Brazilian Portuguese scripted speech dataset for TTS and language modeling

Portuguese(Brazil)

Brazilian Portuguese TTS Dataset for Speech Synthesis

Studio-quality Brazilian Portuguese speech dataset featuring expressive recordings by native speakers.

80 Speech Hours

80 People

TTSLanguage Modelling

Professional Punjabi speech corpus for text-to-speech AI

Punjabi (India)

Punjabi TTS Dataset for Speech Synthesis

Studio-quality Punjabi speech dataset featuring expressive recordings by native speakers.

59 Speech Hours

59 People

TTSLanguage Modelling

Expressive Romanian monologue dataset for voice synthesis

Romanian (Romania)

Romanian TTS Dataset for Speech Synthesis

Studio-quality Romanian speech dataset featuring expressive recordings by native speakers.

77 Speech Hours

77 People

TTSLanguage Modelling

Russian scripted speech dataset for TTS and language modeling

Russian (Russia)

Russian TTS Dataset for Speech Synthesis

Studio-quality Russian speech dataset featuring expressive recordings by native speakers.

60 Speech Hours

60 People

TTSLanguage Modelling

Argentinians Spanish dataset for voice assistant and TTS systems

Spanish (Argentina)

Argentinians Spanish TTS Dataset for Speech Synthesis

Studio-quality Argentinians Spanish speech dataset featuring expressive recordings by native speakers.

61 Speech Hours

61 People

TTSLanguage Modelling

Long-form Colombian Spanish monologue dataset for speech generation

Spanish (Colombia)

Colombian Spanish TTS Dataset for Speech Synthesis

Studio-quality Colombian Spanish speech dataset featuring expressive recordings by native speakers.

62 Speech Hours

62 People

TTSLanguage Modelling

High-fidelity Mexican Spanish speech recordings for voice AI

Spanish (Mexico)

Mexican Spanish TTS Dataset for Speech Synthesis

Studio-quality Mexican Spanish speech dataset featuring expressive recordings by native speakers.

63 Speech Hours

63 People

TTSLanguage Modelling

Spanish speech data for TTS and prosody modeling

Spanish (Spain)

Spanish TTS Dataset for Speech Synthesis

Studio-quality Spanish speech dataset featuring expressive recordings by native speakers.

64 Speech Hours

64 People

TTSLanguage Modelling

US Spanish TTS dataset for AI voice generation

Spanish (USA)

US Spanish TTS Dataset for Speech Synthesis

Studio-quality US Spanish speech dataset featuring expressive recordings by native speakers.

73 Speech Hours

73 People

TTSLanguage Modelling

Swedish AI voice dataset for training multilingual TTS models

Swedish (Sweden)

Swedish TTS Dataset for Speech Synthesis

Studio-quality Swedish speech dataset featuring expressive recordings by native speakers.

65 Speech Hours

65 People

TTSLanguage Modelling

Phonetically rich Tamil dataset for speech synthesis research

Tamil (India)

Tamil TTS Dataset for Speech Synthesis

Studio-quality Tamil speech dataset featuring expressive recordings by native speakers.

67 Speech Hours

67 People

TTSLanguage Modelling

Telugu (India)

Telugu TTS Dataset for Speech Synthesis

Studio-quality Telugu speech dataset featuring expressive recordings by native speakers.

68 Speech Hours

68 People

TTSLanguage Modelling

Clean Thai WAV audio dataset for TTS development

Thai (Thailand)

Thai TTS Dataset for Speech Synthesis

Studio-quality Thai speech dataset featuring expressive recordings by native speakers.

78 Speech Hours

78 People

TTSLanguage Modelling

Monologue Turkish speech dataset for voice technology training

Turkish (Turkey)

Turkish TTS Dataset for Speech Synthesis

Studio-quality Turkish speech dataset featuring expressive recordings by native speakers.

69 Speech Hours

69 People

TTSLanguage Modelling

Ukrainian TTS monologue speech dataset for text-to-speech model training

Ukrainian (Ukraine)

Ukrainian TTS Dataset for Speech Synthesis

Studio-quality Ukrainian speech dataset featuring expressive recordings by native speakers.

70 Speech Hours

70 People

TTSLanguage Modelling

Studio-quality Urdu speech dataset for TTS systems

Urdu (Pakistan)

Urdu TTS Dataset for Speech Synthesis

Studio-quality Urdu speech dataset featuring expressive recordings by native speakers.

71 Speech Hours

71 People

TTSLanguage Modelling

Long-form Vietnamese monologue dataset for speech generation

Vietnamese (Vietnam)

Vietnamese TTS Dataset for Speech Synthesis

Studio-quality Vietnamese speech dataset featuring expressive recordings by native speakers.

82 Speech Hours

82 People

TTSLanguage Modelling

Explore Our Latest Insightful Blog

Multilingual Text-to-Speech (TTS) Dataset for High-Fidelity Voice Synthesis

Language

TTS Speech Datasets

Czech TTS Dataset for Speech Synthesis

German TTS Dataset for Speech Synthesis

Algerian Arabic TTS Dataset for Speech Synthesis

Egyptian Arabic TTS Dataset for Speech Synthesis

Saudi Arabian Arabic TTS Dataset for Speech Synthesis

Bahasa TTS Dataset for Speech Synthesis

Indian Bengali TTS Dataset for Speech Synthesis

Bangladesh Bengali TTS Dataset for Speech Synthesis

Bulgarian TTS Dataset for Speech Synthesis

Danish TTS Dataset for Speech Synthesis

Dutch TTS Dataset for Speech Synthesis

Australian English TTS Dataset for Speech Synthesis

Canadian English TTS Dataset for Speech Synthesis

Indian English TTS Dataset for Speech Synthesis

New Zealand English TTS Dataset for Speech Synthesis

UK English TTS Dataset for Speech Synthesis

US English TTS Dataset for Speech Synthesis

Philippines English TTS Dataset for Speech Synthesis

Filipino TTS Dataset for Speech Synthesis

Finnish TTS Dataset for Speech Synthesis

French TTS Dataset for Speech Synthesis

Canadian French TTS Dataset for Speech Synthesis

Swiss German TTS Dataset for Speech Synthesis

Gujarati TTS Dataset for Speech Synthesis

Hindi TTS Dataset for Speech Synthesis

Italian TTS Dataset for Speech Synthesis

Japanese TTS Dataset for Speech Synthesis

Kannada TTS Dataset for Speech Synthesis

Korean TTS Dataset for Speech Synthesis

Malay TTS Dataset for Speech Synthesis

Malayalam TTS Dataset for Speech Synthesis

Mandarin Chinese TTS Dataset for Speech Synthesis

Marathi TTS Dataset for Speech Synthesis

Norwegian TTS Dataset for Speech Synthesis

Odia TTS Dataset for Speech Synthesis

Polish TTS Dataset for Speech Synthesis

Portuguese TTS Dataset for Speech Synthesis

Brazilian Portuguese TTS Dataset for Speech Synthesis

Punjabi TTS Dataset for Speech Synthesis

Romanian TTS Dataset for Speech Synthesis

Russian TTS Dataset for Speech Synthesis

Argentinians Spanish TTS Dataset for Speech Synthesis

Colombian Spanish TTS Dataset for Speech Synthesis

Mexican Spanish TTS Dataset for Speech Synthesis

Spanish TTS Dataset for Speech Synthesis

US Spanish TTS Dataset for Speech Synthesis

Swedish TTS Dataset for Speech Synthesis

Tamil TTS Dataset for Speech Synthesis

Telugu TTS Dataset for Speech Synthesis

Thai TTS Dataset for Speech Synthesis

Turkish TTS Dataset for Speech Synthesis

Ukrainian TTS Dataset for Speech Synthesis

Urdu TTS Dataset for Speech Synthesis

Vietnamese TTS Dataset for Speech Synthesis

Build expressive voice AI with our high-quality TTS data