Spanish (Spain) General Conversation Speech Dataset

The audio dataset consist of general conversations between native Spanish people from Spain along with metadata and transcription.

Category

Unscripted General Conversations

Total Volume

50 Speech Hours

Last updated

July 2023

Number of participants

70

Get this Speech Dataset

Get Dataset Btn

About this Off-the-shelf Speech Dataset

About Gradiet Line

What’s Included

Welcome to the Spanish Language General Conversation Speech Dataset, a comprehensive and diverse collection of voice data specifically curated to advance the development of Spanish language speech recognition models, with a particular focus on Spain accents and dialects.

With high-quality audio recordings, detailed metadata, and accurate transcriptions, it empowers researchers and developers to enhance natural language processing, conversational AI, and Generative Voice AI algorithms. Moreover, it facilitates the creation of sophisticated voice assistants and voice bots tailored to the unique linguistic nuances found in the Spanish language spoken in Spain.

Speech Data:

This training dataset comprises 50 hours of audio recordings covering a wide range of topics and scenarios, ensuring robustness and accuracy in speech technology applications. To achieve this, we collaborated with a diverse network of 70 native Spanish speakers from different states/provinces of Spain. This collaborative effort guarantees a balanced representation of Spain accents, dialects, and demographics, reducing biases and promoting inclusivity.

Each audio recording captures the essence of spontaneous, unscripted conversations between two individuals, with an average duration ranging from 15 to 60 minutes. The speech data is available in WAV format, with stereo channel files having a bit depth of 16 bits and a sample rate of 8 kHz. The recording environment is generally quiet, without background noise and echo.

Metadata:

In addition to the audio recordings, our dataset provides comprehensive metadata for each participant. This metadata includes the participant's age, gender, country, state, and dialect. Furthermore, additional metadata such as recording device detail, topic of recording, bit depth, and sample rate will be provided.

The metadata serves as a valuable tool for understanding and characterizing the data, facilitating informed decision-making in the development of Spanish language speech recognition models.

Transcription:

This dataset provides a manual verbatim transcription of each audio file to enhance your workflow efficiency. The transcriptions are available in JSON format. The transcriptions capture speaker-wise transcription with time-coded segmentation along with non-speech labels and tags.

Our goal is to expedite the deployment of Spanish language conversational AI and NLP models by offering ready-to-use transcriptions, ultimately saving valuable time and resources in the development process.

Updates and Customization:

We understand the importance of collecting data in various environments to build robust ASR models. Therefore, our voice dataset is regularly updated with new audio data captured in diverse real-world conditions.

If you require a custom training dataset with specific environmental conditions such as in-car, busy street, restaurant, or any other scenario, we can accommodate your request. We can provide voice data with customized sample rates ranging from 8kHz to 48kHz, allowing you to fine-tune your models for different audio recording setups. Additionally, we can also customize the transcription following your specific guidelines and requirements, to further support your ASR development process.

License:

This audio dataset, created by FutureBeeAI, is now available for commercial use.

Conclusion:

Whether you are training or fine-tuning speech recognition models, advancing NLP algorithms, exploring generative voice AI, or building cutting-edge voice assistants and bots, our dataset serves as a reliable and valuable resource.

Use Cases

Use of speech data for Automatic Speech Recognition

ASR

Use of speech data in Conversational AI

Conversational AI

Use of speech data for Chatbot & voicebot creation

Chatbot

Use of speech data in Language Modeling

Language Modelling

Use of speech data in Text-into-speech

TTS

Speech data usecase in Speech Analytics

Speech Analytics

Dataset Sample(s)

Sample Line

ATTRIBUTES

Channel 1Channel 2Format
Female(38)Female(20)wav, json

TRANSCRIPTION

LABELSTARTENDCHANNELTRANSCRIPT
Speech1.2812.362Speaker 1Hey Futurbee.
Speech3.2814.362Speaker 2Hey Futurbee.
Speech5.9537.844Speaker 1Hola, <PII>Alejandra</PII>. ¿Qué tal? ¿Cómo estás?
Speech8.64310.586Speaker 2¿Qué tal? Pues yo estoy muy bien, ¿y tú?
Speech10.90016.350Speaker 1Yo, muy bien. Tenía muchas ganas de hablar contigo. Llegaste de Londres hace unos días, ¿no?
Speech16.99218.925Speaker 2Sí. Justo el jueves llegué.
Speech19.72424.763Speaker 1Ah, pues es que no te he podido llamar desde entonces. Pero quería preguntarte, ¿qué tal te fue por allí?
Speech25.64634.128Speaker 2Pues superbien. La verdad es que una ciudad que me ha gustado muchísimo. Además hemos aprovechado el viaje a tope. Hemos visto un montón de cosas,
Speech34.52738.764Speaker 2que hemos andao un montón, así que yo creo que ha sido un viaje superbien aprovechado.
Speech39.68941.533Speaker 1Qué bien. ¿Cuántos días e~ habéis estado?
Speech42.22245.112Speaker 2Pues al final hemos estado cinco días y cuatro noches.
Speech45.82649.326Speaker 1Ah, qué bien. ¿Dónde os quedasteis a dormir? ¿Dónde teníais el hotel?
Speech50.11862.125Speaker 2Pues el hotel lo cogimos en un barrio residencial de Londres que estaba bastante bien, bastante cerca del centro de la ciudad, con una estación de metro al lado. Así que [filler] el hotel fue un acierto.
Noise55.56363.551--
Speech63.68265.665Speaker 1Qué bien. Y al final ¿con quién fuiste?
Noise66.22766.412--
Speech66.79970.623Speaker 2Pues he ido con mi familia, con mi novio y
Speech70.92483.049Speaker 2y la verdad que nos lo hemos pasado superbien. [filler] Hemos visto muchísimas cosas y hemos vuelto supercontentos y y nos alegramos de haber elegido Londres como destino para las vacacion~
Speech83.75786.810Speaker 1Sí, la verdad es que es una ciudad espectacular. Yo también
Speech87.28791.022Speaker 1cuanto estuve allí de viaje lo disfruté muchísimo y
Speech91.81998.551Speaker 1hice muchas cosas, vi mucho muchas atracciones, muchos museos. Sí me pareció una ciudad un poco cara
Speech99.540101.287Speaker 1pero por lo demás
Speech101.700105.281Speaker 1la verdad es que es muy interesante. ¿Qué es lo que más te ha gustado a ti de todo lo que viste?
Speech106.298117.399Speaker 2Pues a mí, lo que más me ha gustado ha sido el Museo Británico, sin duda, porque me gusta mucho la historia del mundo, la historia antigua, y en ese museo puedes ver un montón de cosas.
Speech117.599128.526Speaker 2Sobre todo, lo que más me gustó fue la sala de Egipto porque para mí es una cultura que me apasiona. Me apasiona la historia de de ese país y de toda esa civilización
Speech128.954133.643Speaker 2y me pareció alucinante todo lo que aprendí en ese museo. ¿A ti qué es lo que más te gustó?
Speech134.175137.711Speaker 1Pues la verdad es que también me gustó el Museo Británico. Me sorprendió,
Speech138.436142.729Speaker 1primero de todo, el edificio que tenia una cúpula muy bonita
Speech143.872145.155Speaker 1y luego es verdad que
Speech145.693146.609Speaker 1es enorme.
Speech147.000149.465Speaker 1Desde fuera no parece que sea tan grande y
Speech150.109153.092Speaker 1la verdad es que hay muchísimas
Speech154.270157.508Speaker 1obras de arte y cultura y, bueno,
Speech158.735160.971Speaker 1hallazgos y cosas de de todo tipo de
Speech161.574166.977Speaker 1de muchos tipos de de culturas. A mí la parte de Egipto también me me impactó mucho.
Speech167.574168.479Speaker 1y
Speech169.050172.348Speaker 1[noise] y me sorprendió, sobre todo, la cantidad de cosas que había
Speech173.044174.661Speaker 1[filler]¿cómo es posible que estuvieran allí?
Speech175.115179.372Speaker 1Pero bueno, la verdad es que también me gustó mucho la National Gallery,

TRANSCRIPTION

TIMETRANSCRIPT
1.281
2.362
Hey Futurbee.
3.281
4.362
Hey Futurbee.
5.953
7.844
Hola, <PII>Alejandra</PII>. ¿Qué tal? ¿Cómo estás?
8.643
10.586
¿Qué tal? Pues yo estoy muy bien, ¿y tú?
10.900
16.350
Yo, muy bien. Tenía muchas ganas de hablar contigo. Llegaste de Londres hace unos días, ¿no?
16.992
18.925
Sí. Justo el jueves llegué.
19.724
24.763
Ah, pues es que no te he podido llamar desde entonces. Pero quería preguntarte, ¿qué tal te fue por allí?
25.646
34.128
Pues superbien. La verdad es que una ciudad que me ha gustado muchísimo. Además hemos aprovechado el viaje a tope. Hemos visto un montón de cosas,
34.527
38.764
que hemos andao un montón, así que yo creo que ha sido un viaje superbien aprovechado.
39.689
41.533
Qué bien. ¿Cuántos días e~ habéis estado?
42.222
45.112
Pues al final hemos estado cinco días y cuatro noches.
45.826
49.326
Ah, qué bien. ¿Dónde os quedasteis a dormir? ¿Dónde teníais el hotel?
50.118
62.125
Pues el hotel lo cogimos en un barrio residencial de Londres que estaba bastante bien, bastante cerca del centro de la ciudad, con una estación de metro al lado. Así que [filler] el hotel fue un acierto.
55.563
63.551
-
63.682
65.665
Qué bien. Y al final ¿con quién fuiste?
66.227
66.412
-
66.799
70.623
Pues he ido con mi familia, con mi novio y
70.924
83.049
y la verdad que nos lo hemos pasado superbien. [filler] Hemos visto muchísimas cosas y hemos vuelto supercontentos y y nos alegramos de haber elegido Londres como destino para las vacacion~
83.757
86.810
Sí, la verdad es que es una ciudad espectacular. Yo también
87.287
91.022
cuanto estuve allí de viaje lo disfruté muchísimo y
91.819
98.551
hice muchas cosas, vi mucho muchas atracciones, muchos museos. Sí me pareció una ciudad un poco cara
99.540
101.287
pero por lo demás
101.700
105.281
la verdad es que es muy interesante. ¿Qué es lo que más te ha gustado a ti de todo lo que viste?
106.298
117.399
Pues a mí, lo que más me ha gustado ha sido el Museo Británico, sin duda, porque me gusta mucho la historia del mundo, la historia antigua, y en ese museo puedes ver un montón de cosas.
117.599
128.526
Sobre todo, lo que más me gustó fue la sala de Egipto porque para mí es una cultura que me apasiona. Me apasiona la historia de de ese país y de toda esa civilización
128.954
133.643
y me pareció alucinante todo lo que aprendí en ese museo. ¿A ti qué es lo que más te gustó?
134.175
137.711
Pues la verdad es que también me gustó el Museo Británico. Me sorprendió,
138.436
142.729
primero de todo, el edificio que tenia una cúpula muy bonita
143.872
145.155
y luego es verdad que
145.693
146.609
es enorme.
147.000
149.465
Desde fuera no parece que sea tan grande y
150.109
153.092
la verdad es que hay muchísimas
154.270
157.508
obras de arte y cultura y, bueno,
158.735
160.971
hallazgos y cosas de de todo tipo de
161.574
166.977
de muchos tipos de de culturas. A mí la parte de Egipto también me me impactó mucho.
167.574
168.479
y
169.050
172.348
[noise] y me sorprendió, sobre todo, la cantidad de cosas que había
173.044
174.661
[filler]¿cómo es posible que estuvieran allí?
175.115
179.372
Pero bueno, la verdad es que también me gustó mucho la National Gallery,

Dataset Demographics

Details Headline

Language

Spanish

Language code

es

Country

Spain

Accents

Castellano del Norte,...more

Gender Distribution

M: 55, F: 45

Age Group

18-70

Audio File Details

Details Headline

Environment

Silent, Noisy

Bit Depth

16 bit

Format

wav

Sample rate

8khz

Channel

Dual separate channel

Audio file duration

15-60 minutes

Download Sample Speech Dataset Now!

Explore Audio Data, Metadata and Transcription to get more clarity and hands on experience of this dataset.

Download Free Dataset

Audio Download Btn
Audio Promp Bg
Audio Promp Bg

Start your AI/ML model creation journey with FutureBeeAI!

Contact Us

Audio Arrow BtnAudio Arrow Btn Black
Audio Promp 2 Bg