Marathi (India) Call Center Speech Dataset for Telecom

The audio dataset includes call center conversations in Telecom, featuring native Marathi speakers from India, with detailed metadata and accurate transcriptions.

Category

Unscripted Call Center Conversations

Total Volume

40 Speech Hours

Last updated

July 2023

Number of participants

80

Get this Speech Dataset

Get Dataset Btn

About this Off-the-shelf Speech Dataset

About Gradiet Line

What’s Included

Welcome to the Marathi Language Call Center Speech Dataset for the Telecom domain. It is a specialized and comprehensive collection of voice data designed to enhance the development of call center speech recognition models specifically for the Telecom industry.


With high-quality call center audio recordings, detailed metadata, and accurate transcriptions, it empowers researchers and developers to enhance natural language processing, conversational AI, and generative voice AI algorithms in the Telecom domain. Moreover, it facilitates the creation of sophisticated voice assistants and voice bots tailored to the unique linguistic nuances found in the Marathi language spoken in India.


Speech Data:

This training dataset comprises 40 hours of call center audio recordings covering various topics and scenarios related to the Telecom domain, to build robust and accurate customer service speech technology.


To curate realistic call center interactions, we collaborated with a diverse network of 80 expert native Marathi speakers from different part of Maharashtra. This collaborative effort ensures a balanced representation of Indian accents, dialects, and demographics, promoting inclusivity and reducing biases in the dataset.


Each audio recording captures the essence of unscripted and spontaneous conversations between call center agents and customers, with an average duration ranging from 5 to 15 minutes per call. The dataset includes both inbound and outbound calls, covering scenarios such as inquiries, promotional offers, complaints, technical support, and more. Additionally, the dataset contains call center conversations with both positive and negative outcomes, providing a diverse and realistic dataset.


The speech data is available in WAV format with stereo channels, a bit depth of 16 bits, and a sample rate of 8 kHz, ensuring high-quality audio for accurate analysis. The recording environment is generally quiet, without background noise and echo.


Metadata:

In addition to the audio recordings, our dataset provides comprehensive metadata for each participant. This includes the participant’s age, gender, country, state, and dialect. Additionally, it includes metadata like domain, topic, call type, outcome, bit depth, and sample rate for each conversation.


The metadata serves as a powerful tool for understanding and characterizing the data, enabling informed decision-making in the development of Marathi language call center speech recognition models for the Telecom domain.


Transcription:

To facilitate your workflow, the dataset includes manual verbatim transcriptions of each call center audio file in JSON format. The transcriptions capture speaker-wise transcription with time-coded segmentation along with non-speech labels and tags, covering both the agent and customer conversations.


These ready-to-use transcriptions accelerate the development of Telecom call center conversational AI and ASR models for the Marathi language.


Updates and Customization:

We understand the importance of collecting data in various environments to build robust ASR models. Therefore, our call center voice dataset is regularly updated with new audio data captured in diverse real-world conditions.


If you require a custom training dataset with specific environmental conditions, we can accommodate your request. We can provide voice data with customized sample rates ranging from 8kHz to 48kHz, allowing you to fine-tune your models for different audio recording setups. Additionally, we can also customize the transcription following your specific guidelines and requirements, to further support your ASR development process.


License:

This Telecom call center audio dataset is created by FutureBeeAI and is available for commercial use!


Conclusion:

Whether you are training or fine-tuning speech recognition models, advancing NLP algorithms, or building state-of-the-art voice assistants to improve customer experiences in the Telecom sector, our dataset serves as a trusted resource to meet your goals


Use Cases

Use of speech data for Automatic Speech Recognition

ASR

Use of speech data in Conversational AI

Conversational AI

Use of speech data for Chatbot & voicebot creation

Chatbot

Use of speech data in Language Modeling

Language Modelling

Use of speech data in Text-into-speech

TTS

Speech data usecase in Speech Analytics

Speech Analytics

Dataset Sample(s)

Sample Line

ATTRIBUTES

Channel 1Channel 2Format
Male(21)Female(56)wav, json

TRANSCRIPTION

LABELSTARTENDCHANNELTRANSCRIPT
Speech0.5751.950Speaker 1<lang:Foreign>hello Futurebee</lang:Foreign>
Babble1.1001.675--
Speech2.9504.474Speaker 2<lang:Foreign>hello Futurebee</lang:Foreign>
Speech5.9506.799Speaker 2<lang:Foreign>Good Morning</lang:Foreign>
Speech7.8259.025Speaker 1<lang:Foreign>Good Morning Madam</lang:Foreign>
Speech9.50013.250Speaker 1मला असा फोन केला होता की कारण मी असे की तुम्ही मला <lang:Foreign>mail</lang:Foreign> पाठवले होते.
Speech13.72417.125Speaker 1तुम्हाला असे <lang:Foreign>problem</lang:Foreign> येतायेत आणि तुम्हाला <lang:Foreign>plan</lang:Foreign>ची माहिती पाहिजे होती.
Speech17.62520.875Speaker 1आणि तसे म्हणून मी तुम्हाला आज <lang:Foreign>phone</lang:Foreign> केला होता.
Speech21.56423.963Speaker 1तर काय <lang:Foreign>problem</lang:Foreign> आहे माझा तुम्ही सांगू शकता का मला <lang:Foreign>please</lang:Foreign> .
Speech25.80326.254Speaker 2हो.
Speech26.54129.765Speaker 2एक तर तुमच्या <lang:Foreign>internet</lang:Foreign>चा <lang:Foreign>problem</lang:Foreign> होतोय.
Speech30.31532.039Speaker 2तो चालूच होत नाहीये.
Speech32.48434.783Speaker 2<lang:Foreign>Internet</lang:Foreign> आमचं. काय झाले माहित नाही.
Speech35.64840.798Speaker 2तर ते <lang:Foreign>modem</lang:Foreign> सुद्धा मी बघितले <lang:Foreign>modem</lang:Foreign> वरती <lang:Foreign>green light</lang:Foreign> येतो नंतर मग
Speech41.48743.262Speaker 2<lang:Foreign>net</lang:Foreign> चालूच होत नाहीये.
Speech44.29846.222Speaker 2अहो काय झाले माहित नाही ते.
Speech48.78952.365Speaker 1अच्छा. आणि तुम्ही सांगत होता की <lang:Foreign>simcard</lang:Foreign> मध्ये काही तरी. तर ते काय <lang:Foreign>problem</lang:Foreign> आहे.
Speech52.60653.381Speaker 1सांगू शकता का?
Speech53.87555.750Speaker 1(())
Speech54.47256.070Speaker 2<lang:Foreign>simcard</lang:Foreign>
Speech56.65565.905Speaker 2<lang:Foreign>simcard</lang:Foreign> चे मी नंतर सांगते पहिले ह्याचे <lang:Foreign>internet</lang:Foreign>च तुम्ही बघा जरा काय झाले ते. तिकडनं तुम्हाला करता येत असेल तर तसं तिकडनं करा.
Speech67.45369.355Speaker 1हो, मी बघतो. तसा मी प्रयत्न करतो.
Speech69.91175.736Speaker 1चालू झाले तर चांगलीच गोष्ट आहे नाही तर आम्हाला <lang:Foreign>technician</lang:Foreign>ला पाठवावे लागेल <lang:Foreign>technician</lang:Foreign>ला यायला एक-दोन दिवस तरी लागतीलच.
Speech76.03777.313Speaker 1आणि सध्या
Speech76.91778.117Speaker 2दोन दिवस
Speech79.06081.260Speaker 2<lang:Foreign>without internet</lang:Foreign> तर खूप होतो.
Speech79.53780.212Speaker 1हो
Speech82.38183.581Speaker 2दोन दिवस तर
Speech83.00484.028Speaker 1हो माहिती आहे.
Speech85.21588.290Speaker 2हो माहिती आहे मला.
Speech85.30186.801Speaker 1दोन दिवस तर नाही चालणार तुम्ही आजच पाठवा त्याला.
Speech89.81391.063Speaker 1हो हो पाठवू.
Speech91.62397.873Speaker 1पण <lang:Foreign>try</lang:Foreign> करतो मी. कारण ते आज इथे असते तर आले असते.ते दुसऱ्या भागात गेले आहेत इथे जवळ नाहीत ते.
Speech98.424100.299Speaker 1तुमच्या घरापासून म्हणून म्हटलं जरा दोन दिवस लागू शकतात.
Speech101.519106.295Speaker 2हो पण तुमच्याकडे आणखी <lang:Foreign>employees</lang:Foreign> असतीलच ना तर त्यांना पाठवा ना. कोणी ना कोणी असेलच ना.
Speech107.402115.751Speaker 2कारण आता काल रात्री पासन बंद झाले आहे ते. चालतच नाही तर आम्हा लोकांना काहीच बघता येत नाहीये की काही करता येत नाहीये.
Speech108.010109.036Speaker 1ते आता
Speech116.102119.001Speaker 2<lang:Foreign>net</lang:Foreign>ची कुठलीच कामे करता येत नाहीये.
Speech121.561127.635Speaker 1हो ते आहे पण आम्हाला (())
Speech128.008129.061Speaker 1माहिती आहे तिथे.
Speech129.352132.352Speaker 1(()) तर म्हणून ते दोन जणं आहेत ते दोघेही वेगळ्या भागात गेलेत.
Speech132.973135.323Speaker 1तर सध्या तर मी ते बघतो.
Speech135.591138.341Speaker 1[filler]हे कधी पासून सुरु झाला आहे तुम्हाला त्रास याचा?
Speech139.157141.181Speaker 2हा काल रात्री पासून सुरु झाला.
Speech143.747146.098Speaker 1अच्छा. किती वाजता ते सांगू शकता का?
Speech147.098152.573Speaker 2नाही. ते वेळेचं काय करणारे. रात्री दहा वाजता बंद झाले. त्याचा काय संबंध येतो वेळेचा?
Speech153.044157.366Speaker 1म्हणजे त्याप्रमाणे आम्ही बघू शकतो काय तुमचंच बंद आहे की पूर्ण भागातच आहे.
Speech157.663159.139Speaker 1तर दोन मिनिटं
Speech159.306161.229Speaker 1<lang:Foreign>hold</lang:Foreign> करा. मी बघतो तेवढे.
Noise161.818162.193--
Speech162.728163.425Speaker 2ठीक आहे.
Speech165.235170.086Speaker 1[filler]तर कळलंय की तुमच्या पूर्ण भागातले गेलेलं आहे. तुमच्या एकट्याचेच गेलेलं नाहीये.
Speech170.145175.044Speaker 1तर ते मला असे कळलंय की ते तुमची <lang:Foreign>line cut</lang:Foreign> झाली आहे.
Speech175.663180.062Speaker 1 तर ते फक्त (()) वेळात येतील तिथे.

TRANSCRIPTION

TIMETRANSCRIPT
0.575
1.950
<lang:Foreign>hello Futurebee</lang:Foreign>
1.100
1.675
-
2.950
4.474
<lang:Foreign>hello Futurebee</lang:Foreign>
5.950
6.799
<lang:Foreign>Good Morning</lang:Foreign>
7.825
9.025
<lang:Foreign>Good Morning Madam</lang:Foreign>
9.500
13.250
मला असा फोन केला होता की कारण मी असे की तुम्ही मला <lang:Foreign>mail</lang:Foreign> पाठवले होते.
13.724
17.125
तुम्हाला असे <lang:Foreign>problem</lang:Foreign> येतायेत आणि तुम्हाला <lang:Foreign>plan</lang:Foreign>ची माहिती पाहिजे होती.
17.625
20.875
आणि तसे म्हणून मी तुम्हाला आज <lang:Foreign>phone</lang:Foreign> केला होता.
21.564
23.963
तर काय <lang:Foreign>problem</lang:Foreign> आहे माझा तुम्ही सांगू शकता का मला <lang:Foreign>please</lang:Foreign> .
25.803
26.254
हो.
26.541
29.765
एक तर तुमच्या <lang:Foreign>internet</lang:Foreign>चा <lang:Foreign>problem</lang:Foreign> होतोय.
30.315
32.039
तो चालूच होत नाहीये.
32.484
34.783
<lang:Foreign>Internet</lang:Foreign> आमचं. काय झाले माहित नाही.
35.648
40.798
तर ते <lang:Foreign>modem</lang:Foreign> सुद्धा मी बघितले <lang:Foreign>modem</lang:Foreign> वरती <lang:Foreign>green light</lang:Foreign> येतो नंतर मग
41.487
43.262
<lang:Foreign>net</lang:Foreign> चालूच होत नाहीये.
44.298
46.222
अहो काय झाले माहित नाही ते.
48.789
52.365
अच्छा. आणि तुम्ही सांगत होता की <lang:Foreign>simcard</lang:Foreign> मध्ये काही तरी. तर ते काय <lang:Foreign>problem</lang:Foreign> आहे.
52.606
53.381
सांगू शकता का?
53.875
55.750
(())
54.472
56.070
<lang:Foreign>simcard</lang:Foreign>
56.655
65.905
<lang:Foreign>simcard</lang:Foreign> चे मी नंतर सांगते पहिले ह्याचे <lang:Foreign>internet</lang:Foreign>च तुम्ही बघा जरा काय झाले ते. तिकडनं तुम्हाला करता येत असेल तर तसं तिकडनं करा.
67.453
69.355
हो, मी बघतो. तसा मी प्रयत्न करतो.
69.911
75.736
चालू झाले तर चांगलीच गोष्ट आहे नाही तर आम्हाला <lang:Foreign>technician</lang:Foreign>ला पाठवावे लागेल <lang:Foreign>technician</lang:Foreign>ला यायला एक-दोन दिवस तरी लागतीलच.
76.037
77.313
आणि सध्या
76.917
78.117
दोन दिवस
79.060
81.260
<lang:Foreign>without internet</lang:Foreign> तर खूप होतो.
79.537
80.212
हो
82.381
83.581
दोन दिवस तर
83.004
84.028
हो माहिती आहे.
85.215
88.290
हो माहिती आहे मला.
85.301
86.801
दोन दिवस तर नाही चालणार तुम्ही आजच पाठवा त्याला.
89.813
91.063
हो हो पाठवू.
91.623
97.873
पण <lang:Foreign>try</lang:Foreign> करतो मी. कारण ते आज इथे असते तर आले असते.ते दुसऱ्या भागात गेले आहेत इथे जवळ नाहीत ते.
98.424
100.299
तुमच्या घरापासून म्हणून म्हटलं जरा दोन दिवस लागू शकतात.
101.519
106.295
हो पण तुमच्याकडे आणखी <lang:Foreign>employees</lang:Foreign> असतीलच ना तर त्यांना पाठवा ना. कोणी ना कोणी असेलच ना.
107.402
115.751
कारण आता काल रात्री पासन बंद झाले आहे ते. चालतच नाही तर आम्हा लोकांना काहीच बघता येत नाहीये की काही करता येत नाहीये.
108.010
109.036
ते आता
116.102
119.001
<lang:Foreign>net</lang:Foreign>ची कुठलीच कामे करता येत नाहीये.
121.561
127.635
हो ते आहे पण आम्हाला (())
128.008
129.061
माहिती आहे तिथे.
129.352
132.352
(()) तर म्हणून ते दोन जणं आहेत ते दोघेही वेगळ्या भागात गेलेत.
132.973
135.323
तर सध्या तर मी ते बघतो.
135.591
138.341
[filler]हे कधी पासून सुरु झाला आहे तुम्हाला त्रास याचा?
139.157
141.181
हा काल रात्री पासून सुरु झाला.
143.747
146.098
अच्छा. किती वाजता ते सांगू शकता का?
147.098
152.573
नाही. ते वेळेचं काय करणारे. रात्री दहा वाजता बंद झाले. त्याचा काय संबंध येतो वेळेचा?
153.044
157.366
म्हणजे त्याप्रमाणे आम्ही बघू शकतो काय तुमचंच बंद आहे की पूर्ण भागातच आहे.
157.663
159.139
तर दोन मिनिटं
159.306
161.229
<lang:Foreign>hold</lang:Foreign> करा. मी बघतो तेवढे.
161.818
162.193
-
162.728
163.425
ठीक आहे.
165.235
170.086
[filler]तर कळलंय की तुमच्या पूर्ण भागातले गेलेलं आहे. तुमच्या एकट्याचेच गेलेलं नाहीये.
170.145
175.044
तर ते मला असे कळलंय की ते तुमची <lang:Foreign>line cut</lang:Foreign> झाली आहे.
175.663
180.062
तर ते फक्त (()) वेळात येतील तिथे.

Dataset Demographics

Details Headline

Language

Marathi

Language code

mr-in

Country

India

Accents

Varhadi,...more

Gender Distribution

M:55, F:45

Age Group

18-70

Audio File Details

Details Headline

Environment

Silent, Noisy

Bit Depth

16 bit

Format

wav

Sample rate

8khz

Channel

Dual separate channel

Audio file duration

5-15 minutes

Download Sample Speech Dataset Now!

Explore Audio Data, Metadata and Transcription to get more clarity and hands on experience of this dataset.

Download Free Dataset

Audio Download Btn
Audio Promp Bg
Audio Promp Bg

Start your AI/ML model creation journey with FutureBeeAI!

Contact Us

Audio Arrow BtnAudio Arrow Btn Black
Audio Promp 2 Bg