Malayalam Call Center Speech Dataset for Retail & E-commerce

This Malayalam speech dataset features real-world call center conversations from the Retail and E-commerce domain. With detailed metadata and accurate transcriptions, it’s designed to power ASR systems, voice AI, and conversational agents.

Category

Unscripted Call Center Conversations

Total Volume

30 Speech Hours

Last updated

June 2025

Number of participants

60

AI audio dataset for Retail and E-commerce in Malayalam (India)
Download
Download Icon

About this Off-the-shelf Speech Dataset

Card Head Line

Introduction

This Malayalam Call Center Speech Dataset for the Retail and E-commerce industry is purpose-built to accelerate the development of speech recognition, spoken language understanding, and conversational AI systems tailored for Malayalam speakers. Featuring over 30 hours of real-world, unscripted audio, it provides authentic human-to-human customer service conversations vital for training robust ASR models.

Curated by FutureBeeAI, this dataset empowers voice AI developers, data scientists, and language model researchers to build high-accuracy, production-ready models across retail-focused use cases.

Speech Data

The dataset contains 30 hours of dual-channel call center recordings between native Malayalam speakers. Captured in realistic scenarios, these conversations span diverse retail topics from product inquiries to order cancellations, providing a wide context range for model training and testing.

  • Participant Diversity:
  • Speakers: 60 native Malayalam speakers from our verified contributor pool.
  • Regions: Representing multiple regions across Kerala to ensure coverage of various accents and dialects.
  • Participant Profile: Balanced gender mix (60% male, 40% female) with age distribution from 18 to 70 years.
  • Recording Details:
  • Conversation Nature: Naturally flowing, unscripted interactions between agents and customers.
  • Call Duration: Ranges from 5 to 15 minutes.
  • Audio Format: Stereo WAV files, 16-bit depth, at 8kHz and 16kHz sample rates.
  • Recording Environment: Captured in clean conditions with no echo or background noise.
  • Topic Diversity

    This speech corpus includes both inbound and outbound calls with varied conversational outcomes like positive, negative, and neutral, ensuring real-world scenario coverage.

  • Inbound Calls:
  • Product Inquiries
  • Order Cancellations
  • Refund & Exchange Requests
  • Subscription Queries, and more
  • Outbound Calls:
  • Order Confirmations
  • Upselling & Promotions
  • Account Updates
  • Loyalty Program Offers
  • Customer Verifications, and others
  • Such variety enhances your model’s ability to generalize across retail-specific voice interactions.

    Transcription

    All audio files are accompanied by manually curated, time-coded verbatim transcriptions in JSON format.

  • Transcription Includes:
  • Speaker-Segmented Dialogues
  • 30 hours-coded Segments
  • Non-speech Tags (e.g., pauses, cough)
  • High transcription accuracy with word error rate < 5% due to double-layered quality checks.
  • These transcriptions are production-ready, making model training faster and more accurate.

    Metadata

    Rich metadata is available for each participant and conversation:

  • Participant Metadata: ID, age, gender, accent, dialect, and location.
  • Conversation Metadata: Topic, sentiment, call type, sample rate, and technical specs.
  • This granularity supports advanced analytics, dialect filtering, and fine-tuned model evaluation.

    Usage and Applications

    This dataset is ideal for a range of voice AI and NLP applications:

  • Automatic Speech Recognition (ASR): Fine-tune Malayalam speech-to-text systems.
  • Speech Analytics: Extract customer insights and behavior patterns.
  • Voice Assistants & Chatbots: Train natural-sounding Malayalam voice interfaces.
  • Sentiment Analysis: Detect emotion and intent from customer calls.
  • Generative AI: Use in training dialogue generation and summarization models.
  • Secure and Ethical Collection

  • All data was collected using “Yugo,” FutureBeeAI’s proprietary platform under strict ethical and security standards.
  • No personally identifiable information is included.
  • Dataset complies with global data privacy guidelines and is copyright-free.
  • Updates and Customization

    We regularly expand this dataset with fresh recordings and offer tailored options:

  • Customization Options:
  • Acoustic Environment: Silent or noisy upon request.
  • Sample Rate: Customizable from 8kHz to 48kHz.
  • Transcription Format: Can follow your QA and formatting requirements.
  • License

    This dataset is commercially licensed and ready for integration into your ASR, NLP, or voice AI pipeline.

    Use Cases

    Use of speech data in Conversational AI

    Call Center Conversational AI

    Use of speech data for Automatic Speech Recognition

    ASR

    Use of speech data for Chatbot & voicebot creation

    Chatbot

    Use of speech data in Language Modeling

    Language Modelling

    Use of speech data in Text-into-speech

    TTS

    Speech data usecase in Speech Analytics

    Speech Analytics

    Dataset Sample(s)

    Card Head Line

    ATTRIBUTES

    TRANSCRIPTION

    TIME
    TRANSCRIPT
    0.935 - 2.395
    <lang:Foreign>hey future bee</lang:Foreign>
    2.600 - 4.490
    <lang:Foreign>hey future bee</lang:Foreign> പറഞ്ഞോളൂ.
    6.695 - 12.985
    <lang:Foreign>hello</lang:Foreign> ഐ <lang:Foreign>electronics</lang:Foreign> നിന്നാണ് വിളിക്കുന്നത്. എന്റെ പേര് ദിവ്യ ഞാൻ.
    13.275 - 13.895
    ഓക്കേ.
    14.155 - 16.775
    മം മംൻ്റെ പേര് സിജൻ എന്നല്ലേ?
    17.855 - 18.415
    അതെ.
    19.390 - 24.190
    മാം റെസീപ്റ്റ് ഞങ്ങളുടെ <lang:Foreign>electronics</lang:Foreign> ഹോപ്പ് എന്ന് എയർ ട്രി പെര് ചെയ്തിട്ടില്ലേ.
    25.205 - 26.835
    അതെ അതെ അതെ വാങ്ങിയിരുന്നു.
    27.410 - 28.985
    <lang:Foreign>two minutes</lang:Foreign> ടൈംതാണോ?
    29.890 - 31.305
    ഓക്കേ പറഞ്ഞു.
    32.545 - 38.730
    മാം ഇപ്പോ വാങ്ങിച്ച ഏര് പ്പെടുത്തി ന് വൺ ഇയർ വാറന്റി ഞങ്ങൾ പ്രൊവൈഡ് ചെയ്യുന്നത്.
    39.780 - 41.965
    അതെ ഷോറൂം ആണ് പറഞ്ഞിരുന്നത്.
    43.205 - 46.595
    ഓക്കേ രമേശ് ഞങ്ങൾ അസിസ്റ്റന്റ് വാറന്റി. <lang:Foreign>providing</lang:Foreign> ചെയ്യുന്നുണ്ട് മിസ്ന് അത് സ്കീ ചെയ്യാൻ താല്പര്യം ഉണ്ടാവോ.
    47.290 - 50.445
    <lang:Foreign>providing</lang:Foreign> ചെയ്യുന്നുണ്ട് മിസ്ന് അത് സ്കീ ചെയ്യാൻ താല്പര്യം ഉണ്ടാവോ.
    52.110 - 53.370
    അതെങ്ങനെയാ ചെയ്യുന്നേ.
    54.990 - 64.455
    ഇപ്പോൾ ഇപ്പോൾ ഞങ്ങൾ ഇയേഴ്സ് വരെയുള്ള വാറന്റി ആണ് ഈ ചെയ്ത് തരുന്നത്. അപ്പോൾ ഇത് പേർയും എക്സ്റ്റെൻഡഡ് കാണും.
    63.795 - 64.170
    (())
    64.795 - 70.840
    അപ്പൊ ഇപ്പൊ ഞാൻ ചൂസ് ചെയ്യാം എങ്ങനെയായിരിക്കും <lang:Foreign>warranty</lang:Foreign> ഞങ്ങൾ കുറെ.
    66.840 - 67.095
    (())
    71.745 - 73.205
    ഇന്റർനെറ്റ് <lang:Foreign>provided</lang:Foreign> ചെയ്യുന്നുണ്ട്.
    74.405 - 74.860
    (())
    74.925 - 77.735
    മിസ് അത് കേൾക്കാൻ ഇന്റർനെറ്റ് ഉണ്ടാവുമോ.
    78.825 - 79.690
    ഞാൻ പറഞ്ഞോളൂ.
    80.630 - 84.155
    ഓക്കേ അപ്പൊ ഞങ്ങൾ വണ്ടി ത്രീ ഇയേഴ്സ് ൽ. റെ പേര് പ്രൊവൈഡ് ചെയ്യും. സർവീസ് പ്രൊവൈഡ് ചെയ്യും. പിന്നെ ഞങ്ങൾ പ്രൊഡ്യൂസർ ഈ പേസ്മേക്കർ പ്രൊവൈഡ് ചെയ്യുന്നുണ്ട്.
    85.675 - 91.625
    റെ പേര് പ്രൊവൈഡ് ചെയ്യും. സർവീസ് പ്രൊവൈഡ് ചെയ്യും. പിന്നെ ഞങ്ങൾ പ്രൊഡ്യൂസർ ഈ പേസ്മേക്കർ പ്രൊവൈഡ് ചെയ്യുന്നുണ്ട്.
    93.185 - 100.620
    ഞങ്ങൾ ഇന്ന് ഹോം വന്നു ചെയ്യും. ഹോബി സെവൻ ഞങ്ങളുടെ കസ്റ്റമർ കെയർ സർവീസ് ഓപ്പൺ ആയിരിക്കും. എപ്പോഴെങ്കിലും എന്തെങ്കിലും ഡാമേജ് എന്തെങ്കിലും.
    101.140 - 101.585
    (())
    102.780 - 105.230
    വന്നു കഴിഞ്ഞാൽ അപ്പോൾ ഞങ്ങൾ കോൺടാക്ട് ചെയ്യാ.ഈ റെ പേര്.
    106.905 - 109.805
    ഈ റെ പേര് ഒക്കെ അതും വീട്ടിൽ വന്നു തന്നെയാ ചെയ്യുക.
    110.850 - 112.415
    ആ ഇന്ന് ഹോം തന്നെയാണ് എല്ലാം.
    113.020 - 115.505
    ഓക്കേ ഇതിന്റെ ഈ പ്രൈസ് റേഞ്ച് എങ്ങനെയാ വരുന്നത്?
    117.270 - 121.785
    പ്രൈസ് റേഞ്ച് വരുന്നത് വൺ ഇയർ ടിക്ക് നമ്മൾ പ്രൊവൈഡ് ചെയ്യുന്നുണ്ട്. ടു പോയിന്റ് ഫൈവ്സ് വരും പിന്നെ.
    122.855 - 126.270
    ടു പോയിന്റ് ഫൈവ്സ് വരും പിന്നെ.
    125.521 - 126.086
    (())
    127.545 - 133.015
    ചെക്ക് ഇന്ത്യ ആണെങ്കിൽ ഫൈവ്സ് ആയിരിക്കും തീർ ആണെങ്കിൽ വരെ വരുന്നുണ്ട്.
    134.520 - 135.060
    ഓക്കേ.
    136.550 - 138.775
    (())
    139.505 - 139.825
    മം ഇപ്പൊ ഉള്ള വൺ ഇയർനേക്കാട്ടി. മിസ് വൺ ഇയർ ചൂസ് ചെയ്യണം എങ്കിൽ പിന്നെ ഞാൻ ഇപ്പോൾ പറഞ്ഞ ടു ഇയേഴ്സ് ആവും അങ്ങനെ.
    140.430 - 144.555
    മിസ് വൺ ഇയർ ചൂസ് ചെയ്യണം എങ്കിൽ പിന്നെ ഞാൻ ഇപ്പോൾ പറഞ്ഞ ടു ഇയേഴ്സ് ആവും അങ്ങനെ.
    146.130 - 147.415
    ഓക്കേ.
    147.710 - 147.895
    ഓക്കേ. അപ്പോൾ നല്ലൊരു ഓഫർ ആണ്. ഇത് അക്സെപ്റ്റ് ചെയ്യാൻ റെഡി ആണ്.
    148.785 - 152.495
    അപ്പോൾ നല്ലൊരു ഓഫർ ആണ്. ഇത് അക്സെപ്റ്റ് ചെയ്യാൻ റെഡി ആണ്.
    153.400 - 156.745
    ഓക്കേ ടു ഇയേഴ്സ് എന്ന് പറയുമ്പോൾ ആയിരിക്കും അല്ലെ ചെയ്യേണ്ടി വരും.
    157.115 - 159.365
    അതെ അതെ അതെ ആയിരിക്കും പേ ചെയ്യേണ്ടി വരും.
    159.810 - 160.360
    ഓക്കേ. അപ്പൊ റെ പേര് ഒക്കെ വീട്ടിൽ വന്ന് ചെയ്തു പ്രൊഡ്യൂസർ ഈ പ്ലാസന്റ എന്ന് പറയുമ്പോൾ വേറെ എന്തെങ്കിലും കോൾ നമ്മൾ ഫോളോ ചെയ്യേണ്ടതായിട്ടുണ്ടോ?
    161.055 - 168.400
    അപ്പൊ റെ പേര് ഒക്കെ വീട്ടിൽ വന്ന് ചെയ്തു പ്രൊഡ്യൂസർ ഈ പ്ലാസന്റ എന്ന് പറയുമ്പോൾ വേറെ എന്തെങ്കിലും കോൾ നമ്മൾ ഫോളോ ചെയ്യേണ്ടതായിട്ടുണ്ടോ?
    165.895 - 166.505
    എന്നാൽ.
    168.905 - 170.925
    അതും ഇതുപോലെ നിങ്ങളെ കോണ്ടാക് ചെയ്താൽ.
    170.950 - 171.700
    ഇല്ല. ഞങ്ങൾ കോണ്ടാക്ട് ചെയ്യണം പ്രോജക്ട് പ്ലാസന്റ വേണമെങ്കിൽ കോണ്ടാക്ട് ചെയ്യണം. അപ്പോൾ ഞങ്ങൾ ഷോപ് ൽ ആരെങ്കിലും ഏതെങ്കിലും കക്ഷികൾ ഒന്ന് ചെക്ക് ചെയ്യും.
    173.400 - 181.200
    ഞങ്ങൾ കോണ്ടാക്ട് ചെയ്യണം പ്രോജക്ട് പ്ലാസന്റ വേണമെങ്കിൽ കോണ്ടാക്ട് ചെയ്യണം. അപ്പോൾ ഞങ്ങൾ ഷോപ് ൽ ആരെങ്കിലും ഏതെങ്കിലും കക്ഷികൾ ഒന്ന് ചെക്ക് ചെയ്യും.
    181.485 - 194.306
    ഇപ്പോൾ പ്രോജക്ട് ശരിക്കും. നിങ്ങൾ ഇപ്പോൾ എന്തെങ്കിലും വേറെ എന്തെങ്കിലും നിങ്ങൾക്ക് വർക്ക് ചെയ്യാൻ പറ്റാത്ത എന്തെങ്കിലും എറർ ആണോ അതോ ശരിക്കും പ്രൊഡക്ഷൻ ദം ഏജ് ആയതാണോ ഞങ്ങൾ നോക്കിയിട്ട് അതിനനുസരിച്ച് അപ്പ് ഉണ്ട് ഞങ്ങൾക്ക് റീപ്ലേ ചെയ്യുന്നതായിരിക്കും.
    182.250 - 182.935
    ശരി.
    195.626 - 196.481
    അതെ. അപ്പൊ ഈ ടു ഇയേഴ്സ് ന്റെ ആണെങ്കിൽ ഞാൻ എന്തൊക്കെ ചെയ്യണം ടു ഇയേഴ്സ് ന്റെത് എടുത്താൽ കൊള്ളാം എന്ന്. എനിക്ക് അത് ₹അല്ലേ ഉള്ളൂ ഇപ്പോൾ തൽക്കാലം അത് ചെയ്തുനോക്കാം എന്ന് വിചാരിക്കുകയായിരുന്നു അപ്പോൾ ഞാൻ.
    196.996 - 206.891
    അപ്പൊ ഈ ടു ഇയേഴ്സ് ന്റെ ആണെങ്കിൽ ഞാൻ എന്തൊക്കെ ചെയ്യണം ടു ഇയേഴ്സ് ന്റെത് എടുത്താൽ കൊള്ളാം എന്ന്. എനിക്ക് അത് ₹അല്ലേ ഉള്ളൂ ഇപ്പോൾ തൽക്കാലം അത് ചെയ്തുനോക്കാം എന്ന് വിചാരിക്കുകയായിരുന്നു അപ്പോൾ ഞാൻ.
    197.561 - 197.906
    (())
    206.751 - 207.421
    (())
    207.396 - 209.571
    അപ്പോൾ ഞാൻ ഇങ്ങനെ ബാക്കി എന്താ ചെയ്യേണ്ടത്?
    209.341 - 209.986
    ഓക്കേ.
    212.041 - 223.306
    മാം ഇപ്പോൾ ടു ഇയേഴ്സ് ന്റെ ആണ് മാം എടുക്കാൻ ഉദ്ദേശിക്കുന്നതെങ്കിൽ ഞങ്ങൾ ഇപ്പോൾ ലിങ്ക് അയക്കാം. മാം ന്റെ രജിസ്റ്റർ മൊബൈൽ നമ്പർ മാം ന്റെ മൊബൈൽ നമ്പർ ലാസ്റ്റ് ടോട്ടൽ ഒന്ന് പറയാമോ വെരിഫൈ ചെയ്യാൻ ആയിരുന്നു.
    224.766 - 226.126
    ആ സെവൻ ത്രീ.
    227.471 - 228.121
    പശുവിന്റെ.
    228.551 - 229.101
    ടൈം ആണ്.
    230.245 - 238.527
    ഓക്കേ അപ്പോൾ ഈ പറഞ്ഞ നമ്പർ ലേക്ക് മാം ഇവിടെ രജിസ്റ്റർ ചെയ്തിരിക്കുന്ന നമ്പർ ലേക്ക് ഞങ്ങളൊരു എം എസ് അയക്കും ലിങ്ക് എസ് എം എസ് അയ.
    238.593 - 245.443
    മം ഞാൻ പേമെന്റ് അപ്പ് ഇ വഴിയോ അല്ലെങ്കിൽ കാർഡ് വഴിയോ എങ്ങനെ വേണം ഞാൻ.
    247.481 - 248.041
    ഓക്കേ.
    248.281 - 249.566
    ഞങ്ങൾ അത്.
    248.541 - 251.081
    ഞങ്ങൾ അത്.
    252.451 - 256.906
    ഓക്കേ അ ആപ്പ് വഴി നമ്മളെ യുപിഎ ചെയ്യാം. ഞാൻ പിന്നെ അതിന്റെ ഞങ്ങൾ ഈ മെയിൽ വഴി മം അയക്കും. സ്റ്റാൻഡ് വാറന്റി റെസ്റ്റ് ഇ മെയില് വഴി അയക്കുന്നതായിരിക്കും.
    257.536 - 263.921
    ഞാൻ പിന്നെ അതിന്റെ ഞങ്ങൾ ഈ മെയിൽ വഴി മം അയക്കും. സ്റ്റാൻഡ് വാറന്റി റെസ്റ്റ് ഇ മെയില് വഴി അയക്കുന്നതായിരിക്കും.
    265.611 - 266.136
    ഓക്കേ.
    267.526 - 271.916
    ഓക്കേ ഈ.എം എസ് ലു ള്ള ഇത് ചെയ്തു. ഫോളോ ചെയ്യൂ.
    269.276 - 272.976
    എം എസ് ലു ള്ള ഇത് ചെയ്തിട്ടുണ്ട്.
    272.526 - 272.726
    -
    274.496 - 274.886
    എന്തോ?
    275.251 - 278.316
    ഫൈനൽ ഇത് ഡേറ്റ് ന് മുന്നേ ചെയ്യണം. അങ്ങനെ എന്തെങ്കിലും ഉണ്ടോ?
    280.766 - 282.036
    മാ എം വൺ വീക്ക് ടൈം തരാം.
    282.366 - 282.966
    (())
    282.671 - 289.771
    ഇറ്റ് സ് ഓക്കേ വൺ വീക്ക് ടൈം തരാം അതിനുള്ള പേമെന്റ് ചെയ്താൽ മതി. ഞാൻ എന്തായാലും മാം ന്റെ പേരിൽ ചെയ്തിട്ടുണ്ട്. എക്സ്റ്റെൻഡഡ് വാറന്റി ഞങ്ങൾ.
    287.346 - 287.886
    ഒന്ന്.
    290.371 - 292.961
    പ്രോട്ടോകോള് പോലെ ഞങ്ങൾ വേണ്ടി. അപ്രൂവ് തന്നിരിക്കുന്ന പേരിവിടെ കൊടുത്തിട്ടുണ്ട് മം ഒന്നുകൂടെ ഡേയ് സ് കഴിഞ്ഞ് ഞാൻ പേമെന്റ് ഒക്കെ ഇല്ലെങ്കിൽ ചെയ്യാൻ സ്റ്റിൽ ബില്ലിംഗ് ആണെന്ന് ഒന്നറിയാൻ.
    294.066 - 303.221
    അപ്രൂവ് തന്നിരിക്കുന്ന പേരിവിടെ കൊടുത്തിട്ടുണ്ട് മം ഒന്നുകൂടെ ഡേയ് സ് കഴിഞ്ഞ് ഞാൻ പേമെന്റ് ഒക്കെ ഇല്ലെങ്കിൽ ചെയ്യാൻ സ്റ്റിൽ ബില്ലിംഗ് ആണെന്ന് ഒന്നറിയാൻ.
    304.736 - 311.001
    ഓക്കേ കാരണം ഞാൻ വാങ്ങിയിട്ട് ബോസ്റ്റണ് മോണ്ട് കഴിയാൻ ആവുന്നു. അപ്പോൾ അതുകൊണ്ട് ഞാൻ ചോദിച്ചത് അപ്പോ ഇനി വൺ വീക്ക് നുള്ളിൽ ചെയ്താൽ മതി അല്ലേ.
    312.596 - 313.661
    ആ മതി മതി.
    314.251 - 315.351
    ഓക്കേ ഓക്കേ.
    316.516 - 317.811
    ഓക്കേ താങ്ക് യു.

    Dataset Details

    Card Head Line

    Language

    Malayalam

    Language code

    ml-in

    Country

    India

    Accents

    Kasaragod, North Malabar ...more

    Gender Distribution

    M:60, F:40

    Age Group

    18-70 Years

    File Details

    Card Head Line

    Environment

    Silent, Noisy

    Bit Depth

    16 bit

    Format

    wav

    Sample rate

    8khz & 16khz

    Channel

    Stereo (dual-channel, separated speakers)

    Audio file duration

    5-15 minutes

    Need datasets for a specific AI/ML use case?
    Don't worry, we've got you covered! 👍

    Contact Us
    Prompt 2 Bg
    Malayalam Call Center Data for Retail & E-Commerce AI