Italian Call Center Speech Dataset for Telecom

This Italian speech dataset features real-world call center conversations from the Telecom domain. With detailed metadata and accurate transcriptions, it’s designed to power ASR systems, voice AI, and conversational agents.

Category

Unscripted Call Center Conversations

Total Volume

30 Speech Hours

Last updated

June 2025

Number of participants

60

AI audio dataset for Telecom in Italian (Italy)
Download
Download Icon

About this Off-the-shelf Speech Dataset

Card Head Line

Introduction

This Italian Call Center Speech Dataset for the Telecom industry is purpose-built to accelerate the development of speech recognition, spoken language understanding, and conversational AI systems tailored for Italian-speaking telecom customers. Featuring over 30 hours of real-world, unscripted audio, it delivers authentic customer-agent interactions across key telecom support scenarios to help train robust ASR models.

Curated by FutureBeeAI, this dataset empowers voice AI engineers, telecom automation teams, and NLP researchers to build high-accuracy, production-ready models for telecom-specific use cases.

Speech Data

The dataset contains 30 hours of dual-channel call center recordings between native Italian speakers. Captured in realistic customer support settings, these conversations span a wide range of telecom topics from network complaints to billing issues, offering a strong foundation for training and evaluating telecom voice AI solutions.

  • Participant Diversity:
  • Speakers: 60 native Italian speakers from our verified contributor pool.
  • Regions: Representing multiple provinces across Italy to ensure coverage of various accents and dialects.
  • Participant Profile: Balanced gender mix (60% male, 40% female) with age distribution from 18 to 70 years.
  • Recording Details:
  • Conversation Nature: Naturally flowing, unscripted interactions between agents and customers.
  • Call Duration: Ranges from 5 to 15 minutes.
  • Audio Format: Stereo WAV files, 16-bit depth, at 8kHz and 16kHz sample rates.
  • Recording Environment: Captured in clean conditions with no echo or background noise.
  • Topic Diversity

    This speech corpus includes both inbound and outbound calls with varied conversational outcomes like positive, negative, and neutral ensuring broad scenario coverage for telecom AI development.

  • Inbound Calls:
  • Phone Number Porting
  • Network Connectivity Issues
  • Billing and Payments
  • Technical Support
  • Service Activation
  • International Roaming Enquiry
  • Refund Requests and Billing Adjustments
  • Emergency Service Access, and others
  • Outbound Calls:
  • Welcome Calls & Onboarding
  • Payment Reminders
  • Customer Satisfaction Surveys
  • Technical Updates
  • Service Usage Reviews
  • Network Complaint Status Calls, and more
  • This variety helps train telecom-specific models to manage real-world customer interactions and understand context-specific voice patterns.

    Transcription

    All audio files are accompanied by manually curated, time-coded verbatim transcriptions in JSON format.

  • Transcription Includes:
  • Speaker-Segmented Dialogues
  • Time-coded Segments
  • Non-speech Tags (e.g., pauses, coughs)
  • High transcription accuracy with word error rate < 5% thanks to dual-layered quality checks.
  • These transcriptions are production-ready, allowing for faster development of ASR and conversational AI systems in the Telecom domain.

    Metadata

    Rich metadata is available for each participant and conversation:

  • Participant Metadata: ID, age, gender, accent, dialect, and location.
  • Conversation Metadata: Topic, sentiment, call type, sample rate, and technical specs.
  • This metadata supports fine-grained analysis, dialect-specific tuning, and precise dataset segmentation.

    Usage and Applications

    This dataset is ideal for a range of telecom AI and NLP applications:

  • Automatic Speech Recognition (ASR): Fine-tune Italian speech-to-text systems for telecom interactions.
  • Speech Analytics: Identify user pain points and improve telecom service delivery.
  • Voice Assistants & Chatbots: Build telecom virtual assistants for customer self-service.
  • Sentiment Analysis: Detect customer frustration or satisfaction in support calls.
  • Generative AI: Train telecom-specific summarization and response generation models.
  • Secure and Ethical Collection

  • All data was collected using “Yugo,” FutureBeeAI’s proprietary platform under strict ethical and security standards.
  • No personally identifiable information is included.
  • The Dataset complies with global data privacy guidelines and is copyright-free.
  • Updates and Customization

    We regularly expand this dataset with new telecom voice data and support full customization:

  • Customization Options:
  • Acoustic Environment: Silent or noisy upon request.
  • Sample Rate: Customizable from 8kHz to 48kHz.
  • Transcription Format: Can follow your QA and formatting requirements.
  • License

    This Telecom domain dataset is commercially licensed and ready for integration into Italian ASR, NLP, and voice AI solutions.

    Use Cases

    Use of speech data in Conversational AI

    Call Center Conversational AI

    Use of speech data for Automatic Speech Recognition

    ASR

    Use of speech data for Chatbot & voicebot creation

    Chatbot

    Use of speech data in Language Modeling

    Language Modelling

    Use of speech data in Text-into-speech

    TTS

    Speech data usecase in Speech Analytics

    Speech Analytics

    Dataset Sample(s)

    Card Head Line

    ATTRIBUTES

    TRANSCRIPTION

    TIME
    TRANSCRIPT
    0.855 - 2.439
    <lang:Foreign>Hey Futurebee<initial>AI</initial></lang:Foreign>
    4.005 - 5.445
    <lang:Foreign>Hey Futurebee<initial>AI</initial></lang:Foreign>
    5.469 - 5.839
    -
    7.765 - 13.565
    Buongiorno, parlo con la signora <PII>Bianchi</PII>? Mi chiamo <PII>Marco</PII> e la sto contattando da Tele Europa, il suo attuale operatore telefonico.
    13.799 - 14.289
    -
    14.430 - 18.005
    #eh la disturbo solo un momento per una breve comunicazione di servizio, posso?
    19.030 - 20.154
    Sì, dica pure.
    21.145 - 21.965
    La ringrazio.
    22.034 - 22.424
    -
    22.605 - 28.625
    Allora, la contatto per informarla che da questo mese Tele Europa ha attivato un nuovo piano eh di protezione dispositivi.
    28.794 - 29.149
    -
    29.305 - 37.425
    È pensato per coprire eventuali danni accidentali, furti e o malfunzionamenti su smartphone, tablet o smartwatch di alta fascia.
    37.819 - 38.034
    -
    38.225 - 41.365
    Posso chiederle se utilizza un dispositivo recente o di valore?
    43.034 - 43.284
    -
    43.530 - 46.945
    #eh sì, ho un Fufoon
    47.265 - 50.045
    Quattordici che ho comprato qualche mese fa.
    51.650 - 52.530
    Ottima scelta.
    52.865 - 54.285
    È un dispositivo eccellente.
    55.165 - 59.905
    #eh è proprio per dispositivi come quello #eh questo piano potrebbe essere utile.
    60.394 - 60.669
    -
    60.855 - 72.185
    Si tratta di una protezione completa che copre cadute, rotture dello schermo, danni da liquidi, furto e anche malfunzionamenti non coperti dalle dalla garanzia standard, assumo insomma
    72.524 - 72.899
    -
    73.849 - 74.109
    -
    74.325 - 76.820
    Capito, #eh quanto costa?
    77.654 - 78.074
    -
    78.145 - 82.685
    Allora, dipende dal tipo del, di dispositivo e dal valore. Ad esempio
    84.105 - 84.925
    Per il suo
    85.385 - 89.825
    Fufoon, il piano mensile è di circa nove euro e novanta senza costi iniziali.
    90.004 - 90.489
    -
    91.020 - 93.954
    #eh comunque è possibile disdirli in qualsiasi momento
    94.245 - 99.885
    E comprende anche la sostituzione rapida o la riparazione certificata entro quarantott'ore.
    100.144 - 100.809
    -
    102.325 - 103.185
    Ok.
    103.685 - 104.565
    #eh
    105.199 - 105.549
    -
    105.805 - 112.765
    Ma la garanzia non copre già queste cose, cioè la garanzia del Fufoon non copre già queste cose?
    116.620 - 119.344
    La garanzia copre solo i difetti di fabbrica, la loro.
    119.489 - 119.919
    -
    120.005 - 127.405
    #eh questa assicurazione invece copre anche cadute, #eh furti, danni d'acqua e situazioni che normalmente verrebbero escluse.
    127.454 - 128.294
    -
    128.505 - 132.309
    Poi, inoltre, se il dispositivo è fuori garanzia è comunque protetto [noise].
    133.585 - 134.865
    Capito, capito.
    135.425 - 137.405
    #eh giusto per sapere
    137.765 - 139.565
    Come, come posso attivarla?
    141.595 - 146.189
    Allora, è semplicissimo. Possiamo attivarla direttamente ora al telefono se, se ha voglia.
    146.369 - 146.904
    -
    147.075 - 156.665
    #eh #eh le arriverà una conferma via e-mail con tutte le condizioni #eh poi a quattordici giorni, nel caso #eh cambiasse idea, #eh così annullerebbe il piano senza alcun costo.
    158.260 - 160.365
    Ok, ok, #eh.
    160.865 - 163.205
    Sai, mi sembra una buona idea. Procediamo.
    164.650 - 166.305
    Ok, perfetto. Allora
    166.469 - 166.814
    -
    166.920 - 168.544
    Confermo i suoi dati. Ok.
    169.865 - 171.934
    Allora, <PII>Laura Bianchi</PII>
    173.424 - 173.579
    -
    173.965 - 178.525
    #eh e-mail <PII>laura. Bianchi chiocciola email. It</PII> giusto?
    179.749 - 180.069
    Sì.
    180.750 - 181.945
    Ok, perfetto.
    182.265 - 185.485
    Allora, il pagamento verrà aggiunto direttamente alla prossima bolletta.
    186.079 - 186.234
    -
    186.525 - 193.545
    #eh le invierò un riepilogo dettagliato per e-mail entro pochi minuti, #hm vuole che le riassuma brevemente cosa comprende il piano?
    195.055 - 197.075
    #hm sì, grazie, per favore.
    197.405 - 198.585
    Ok, allora.
    199.509 - 199.814
    -
    199.865 - 200.945
    Mi dia un secondo.
    202.185 - 204.605
    Ok, allora #hm il piano include
    205.225 - 212.185
    Abbiamo copertura per danni accidentali, quindi cadute, urti, rotture dello schermo, quindi può stare serena su quello.
    212.694 - 212.904
    -
    212.980 - 215.065
    Abbiamo protezione contro i danni da liquidi. Mm.
    215.339 - 215.654
    -
    215.935 - 217.545
    #eh furto con denuncia.
    218.605 - 222.245
    Abbiamo riparazioni certificate o sostituzioni entro le quarantotto ore.
    223.314 - 223.489
    -
    223.665 - 226.445
    Non c'è nessuna franchigia per i prossimi due sinistri all'anno.
    227.105 - 229.664
    E la possibilità di disdire in qualsiasi momento.
    229.899 - 230.099
    -
    230.470 - 232.345
    #eh mi conferma di voler attivarlo?
    233.869 - 234.039
    -
    234.325 - 235.685
    #eh sì, sì.
    236.065 - 236.785
    Faccia pura.
    237.434 - 237.634
    -
    237.585 - 238.685
    Ok, perfetto.
    238.889 - 239.139
    -
    239.225 - 240.985
    Allora, mi dia un secondo.
    244.720 - 246.440
    Ok, glielo sto attivando al volo.
    247.119 - 247.344
    -
    247.525 - 250.825
    #eh nel frattempo posso chiederle come si è trovata con il suo dispositivo?
    252.855 - 254.124
    Tutto bene.
    254.325 - 256.505
    Fino ad adesso tutto perfetto.
    257.595 - 262.525
    Ok, ora mi scusi #eh perché abbiamo un questionario veloce #eh da compilare.
    263.065 - 266.544
    Mentre per noi a qualche commento, qualche #hm
    266.894 - 267.169
    -
    267.225 - 271.705
    Qualche lamentela, qualsiasi cosa vuole, vuole lasciarci come commento?
    271.325 - 272.065
    No, no.
    272.725 - 278.185
    L'unica cosa vorrei sapere se posso includere anche il Fufoon di mio figlio.
    280.765 - 282.125
    A questa promozione?
    281.394 - 281.834
    -
    281.880 - 282.285
    Sì.
    282.995 - 289.725
    Allora, finché #eh è cliente Tele Europa, anche il Fufoon di suo figlio è incluso nella promozione.
    289.814 - 290.404
    -
    290.570 - 296.985
    #eh solo se #eh chiaramente stiamo parlando sempre di un #eh ultima generazione, diciamo.
    298.585 - 300.585
    Sì, sì, abbiamo lo stesso.
    301.505 - 305.829
    Ok, perfetto, allora sì, esatto, #eh ci sarà lo stesso procedimento anche per lui.
    306.220 - 308.924
    Guardi, se vuole posso anche già organizzare adesso la chiamata.
    310.539 - 310.704
    -
    310.905 - 312.025
    #eh
    313.085 - 316.565
    Sì, non so se ce l'avete nei registri mio figlio.
    317.554 - 317.829
    (())
    318.545 - 319.005
    Certo.
    319.245 - 319.805
    Ok.
    319.745 - 326.345
    Ok, quindi me lo segno. Le dico intanto che l'attivazione è andata a buon fine e riceverà tutto via mail #eh se non ha altre domande siamo a posto.
    328.025 - 330.465
    No, no. Tutto chiaro. Grazie mille.
    330.464 - 330.664
    -
    331.530 - 333.325
    Grazie a lei e buona giornata.
    333.429 - 334.054
    -
    334.125 - 335.725
    Grazie mille, buona giornata.

    Dataset Details

    Card Head Line

    Language

    Italian

    Language code

    it

    Country

    Italy

    Accents

    Asti, Avellino ...more

    Gender Distribution

    M:60, F:40

    Age Group

    18-70 Years

    File Details

    Card Head Line

    Environment

    Silent, Noisy

    Bit Depth

    16 bit

    Format

    wav

    Sample rate

    8khz & 16khz

    Channel

    Stereo (dual-channel, separated speakers)

    Audio file duration

    5-15 minutes

    Need datasets for a specific AI/ML use case?
    Don't worry, we've got you covered! 👍

    Contact Us
    Prompt 2 Bg