Spraaksynthesizer vrouwenstem. Tekst-naar-spraak (TTS) spraaksynthesizers

Balabolka, ontwikkeld door Ilya Morozov, is bedoeld om tekst in audiovorm weer te geven. Het programma is een omgeving voor het omzetten van tekst naar spraak met een prettige en handige meertalige interface. Spraaksynthesizers, die afzonderlijk worden gedownload en op een computer worden geïnstalleerd, zijn rechtstreeks verantwoordelijk voor de reproductie van menselijke spraak. Op deze pagina van de site https://site kun je Balabolka gratis legaal downloaden met een Russische stem inbegrepen, zonder registratie en sms. In dit geval hoeft u de applicatie of de spraakengine niet te hacken, op zoek te gaan naar keygens en cracks, en vervolgens hoeft u geen virussen te bestrijden. Alles hier is virusvrij, gratis, legaal en legaal.

Waarom Balabolka, zijn voordelen, concurrenten en noodzakelijke componenten

Tegenwoordig zijn software voor een computer met het besturingssysteem Microsoft Windows XP, 2000, Vista, 7, 8, 8.1, 10, Android-applicaties geïnstalleerd op een tablet of smartphone, en onlinediensten met de functie van het synthetiseren van menselijke spraak met behulp van verschillende broncodes en stemmotoren zijn voldoende voor een recensie van meerdere pagina's met een korte en duidelijke conclusie. Om teksten in het Russisch hardop te lezen met de stem van een computer, heb je drie componenten nodig: Speech API, een audio-spraaksynthesizer met ondersteuning voor de Russische taal, en een klein programma met de functie om tekst hardop voor te lezen. Deze pagina biedt links naar alles wat u nodig heeft voor volwaardig werk, inclusief de mogelijkheid om de nieuwste versie van Balabolka gratis te downloaden voor Windows 10, 8.

Op een min of meer moderne computer is de Speech API, met drie opties tegelijk, al in het systeem geïnstalleerd en hoeft de gebruiker eenvoudigweg een spraakengine te selecteren, bijvoorbeeld voor Balabolka of een soortgelijke applicatie, op het juiste tabblad : SAPI4, SAPI5 of Microsoft Speech Platform. Als u de MS Speech API-bibliotheek voor Windows moet bijwerken, moet u er rekening mee houden dat het installeren van SAPI 5.1 op een computer waarop SAPI 5.3 of 5.4 draait, tot een kwaliteitsvermindering zal leiden.

Kenmerken van afspelen in het Engels en Russisch met behulp van verschillende audiosynthesizers, bijvoorbeeld: Alexander en Elena ontwikkeld door Olga Yakovleva van AREYCHVoice (RHVoice), Boris, Nikolay en Svetlana geproduceerd door Lernout & Housepy TruVoice TTS, Nikolay en Alena van Akapel, Tatyana en Maxim van Ivon, Olga van Lokendo TTS, Katerina van ScanSoft RealSpeak, Igor van UkrVox en anderen worden hieronder in detail besproken.

Vooraf geïnstalleerde spraakengines maken automatisch verbinding met de overeenkomstige applicaties die op de computer zijn geïnstalleerd. Voor spraaksynthese zijn er geschikte lezers en teksteditors die verschillende documenten hardop kunnen reproduceren met een gesynthetiseerde stem, zoals Balabolka, Govorilka, Govorun+, ABoo, Demagogue, Cool Reader, ICE Book Reader en verschillende online diensten, bijvoorbeeld: Translator Google en vergelijkbare, maar minder geavanceerde onlinediensten Ivona, Acapela, Linguatec, imTranslator. De programma's hebben tijdens het gebruik geen internet nodig en alle online services zijn beschikbaar met een stabiele computerverbinding met internet.

De optimale keuze voor gebruik op een personal computer is het Balabolka-programma, dat werkt met SAPI4, SAPI5 en het Microsoft Speech Platform, en ondersteunt het werken met teksten in documenten in de populaire formaten FB2, DjVu, PDF, TXT, DOC, HTML en andere documenten, evenals tekst die naar het klembord is gekopieerd.

Als resultaat van Balabolka's werk is het mogelijk om een ​​MP3-, MP4-, OGG-, WAV-, WMA- en ander audioformatenbestand te maken, ook met behulp van zijn eigen codecs, met de mogelijkheid om tekst als ID3 in MP3-bestanden weer te geven als ondertitels op de speler tegelijkertijd weergeven, zoals bij karaoke. We raden aan om de Russische Balabolka en de Russische stem Alexander en Elena gratis te downloaden als onderdeel van de RHVoice-software, zonder de site te verlaten zonder registratie en sms.

Interface en functionaliteit van Balabolka

Dankzij een meertalige interface met ondersteuning voor de Russische taal kunt u, zonder tijd te verspillen aan het bestuderen van de mogelijkheden van Balabolka, direct naar de inhoud luisteren door simpelweg een tekstfragment in te voegen, of het nu een regel, een zin, een paragraaf, een pagina, een hoofdstuk is , een deel, een deel of het hele boek, zelfs een verzameling met meerdere delen.

Interface-elementen, menu's en instellingen van Balabolka bieden de gebruiker de volgende opties:

  • stel de interfacetaal in, de skin, configureer snelknoppen,
  • oefencontrole met behulp van de knoppen afspelen, pauzeren, stoppen,
  • selecteer het type spraakengine SAPI 4, SAPI 5 of Microsoft Speech Platform,
  • stel de snelheid, het timbre en het spraakvolume van de synthesizer in,
  • correcte uitspraak met behulp van verschillende middelen,
  • vind homografen (woorden die hetzelfde zijn in spelling maar verschillend in gehoor),
  • beheer het leesproces via korte sneltoetsen,
  • tekst reproduceren terwijl de gebruiker op het toetsenbord typt,
  • verander willekeurig de letterkleur op het computerscherm, de letterstijl,
  • regeleinden correct verwijderen om taalkundige aarzelingen te voorkomen,
  • een document omzetten in geluid zodat u het kunt beluisteren op mp3-spelers, mobiele telefoons, smartphones en tablets, enz.

U kunt het lezen van tekst regelen vanuit het menu, met behulp van sneltoetsen of vanuit het systeemvak (systeemvak). Indien nodig is het mogelijk om twee bestanden te vergelijken, tekst uit bestanden te extraheren, een document in delen te splitsen, te vertalen, de spelling te controleren, tekst op te slaan in audiobestanden, een inhoudsopgave of bladwijzers te maken, naar een benoemde bladwijzer te navigeren.

Balabolka Draagbare versie

Op uw computer of laptop kunt u verschillende draagbare versies van Balabolka Portable hebben met bepaalde voorinstellingen: stem, woordenboeken, timbre, leessnelheid en andere instellingen. Er kan vraag zijn naar een dergelijke oplossing, bijvoorbeeld in het geval dat sommige soorten materiaal beter op het gehoor worden waargenomen wanneer ze worden gelezen door Nicolai Lernout & Hauspie TruVoice TTS uit de SAPI4-bibliotheek, en andere teksten beter worden gelezen door Aleksandr RHVoice in SAPI5 of Elena uit de Microsoft Speech Platform-kit. De SAPI4- en SAPI5-bibliotheken zijn incompatibel en u kunt slechts met één van de bibliotheken tegelijk werken. Als parallel gebruik nodig is, zijn twee Balabolka Portables met de juiste instellingen een effectieve oplossing. In dergelijke situaties raden we aan om Balabolka Portable gratis in het Russisch te downloaden. Hiervoor is geen installatie vereist, worden er geen configuratiebestanden op uw computer of laptop aangemaakt en kan het vanaf een USB-flashstation worden gestart.

Geluids- en spraak-API

De uitspraak van het geluid in Balabolka wordt gedaan door onafhankelijke stemmen die verschijnen in de Balabolka-stemmenlijst. Om naar Russische tekst te luisteren, moet u extra Russische stemmen zoeken en in het systeem installeren. De kwaliteit en correctheid van de uitspraak en het plaatsen van klemtonen zijn niet afhankelijk van de mogelijkheden van het programma voor het lezen van tekstbestanden of documenten met tekstfragmenten hardop; deze parameters worden bepaald door de audio-engine die in de instellingen is geselecteerd. Niet alleen Russische, maar ook Engelse, Duitse en verschillende andere Europese en Japanse stemmen worden gratis verspreid.

Helaas zijn er nog geen ideale softwareproducten met een 100% correcte uitspraak van de Russische spraak gemaakt; zelfs professionele omroepers op veel provinciale tv-kanalen zijn echter verre van perfect. Iedereen die Balabolka al gratis met een Russische stem heeft gedownload en Balabolka in actie heeft geprobeerd, heeft dit uit persoonlijke ervaring gezien. Stemmen werken uitsluitend met een bepaalde aanpassing van SAPI 4 of 5, evenals met het Microsoft Speech Platform, en na installatie in het systeem moet u ze selecteren op het overeenkomstige SAPI- of Microsoft Speech Platform-tabblad in Balabolka.

Spraakmotoren voor Balabolka

Als de Speech API in de regel al op het systeem is geïnstalleerd, dan is het vinden van een hoogwaardige, vrij gedistribueerde Text-to-Spech Engine (TTS) met reproductie van de Russische taal, hoogwaardige uitspraak, een groot woordenboek en prettige mannelijke en vrouwelijke tonen is niet zo eenvoudig. Je kunt veel tijd besteden aan het oplossen van dit probleem, maar het is bekend welke Russische stemmen voor Balabolka het downloaden waard zijn. Een van de beste opties zijn de stemmen van Elena en Aleksandr van RHVoice. Om te beginnen moet u onmiddellijk de RHVoice-stemengine gratis downloaden en de Russische Alexander selecteren met geschikte timbre-instellingen en uitspraaksnelheidsinstellingen.

Als je compatibel moet zijn met SAPI4, is het de moeite waard om de geschiktheid van de gratis beschikbare spraaksynthesizers Boris, Nicolai, Svetlana van Lernout & Hauspie TruVoice Text-to-Spech Engine te beoordelen. Voor SAPI5 verdienen de volgende synthesizers de aandacht: de beroemde Acapela Elan TTS Russische Digalo Nikolai, evenals Alyona van Acapela Group, Alena van Nuance, Tatyana en Maxim van Ivona, Olga van Loquendo TTS, Katerina van ScanSoft RealSpeak, Igor van UkrVox, Russische Alena en Ivan, niet erg verstaanbaar mannelijk en pseudo unisex van eSpeak en een aantal andere, minder bekende spraakmachines. De Russische Elena en TELE staan ​​enigszins apart, gebundeld met het Microsoft Speech Platform - Runtime Languages, een platform dat niet compatibel is met SAPI4 of SAPI5.

Balabolka gratis te downloaden en russische stemmen ervoor

site, waar iedereen de mogelijkheid heeft om legaal gratis programma's te downloaden voor een computer met Microsoft Windows zonder captcha, zonder virussen en zonder sms. Deze pagina is bijgewerkt op 21-04-2019. Bedankt voor uw bezoek aan de sectie.
Update van: 21.04.2019
Laatste versie: 2.15.0.698
Synoniemen: byalabolka, balabolka, belabolka, byalabolka
Besturingssysteem:

In tegenstelling tot de vorige vertegenwoordiger is Cantor 2 een meer “geavanceerd” systeem voor het synthetiseren van zangpartijen, maar voor een prijs. Er is ook een versie als apart programma. Hoewel het vst-instrument analoog is aan de pianorol in de sequencer: kijk eens naar de interface (Fig. 4).

Omdat deze plug-in zeer instrumentaal is, kan deze een groot aantal stemparameters manipuleren. Maar je moet nog steeds beginnen met het construeren van een zin lettergreep voor lettergreep. Zoals je misschien wel raadt, gebeurt dit met behulp van een pianorol. Er is ook een werkbalk met de gebruikelijke “potloden”, “gommen”, enz. Laten we eigenlijk proberen de hierboven genoemde zin "Hé, kom op", samen te vatten! Laten we de gebeurtenissen in de vorm van rechthoekige gebieden tekenen en ze ook van een label voorzien, zoals in figuur 5.

Zoals je kunt zien, staan ​​de woorden niet allemaal boven de gebeurtenissen geschreven. Het woord "kom op" is bijvoorbeeld opgesplitst in twee lettergrepen: "com" en "aan". Oplettende gebruikers zullen merken dat fonemen hieronder automatisch worden geschreven - dit is een nogal handige functie. Als je op details en nuances ingaat, moet je een heel goed idee hebben van wat fonemen en andere subtiele nuances van het spraakgeluid zijn, die alleen toegankelijk zijn voor beperkte specialisten. We laten het gewoon zoals het is en kijken hoe het in het algemeen werkt. Maar dat is niet alles. Nu moeten we in het midi-gedeelte van het Cantor 2-nummer ook een gedeelte registreren, volgens welke onze woorden (lettergrepen) zullen klinken. Laten we het doen zoals in figuur 6.

Nu kunnen we het afspelen in de sequencer inschakelen en ervoor zorgen dat we wat geluid aan de uitgang hebben.

Laten we vervolgens enkele geluidsnuances aanpassen. Laat ik meteen een voorbehoud maken: om alle nuances van het opzetten van Cantor 2 te bestuderen, moet je een heel boek schrijven. In dit artikel zullen we de algemene parameters bekijken. U kunt dus eerst een kant-en-klare stem kiezen. Er zijn er ongeveer een dozijn beschikbaar. Je kunt ze bovenaan het programma openen, in de optie Stem laden (Fig. 7).

De standaardinstelling was "Nikki", maar ik veranderde het in "Luther". Je kunt verschillende stemmen proberen, zowel vrouwelijk als mannelijk.

Ten tweede is er een effectensectie (eigenlijk de effectensectie, figuur 8).

Er zijn 4 effecten beschikbaar: Distortion, Echodelay, Chorus en Reverb. Hoewel dezelfde effecten afzonderlijk kunnen worden toegevoegd.

Het heeft geen zin om over de secties Foneem en Stem te praten, omdat... Ze zijn vrij moeilijk te leren en alleen een redelijk gespecialiseerde specialist kan hun instellingen begrijpen. Al houdt niemand je tegen om in deze secties aan de knoppen te draaien en zo het geluid te veranderen. Of verdiep je in de theorie van de spraaksynthese en de gebruikershandleiding van Cantor, om te begrijpen hoe het allemaal zou moeten werken. Over het algemeen zijn er nogal wat parameters, het resulterende geluid is behoorlijk complex en behoorlijk primitief.

Maar zelfs een beginner kan, als hij het probeert, een geluid krijgen dat lijkt op wat ik heb.

Fruitige Loops Studio

Misschien zullen velen van jullie, nadat ze Fruity Loops hebben gezien, verrast zijn hoe het in dit artikel terecht is gekomen, omdat het waarschijnlijker is dan niet spraaksynthesizer. Het punt is dat het een zeer goede spraaksynthesizer in zijn arsenaal heeft. Het heet Spraaksynthesizer. En hoewel het niet als aparte plug-in beschikbaar is, kunt u FL zelf als vst-plug-in in uw werkstation invoegen en daar de Speech Synthesizer gebruiken. Maar ik geef er nog steeds de voorkeur aan om een ​​spraakgedeelte in FL zelf te maken, het vervolgens naar een audiobestand te exporteren en het vervolgens op elk werkstation te gebruiken.

Laten we dus proberen de batch uit het vorige voorbeeld rechtstreeks in FL Studio te maken. Laten we deze plug-in in ons project invoegen (Fig. 9).

Zodra we het aan het project toevoegen, verschijnt er automatisch een venster waarin we worden gevraagd onze tekst in te voeren. U hoeft niet lang na te denken en onmiddellijk onze zin uit de bovenstaande voorbeelden in te voeren (Fig. 10).

Bovendien kunt u direct andere spraakparameters instellen, zoals stem (ongeveer 20 stemmen beschikbaar), uitspraakstijl, modus (fluisterend, aangezogen of normaal) en tempo- en toonhoogte-instellingen. Ik raad je aan om het tempo onmiddellijk in te stellen (ik heb het bijvoorbeeld 140, afhankelijk van het tempo van het project). Met de knop Luisteren kunt u direct naar een onderdeel luisteren voordat u het maakt. Nadat we de benodigde parameters hebben geselecteerd, klikt u op het selectievakje. Het programma zal ons vragen om ons bestand met het gemaakte spraakgedeelte op te slaan en er zal een nieuw gedeelte met zang in het project worden gemaakt (Fig. 11).

We hoeven ons geen zorgen te maken - Speech Synthesizer heeft een track voor ons gemaakt, een Fruity Slicer met een gedeelte erin, verdeeld in noten, waarbij elk woord overeenkomt met een afzonderlijke noot (in Figuur 11 aan de rechterkant kun je zien dat we een onderdeel hebben met 4 stuks). Bovendien heeft Piano Roll tracks gemaakt voor noten met ondertekende woorden, wat erg handig is (Fig. 12).

Alles is vrij duidelijk en eenvoudig. Het is niet nodig om fonemen op te schrijven of lettergrepen te selecteren om de zin correct te laten klinken. Het volstaat om simpelweg een zin in te voeren - deze klinkt al behoorlijk draaglijk en leesbaar. Vervolgens kunt u net zo eenvoudig de woorden herschikken en het gedeelte naar het gewenste audioformaat exporteren. U kunt het zelf zien door naar een voorbeeld te luisteren.

Wat is de beste van de beoordeelde spraaksynthesizers?

Mijn persoonlijke mening: live speech, live zang zijn beter. Kies je uit de bovengenoemde programma's, dan wint Cantor 2 natuurlijk qua aantal instellingen en parameters en beweert bovendien niet alleen een spraaksynthesizer te zijn, maar zelfs een vocale synthesizer. Kies je voor gemak, eenvoud en geluidskwaliteit, dan geef ik de voorkeur aan Speech Synthesizer van Fruity loops.

Aanvulling van de redactie

Er is ook een gratis programma voor spraaksynthese -. U kunt verschillende parameters configureren en, na het vooraf beluisteren, het resultaat genereren in een audiobestand.

Spraaksynthesizertoepassingen zijn handige en betrouwbare assistenten voor Android-gebruikers. Met hun hulp kunt u applicaties "uitspreken" in de populairste talen van de wereld, het timbre van uw stem en andere belangrijke parameters aanpassen, en ook naar het geluid van verschillende woorden luisteren. De meeste TTS-apps voor Android zijn gratis beschikbaar, maar het kan zijn dat je extra moet betalen om bepaalde stemmen en functies te installeren. Wij hebben de handigste spraaksynthesizers voor u geselecteerd, deze kunt u downloaden op onze website.

Google Spraaksynthese


Genre Hulpmiddelen
Beoordeling 4,1
Instellingen 1 000 000 000–5 000 000 000
Ontwikkelaar Google LLC
Russische taal Er bestaat
Schattingen 1 107 289
Versie 3.14.9
APK-formaat 14,7 MB


Het populairste en toegankelijke TTS-hulpprogramma, compatibel met veel Android-apparaten. Met behulp van het programma kunt u tekst op het scherm lezen en een aantal belangrijke functies uitvoeren:

  • Voice-overboeken vanuit de Google Play Boeken-app.
  • Vertaal en spreek woorden uit.
  • Schakel gesproken aanwijzingen in met de TalkBack-service.

U kunt de toepassing Spraaksynthese van Google rechtstreeks op uw apparaat activeren. Om dit te doen, opent u het menu-item "Instellingen", waar u naar de subsectie "Taal en invoermethoden" gaat en daar - "Spraaksynthese". Selecteer het spraaksynthesesysteem van Google, waarna de applicatie automatisch wordt geactiveerd.

Het programma ondersteunt meer dan 40 talen, waaronder Engels, Russisch, Frans, Duits, Japans, Spaans, Deens, Hindi en vele andere. De nieuwste versie van het hulpprogramma heeft 3 nieuwe talen toegevoegd: Roemeens, Ests en Slowaaks, en heeft ook de kwaliteit van de stem in het algemeen verbeterd.

Acapela TTS-stemmen


Genre Verbinding
Beoordeling 3,5
Instellingen 100 000–500 000
Ontwikkelaar Acapela Group S.A.
Russische taal Nee
Schattingen 3 883
Versie 6.0.0.2
APK-formaat 9,3 MB


Nog een hoogwaardige spraaksynthesizer voor Android, die beschikbaar is op onze portal. Het programma is shareware en voordat u de applicatie koopt, kunt u online naar demoversies van mannen- en vrouwenstemmen luisteren. Met dit hulpprogramma kunt u programma's met hoogwaardige spraak aanschaffen en installeren, zoals Google TalkBack, vertalers en nieuwsvoice-overs.

Om een ​​stem in de applicatie te selecteren en te installeren, opent u het menu en houdt u vervolgens de stem een ​​paar seconden ingedrukt. Er verschijnt een geel sterpictogram naast de geselecteerde stem en deze wordt als standaard ingesteld. Nu kunt u dit programma gebruiken met uw favoriete boeklezer.

De Acapela TTS Voices-applicatie kan worden geactiveerd met behulp van de volgende stappen.

  • Download de dienst op onze website of Google Play-portal.
  • Na het installeren van de applicatie klikt u op het programmapictogram. Zorg ervoor dat u een internetverbinding hebt.
  • Bekijk de lijst met stemmen die van de server zijn gedownload.
  • Klik op het menu naast elke stem, waar u uw eigen tekst kunt beluisteren of direct kunt kopen.
  • Na aankoop en betaling wordt de stem gedownload en kun je deze op elk moment gebruiken.

Acapela TTS Voices is compatibel met Android OS 2.2 en hoger.

Vocalizer TTS-stem


Genre Functie
Beoordeling 3,3
Instellingen 500 000–1 000 000
Ontwikkelaar Codefabriek
Russische taal Er bestaat
Schattingen 3 405
Versie 2.0.8
APK-formaat 5,4 MB


Spraaksynthesizer met menu in het Engels. Het programma heeft een geïntegreerde TTS-engine die meer dan 50 talen ondersteunt. Het servies onderscheidt zich door een prettige en heldere klank waarvan de klankkleur naar wens kan worden aangepast.

Met Vocalizer kunt u populaire Android-applicaties zoals boeken en revalidatiesoftware inspreken.

Andere belangrijke kenmerken van Vocalizer TTS Voice zijn onder meer:

  • Ondersteuning van 50 talen en 100 soorten stemmen.
  • Emoji-ondersteuning (wist je dat die er is?).
  • Woorden uitspreken in woordenboeken.
  • Instellingen voor leessnelheid.
  • Interpunctie audio-instellingen.

Zodra het programma op uw apparaat is geïnstalleerd, kunt u het activeren via het instellingenmenu onder Taal en invoermethoden - Tekst-naar-spraak en Vocalizer TTS als standaardsysteem instellen.

De applicatie is compatibel met Android-systeemversie 4.0 en hoger.

Als je deze app leuk vond en op zoek bent naar vergelijkbare apps, bekijk dan de recensie. En als u zich in een onbekend land bevindt en geen tijd heeft om de tekst uit te spreken, moet u deze tekst vertalen - u kunt er een foto van maken en deze vertalen.

Tegenwoordig bestaat er een technologie die tekstinformatie kan omzetten in gewone spraak. Met de ontwikkeling van ‘slimme machines’ wordt deze technologie steeds relevanter en vereist ze elke dag steeds meer perfectie. Eigenlijk zijn er op dit moment een aantal methoden voor spraaksynthese ontwikkeld, waar we het over zullen hebben.

Spraaksynthesizers kunnen op totaal verschillende gebieden worden gebruikt en worden gebruikt om veel problemen op te lossen, variërend van het 'lezen' van boeken, het produceren van 'pratend' kinderspeelgoed, het aankondigen van stops in het openbaar vervoer of in servicesystemen, en eindigend met medicijnen (hier is het de moeite waard ik denk aan Stephen Hawking, die een spraaksynthesizer gebruikte om met de wereld te communiceren).

Laten we dus de technologie en methoden van spraaksynthese eens nader bekijken. Zoals eerder vermeld, zijn er verschillende methoden voor spraaksynthese. Er kunnen dus verschillende hoofdbenaderingen worden onderscheiden:

  • parametrische synthese;
  • concatenatieve (compilatie)synthese;
  • synthese volgens regels (op basis van gedrukte tekst);

Met parametrische synthese kunt u spraak voor elke taal opnemen, maar deze kan niet worden gebruikt voor teksten die niet vooraf zijn gespecificeerd. Parametrische spraaksynthese wordt gebruikt als de set berichten beperkt is. De kwaliteit van deze synthesemethode kan zeer hoog zijn.

In wezen is parametrische spraaksynthese een implementatie van het werkingsprincipe van een vocoder. Bij parametrische synthese wordt het geluidssignaal weergegeven door een bepaald aantal continu veranderende parameters. Voor het genereren van klinkers wordt een toongenerator gebruikt, voor medeklinkers een ruisgenerator. Maar deze methode wordt meestal gebruikt om stemmen op te nemen in muzikale composities, en vaker hebben we het niet eens over pure stemsynthese, maar eerder over modulatie.

De compilatiesynthesemethode is gebaseerd op het samenstellen van teksten uit een vooraf opgenomen “woordenboek” van elementen. De grootte van een systeemelement moet minimaal één woord zijn. Doorgaans is de voorraad elementen beperkt tot enkele honderden woorden, en is de inhoud van gesynthetiseerde teksten beperkt tot de omvang van het woordenboek. Deze methode van spraaksynthese wordt veel gebruikt in het dagelijks leven - in de regel in verschillende hulpdiensten en apparatuur waarvoor apparatuur met spraakresponssystemen vereist is.

Volledige spraaksynthese volgens de regels kan spraak reproduceren uit een voorheen onbekende tekst. Deze methode maakt geen gebruik van elementen uit de menselijke spraak, maar is gebaseerd op geprogrammeerde taalkundige en akoestische algoritmen.

Er is hier ook sprake van een tweedeling: er kunnen twee benaderingen van deze synthesemethode worden onderscheiden. De eerste is formant-spraaksynthese volgens de regels, en de tweede is articulatorische synthese. Formantsynthese is gebaseerd op formanten - frequentieresonanties van het spraakakoestische systeem. Het formantsynthese-algoritme modelleert de werking van het menselijke stemkanaal, dat werkt als een reeks resonatoren. Tegenwoordig zijn de meeste synthesizers die uitsluitend aan formantsynthese werken helaas moeilijk te begrijpen zonder voorbereiding, maar dit is ongetwijfeld een universele en veelbelovende technologie. De articulatiemethode probeert de tekortkomingen van de formantmethode te verbeteren door fonetische kenmerken van de uitspraak van individuele geluiden aan het model toe te voegen.

Er bestaat ook een technologie voor spraaksynthese volgens regels, waarbij gebruik wordt gemaakt van opgenomen segmenten van natuurlijke spraak. Omdat compilatiemethoden nog steeds het meest worden gebruikt, zullen we er wat meer in detail over zeggen.

Afhankelijk van hoe groot de “fragmenten” van de spraak zijn die voor de synthese worden gebruikt, worden de volgende typen synthese onderscheiden:

  • microsegment (magnetron);
  • allofoon;
  • tweefonisch;
  • halflettergrepig;
  • syllabisch;
  • synthese uit eenheden van willekeurige grootte.

De meest gebruikte zijn allofonische en difonische methoden. Voor de difonische methode van spraaksynthese zijn de basiselementen allerlei binomiale combinaties van fonemen, en voor de allofone methode - combinaties van linker- en rechtercontexten (een allofoon is een variant van een foneem, die wordt bepaald door zijn specifieke fonetische omgeving ). In dit geval worden verschillende soorten contexten gecombineerd in klassen op basis van de mate van akoestische nabijheid.

Het voordeel van dergelijke systemen is dat ze het mogelijk maken tekst te synthetiseren uit een tekst die niet vooraf is gespecificeerd, maar het nadeel is dat de kwaliteit van gesynthetiseerde spraak niet vergelijkbaar is met de kwaliteit van natuurlijke spraak (er kunnen vervormingen optreden aan de grenzen van stikelementen). Het is ook erg moeilijk om de intonatiekenmerken van spraak te beheersen, omdat de kenmerken van individuele woorden kunnen veranderen afhankelijk van de context of het type zin.

Dit is echter allemaal in theorie. In de praktijk ondervinden ontwikkelaars van spraaksynthesetechnologie in het huidige ontwikkelingsstadium, ondanks actieve vooruitgang op dit gebied, nog steeds enkele problemen, voornamelijk in verband met de kunstmatigheid van de gesynthetiseerde spraak, het gebrek aan emotionele kleuring daarin en de lage immuniteit voor ruis.

Feit is dat elke gesynthetiseerde spraak in de regel moeilijk voor een persoon waar te nemen is. Dit komt door het feit dat de gaten in de gesynthetiseerde tekst worden opgevuld door het menselijk brein, dat hiervoor extra middelen gebruikt, en een persoon kan normaal gesproken gesynthetiseerde spraak slechts ongeveer 20 minuten waarnemen.

De perceptie van spraak wordt ook beïnvloed door de emotionele kleur ervan. In het geval van gesynthetiseerde spraak is deze afwezig. Hoewel het de moeite waard is om op te merken dat sommige algoritmen het nog steeds mogelijk maken om de emotionele kleur van spraak tot op zekere hoogte te imiteren door de duur van fonemen, pauzes en klankkleurmodulatie te veranderen, maar tot nu toe is hun werk verre van ideaal.

Wat het derde genoemde probleem betreft: lage immuniteit tegen ruis, tonen experimenten aan dat de perceptie van gesynthetiseerde tekst wordt verstoord door elk, zelfs de kleinste, externe ruis. Dit is opnieuw te wijten aan het feit dat het menselijk brein voor het verwerken van gesynthetiseerde spraak extra centra gebruikt die niet worden gebruikt bij het waarnemen van natuurlijke spraak.

Aan het einde van dit artikel wil ik enkele voorbeelden geven van bestaande spraaksynthesizers.

Iedereen kent de zogenaamde "readers" - programma's voor het gemakkelijker lezen van tekst van de monitor. Velen van ons gebruiken spraaksyntheseprogramma's om tekst in te spreken, bijvoorbeeld Balabolka en Govorilka.

Om ervoor te zorgen dat dergelijke programma's teksten kunnen lezen, moet u ook de SAPI-bibliotheek (Speech API) en stemengines installeren. De meest voorkomende zijn twee versies van de Speech API: SAPI4 en SAPI5. Beide bibliotheken kunnen op dezelfde computer worden uitgevoerd. Op de besturingssystemen Windows XP, Windows Vista en Windows 7 zijn al SAPI5-bibliotheken geïnstalleerd.

Naast e-readers zijn schermtoegangsprogramma's gebruikelijk. Voorbeelden van dergelijke programma's zijn:

MAAGD 4. Het programma is gemaakt voor comfortabel werken van blinde en slechtziende gebruikers met Windows. Hiermee kunt u de informatie selecteren die met uw stem wordt uitgesproken en de informatie die op de brailleleesregel wordt weergegeven. Voor visueel gehandicapte gebruikers is het Galileo-schermvergrotingssysteem beschikbaar.

Cobra 9.1 maakt het werken met Windows ook eenvoudiger voor blinde en slechtziende gebruikers. Dit programma kan informatie van een computermonitor weergeven met behulp van spraak, een brailleleesregel en heeft een schermvergrotingsfunctie.

Absinthium

Categorieën:

Tags:

Een fout opgemerkt? Selecteer het met de muis en druk op Ctrl+Enter!

Opmerkingen

Vanuit technisch oogpunt is het artikel correct. Maar waar de auteur zelf iets toevoegt, beginnen de problemen. Het is duidelijk dat het moeilijk is voor iemand die er alleen maar van heeft gehoord en het niet voortdurend gebruikt om te oordelen. Beschouw dit dus niet als een klacht, ik wil alleen iets verduidelijken.

In feite is het niveau van spraaksynthesizers redelijk acceptabel. Hoewel degenen die 10 - 15 jaar geleden zijn ontwikkeld natuurlijk nog steeds bestaan, en zij zijn het die het netwerk tegenkomen met een oppervlakkige kennismaking met het onderwerp. Maar er zijn anderen, verstandiger. In 20 minuten wordt iemand een synthesizer niet beu - ik werk 15 uur per dag met synthesizers. En er zijn er velen zoals ik. maar zelfs mensen die niet zijn zoals ik en mijn collega's, maar zoals de meerderheid, luisteren bijvoorbeeld graag naar audioboeken die zijn opgenomen uit tekstbestanden met behulp van spraaksynthesizers. Vaak vermoeien acteurs die een audioboek lezen een persoon zelfs sneller dan 20 minuten, dus synthesizers, met hun machinale directheid en compromisloosheid, hebben meer kans om te winnen, vooral als je geen estheet bent, maar alleen maar informatie ontvangt. En de programma's die aan het einde worden vermeld, vooral Virgo en Cobra, zijn nog steeds niet zo bekend op onze breedtegraden, zelfs niet onder degenen voor wie ze zijn ontwikkeld. Het bekendste schermlezerprogramma is Jaken voor Windows. Dit programma is toonaangevend onder andere oplossingen. Ook het screenreaderprogramma van nvda is bij ons populair en verdient ongetwijfeld aandacht. Het stelt blinden in staat de meeste alledaagse problemen op te lossen en wordt gratis verspreid.