Co nowego na rynku? Na czym warto zawiesić ucho? Kto i za co dostał kolejną nagrodę? To jest TECHNEWS! Sprzęt dla lektorów? W dziale TESTY znajdziesz efekty naszych praktycznych doświadczeń na mikrofonach i przedwzmacniaczach. A na deser świeżutkie promocje. Trzymaj rękę na pulsie.
Gemini 3.1 Flash TTS - syntezator "mówiący" jeszcze lepiej
Bez fanfar i nadmiernego rozgłosu pojawiło się narzędzie, którego lektorzy raczej nie polubią. Google wprowadziło nowy syntezator mowy. - Generowane nagrania mogą być trudniejsze do odróżnienia od prawdziwego głosu - komentują Wirtualnemedia.pl.
Google zaprezentowało nowy model sztucznej inteligencji do generowania mowy – Gemini 3.1 Flash TTS. To kolejny krok w rozwoju technologii text-to-speech (TTS), który ma nie tylko poprawić jakość generowanego dźwięku, ale także zwiększyć kontrolę nad sposobem, w jaki AI "mówi".
Jednym z głównych założeń Gemini 3.1 Flash TTS jest osiągnięcie maksymalnie naturalnego brzmienia. Według oficjalnych informacji Google, model generuje mowę bardziej realistyczną niż wcześniejsze rozwiązania, lepiej odwzorowując intonację, emocje i rytm ludzkiej wypowiedzi.
To oznacza, że generowane nagrania mogą być trudniejsze do odróżnienia od prawdziwego głosu, co ma znaczenie m.in. w produkcji audiobooków, podcastów czy systemach asystentów głosowych.
Precyzyjna kontrola nad głosem
Największą innowacją w Gemini 3.1 Flash TTS ma być możliwość bardzo szczegółowego sterowania sposobem mówienia. Użytkownicy mogą korzystać z tzw. audio tagów, które pozwalają określić emocje, tempo czy styl wypowiedzi bezpośrednio w tekście. Przykładowo, możliwe jest dodanie znaczników takich jak: szept, radość, złość, pauzy.
Więcej szczegółów zawiera cały artykuł na Wirtualnemedia.pl.
Brak komentarzy