OpenAI представила результати роботи Voice Engine, інструмента для реалістичного синтезу голосу на основі 15-секундного зразка та тексту, яка розроблялася близько двох років. Але публічного доступу до нього нема — через очевидні побоювання компанії щодо безпеки.
“Ми сподіваємося почати діалог про відповідальне застосування синтетичних голосів і про те, як суспільство може адаптуватися до цих нових можливостей. На основі цих розмов і результатів цих невеликих тестів ми приймемо більш обґрунтоване рішення про те, чи варто і як розгортати цю технологію в масштабі”, — йдеться у блозі OpenAI.
Модель генеративного штучного інтелекту, яка працює з Voice Engine, деякий час ховалася на виду. Вона лежить в основі голосу та можливостей читати вголос у ChatGPT, а також попередньо налаштованих голосів, доступних в API перетворення тексту в мову OpenAI. Spotify також використовує її з початку вересня, щоб дублювати різними мовами подкасти.
Компанія бачить кілька шляхів застосування технології: надання допомоги тим, хто з якихось причин не може читати, переклад, надання голосових послуг віддаленим спільнотам, підтримка людей з вадами голосу та допомога під час його відновлення. Приклади застосування із семплами кількома мовами також представлені у блозі.
Сайт TechCrunch запитав представника компанії Джеффа Гарріса, на яких матеріалах навчали Voice Engine. Він відповів, що модель Voice Engine була навчена на суміші ліцензованих та загальнодоступних даних. Деталі навчання моделей штучного інтелекту можуть становити як конкурентну перевагу, так і джерело юридичних проблем, тож відсутність подробиць не дивує. Voice Engine використовує дані користувача вкрай обережно:
«Ми беремо невеликий зразок аудіо та текст і створюємо реалістичну мову, яка відповідає оригінальному оратору, — каже Гарріс. — Аудіо, яке використовується, видаляється після завершення запиту».
За даними сайту, ціна майбутньої послуги буде «кусатися». OpenAI видалила ціну використання Voice Engine з маркетингових матеріалів, але у документах, які переглянув TechCrunch, вказано вартість $15 за один мільйон символів, або ~162 500 слів англійською. Це трохи більше, ніж роман «Олівер Твіст» Дікенса. Це означає приблизно 18 годин аудіо, тобто ціна дещо нижча від $1 за годину.
Вартість менша, ніж в одного із найпопулярніших конкурентів, ElevenLabs, — $11 за 100 000 символів на місяць. Цікаво, що варіант із якістю HD коштує вдвічі дорожче, але, що представник OpenAI сказав TechCrunch, що немає різниці між голосами HD і не HD — це можна розуміти як завгодно. Також Voice Engine не пропонує елементів керування тоном, висотою чи іншими характеристиками голосу.
Вартість роботи актора озвучування на сервісі ZipRecruiter коливаються від $12 до $79 за годину — це набагато дорожче, ніж у Voice Engine. Актори з агентами отримають набагато вищу платню. Також постає й проблема дипфейків. Тож компанія поки рухається дуже обережно, як з наведеними прикладами використання.
Триває конкурс авторів ІТС. Напиши статтю про розвиток ігор, геймінг та ігрові девайси та вигравай професійне ігрове кермо Logitech G923 Racing Wheel, або одну з низькопрофільних ігрових клавіатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!