Новий інструмент на основі ШІ уміє реалістично озвучувати тексти за 15-секундним зразком звучання мови

30 бер 2024, 18:10

OpenAI представила ШІ-інструмент Voice Engine, який може емоційно й реалістично озвучувати тексти голосом будь-якої людини на основі 15-секундного зразку звучання мови.

Інструмент створювали близько двох років, але поки у публічному доступі його немає, бо його потенційно можуть використовувати для створення діпфейків.

Сервіс Voice Engine розроблявся з кінця 2022 року — приблизно в той самий час, коли було запущено ChatGPT — і використовує введення тексту та 15-секундний аудіо зразок для генерації «мови з природним звучанням, яка дуже нагадує оригінального оратора.

Він спрямований на допомогу в читанні, перекладі, підтримку людей, які не говорять, і допомогу пацієнтам з дегенеративними станами мовлення відновити свій голос, а також є послугою, яка допомагає пришвидшити надання громадських послуг у віддалених районах, йдеться в повідомленні.

Voice Engine приєднується до набору платформ генеративного штучного інтелекту OpenAI, включаючи Dall-E для зображень, Sora для відео та ChatGPT, які почали революцію генеративного штучного інтелекту.

Ранні тестувальники зможуть попередньо переглянути Voice Engine, але інструмент «наразі не планують оприлюднювати», — повідомили в OpenAI.

Компанія не надала графік загального випуску Voice Engine.

Грунтуючись на цих розмовах і результатах цих дрібномасштабних тестів, ми приймемо більш обґрунтоване рішення про те, чи варто і як розгортати цю технологію в масштабі, — йдеться в повідомленні.

Клонування голосу вже давно використовується в галузях і підтримує такі завдання, як підтримка клієнтів і залучення, а також сприяє зниженню витрат і ефективності роботи.

Згідно з останніми даними дослідження Grand View Research, глобальний ринок клонування голосу досягне майже 9,3 млрд дол. до 2030 року з приблизно 1,45 млрд 2022 році, причому щорічні темпи зростання перевищуватимуть понад 26%.

Однак із появою генеративного штучного інтелекту ризики також вийшли на перший план, серед яких, зокрема, дезінформація, підробка та упередженість.

OpenAI, зокрема, визнав, що ці ризики підвищуються у 2024 році, оскільки це рік виборів у США, де очікується матч-реванш між чинним президентом Джо Байденом і Дональдом Трампом, які брали участь у дуже поляризаційній боротьбі, що підживлювалася соціальними мережами.

Ми усвідомлюємо, що створення мовлення, яке нагадує голоси людей, має серйозні ризики… ми співпрацюємо з американськими та міжнародними партнерами з уряду, засобів масової інформації, розваг, освіти, громадянського суспільства тощо, щоб переконатися, що ми враховуємо їхні відгуки під час створення, — заявили в OpenAI.

OpenAI повідомила, що її партнери Voice Engine погодилися з її політикою використання, яка забороняє видавати себе за іншу особу чи організацію без згоди чи законного права та вимагає «явної та інформованої згоди» від оригінального мовця.

«Ми не дозволяємо розробникам створювати способи для окремих користувачів створювати власні голоси. Партнери також повинні чітко повідомити своїй аудиторії, що голоси, які вони чують, створені штучним інтелектом», — заявили в компанії.

Джерело: Ракурс

Помітили помилку?
Виділіть і натисніть Ctrl / Cmd + Enter