Meta SeamlessM4T — нейромережа-перекладач-транскрибатор із підтримкою 100 мов (українська в списку). На крок ближче до Вавилонської рибки

Meta випустила нову модель перетворення мови в текст під назвою SeamlessM4T, яка може перекладати майже 100 мов.

Допомагаємо

Дітям із Маріуполя потрібно 120 ноутбуків для навчання — подаруй старе «залізо», нехай воно працює на майбутнє України

SeamlessM4T розшифровується як Massively Multilingual and Multimodal Machine Translation (Масивний багатомовний і мультимодальний машинний переклад), повідомляє The Verge. Модель здатна розпізнавати близько 100 мов (мову або текст) та перетворювати їх на 35 вихідних мов, у тому числі українську.

Її випустили під ліцензією Creative Commons CC BY-NC 4.0, що дає змогу використання дослідниками.

Створення універсального перекладача, подібного до вигаданої Вавилонської рибки з твору «Автостопом по галактиці» — складне завдання, оскільки існуючі системи перекладу з мови на мову та з мови на текст охоплюють лише невелику частину мов світу.

— із твердження Meta.

Згідно зі словами розробника, SeamlessM4T є значним проривом, оскільки нова модель виконує всі етапи перекладу одночасно, на відміну від інших великих систем перекладу, які розділяють переклад між різними системами.

Однією з цікавих особливостей SeamlessM4T є здатність розпізнавати, коли мовець перемикає код або коли хтось переходить між двома або більше мовами в одному реченні. Meta продемонструвала відеоприклад, де модель розпізнавала одразу гінді, телугу та англійську в одному діалозі. Цікаво, чи зможе в український суржик?

Не обійшлося й без «модерації» Meta заявила, що створила систему, яка визначає токсичні або чутливі слова при застосуванні SeamlessM4T. Вона визначатиме токсичні слова як випадки, коли «переклад може розпалювати ненависть, насильство, ненормативну лексику або образи». Начебто мета в тому, щоб визначати токсичність в перекладі, коли її немає в оригінальному тексті. SeamlessM4T також визначатиме гендерні упередження, що дає надію на правильне використання фемінітивів.

Оцініть демоверсію за посиланням. Можна надиктувати до 15 секунд і послухати переклад.

Adblock test (Why?)