Читомо > Новини > Розпочалася розробка кримськотатарського онлайн-перекладача

Новини

Розпочалася розробка кримськотатарського онлайн-перекладача

22.03.2018 0 Автор:

Ініціативна група на чолі з ялтинцем Павлом Башинським взялася за розробку онлайн-перекладача на кримськотатарську мову з будь-якої мови світу і навпаки. Про це повідомляє сайт Crimean Tatars.

Зазначається, що творці сервісу потребують допомоги.

Зокрема, необхідно оцифрувати безліч книжок, перевірити орфографію і додати відсутні переклади.

Наразі відскановано понад 100 книжок із синхронними перекладами кримськотатарською мовою.

Як розповів в ексклюзивному коментарі Читомо Павло, ідея створення перекладача виникла ще у 2014 році, коли йому потрібно було перекласти кримськотатарською кілька речень.

«Я звернувся до свого знайомого, кримського татарина. Коли він мені допоміг, я його запитав, чи є автоматичний перекладач. Він відповів, що є багато різних словників, але автоматичного перекладача не існує. Це дуже здивувало, бо на той час вже можливо було перекладати навіть ельфійською мовою», – пригадує він.

Тоді активіст звернувся до знайомих, які займаються створенням online-перекладачів. Вони розповіли, що саме потрібно, щоб створити перекладач кримськотатарської мови.

«Мова йде про машинний переклад. Наприклад, можна створити перекладач на основі словників та граматики різних мов, але це довго, дорого та неефективно. Або показати машині багато паралельних текстів — таких, де одне і те саме написано різними мовами. Порівнюючи ці тексти, машина навчиться знаходити відповідності. Наприклад, зрозуміє, що слова «k?pek» і «собака» є ймовірними перекладами один одного. В основі такого перекладу лежать не правила, а статистика, тому він називається статистичним. Перекладачі, які є в інтернеті у відкритому доступі, саме такі», – пояснив він.

Однак проблема в тому, що матеріали кримськотатарською практично відсутні в інтернеті. А для створення автоматичного перекладача потрібні сотні тисяч документів з синхронними перекладами кримськотатарською та будь-якою іншою мовою.

Тому для створення автоматичного перекладача, потрібно пройти такі етапи:

  • Знайти і відсканувати книжки як найоб’ємніше джерело матеріалу з існуючими перекладами. На сьогодні відскановано майже все, що можна було знайти й отримати на руки.
  • Оцифрувати відскановане: зображення перевести в комп’ютерний текст.
  • Знайти відсутні переклади до цих текстів. У більшості випадків їх можна знайти в інтернеті.
  • Доробити на основі цього матеріалу автоматичну перевірку орфографії. Ця робота вже почалася.
  • Перевірити орфографію всього матеріалу кримськотатарською (для синхронних перекладів українською та російською, орфографія перевіряється автоматично при публікації матеріалу в репозиторій). Важливо якомога більше уникнути ручної праці. Тому цю перевірку робитиме машина. А вже людина перевірить, що машина запропонує виправити.
  • Синхронізувати переклади між собою.
  • Зробити першу версію online-перекладача, використавши технології машинного навчання.
  • Покращувати переклад, використовуючи перекладач.

Найважчий і найдовший процес, за словами Башинського – оцифрування відсканованого матеріалу. Адже воно потребує багато людського часу. Тому команда шукає допомоги від небайдужих громадян.

Потрібні люди, які вміють використовувати ABBYY FineReader. Матеріал з відсканованими книжками є у відкритому доступі.

Що необхідно зробити:

  • Завантажити книжку в форматі PDF.
  • Відкрити її у FineReader.
  • Запустити процес розпізнавання.
  • По закінченню перевірити, щоб весь текст був розпізнаний – без пропусків абзаців чи сторінок.
  • Зберегти результат як звичайний текст і відправити його Павлові.

Проект кримськотатарського перекладача відкритий, тому весь матеріал зберігається у відкритому доступі. В результаті має з’явитися не лише відкритий online-перекладач, а й сервіс автоматичної перевірки орфографії, покращений транслітератор і, може, ще щось на основі зібраного матеріалу.

Охочі долучитися до проекту можуть звертатися у Facebook-групу Q?r?mtatar tili чи до Павла особисто.

Читайте також: Абетка про Крим від молодих українських ілюстраторів

Чільне зображення: brazil.mfa.gov.ua

Поделиться в facebook'е Поделиться вконтакте Поделиться в twitter'е

Щоб залишити свій коментар, будь ласка, увійдіть через аккаунт Vkontakte чи Facebook

Соцмережi
artarsenal bookforum publish messe