На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

Свежие комментарии

  • Любер Пятак
    Нельзя доверять педерастам (красавчик греч.) они всегда предадут и оболгут все святое и героическое.Дракула. Подлинна...
  • Виктор Луговой
    Ну, так и сколько же государств помещается в границах Африки? Интересный факт: в заголовке вопрос, в статье нет ответ...Сколько стран пом...
  • Виктор Карачанский
    Да новость прямо актуальная , уже давно супостаты делают 2нм😂😂Ученые придумали,...

Искусственный интеллект получит ударный курс африканских языков

Ученые из университетов Кении, Нигерии и ЮАР в рамках проекта African Next Voices записали 9000 часов речи на 18 африканских языках и создали крупнейшую базу данных для обучения искусственного интеллекта местным языкам континента.


Продавец DVD-дисков на языке хауса на рынке в Кано, северная Нигерия. Ben Curtis/AP Photo via Alamy

Собранные данные будут использоваться разработчиками для обучения и адаптации больших языковых моделей под африканские языки.

Это включает создание систем преобразования речи в текст, автоматического перевода и диалоговых систем. Технологические компании смогут улучшать существующие модели или создавать новые на основе этих локализованных наборов данных.

Более 2000 африканских языков остаются практически не представленными в эпоху искусственного интеллекта. ChatGPT, например, распознает лишь 10-20% предложений на языке хауса, на котором говорят 94 миллиона жителей Нигерии. Проблема кроется в нехватке обучающих данных для больших языковых моделей.


Исследователи принимают участие в семинаре по транскрипции записей в Технологическом университете Дедана Кимати в Ньери, Кения. В тренинге участвовали носители языков сомали, кикуйю и масаи.
African Next Voices

Исследователи из проекта African Next Voices решили исправить эту ситуацию, создав масштабную инициативу по сбору языковых данных. Они записали 9000 часов речи носителей различных африканских языков и преобразовали записи в цифровые наборы данных, готовые для использования в ИИ.

Когда ИИ заговорит с Африкой



В Кении пожилых матриархов масаи называют «мамами» в знак уважения со стороны остальных членов общины. Это подлинные хранительницы языковой памяти.
Mark Williams.
www.nationalgeographic.com/


Проект охватывает 18 языков в трех странах: Южной Африке, Кении и Нигерии. Участников просили описывать изображения, чтобы получить образцы повседневной речи. Полученные записи затем транскрибировались и переводились людьми с последующей проверкой качества.

Особое внимание уделялось созданию локализованных наборов данных для ключевых секторов развития — здравоохранения, сельского хозяйства и образования. Данные будут доступны в открытом доступе для разработчиков, создающих системы преобразования речи в текст и автоматического перевода.

Фонд Гейтса выделил на проект 2,2 миллиона долларов. Первая партия данных уже выпущена, остальные материалы по всем 18 языкам станут доступны в этом году вместе с методологией исследования для тех, кто захочет продолжить эту работу.
Читать далее →
Ссылка на первоисточник
наверх