Hardwareluxx > Новости > Общая информация > Технологии > Baidu: распознавание речи и улучшенный поиск с помощью Deep Learning

Baidu: распознавание речи и улучшенный поиск с помощью Deep Learning

Опубликовано: 21.03.2015 в 09:22 Андрей Шиллинг

gtc2015 Технология глубокого обучения (Deep Learning) стала лейтмотивом нынешней конференции GPU Technology Conference, она фигурировала на пленарном докладе Дженсена Хуанга и в выступлении Google. Потенциал технологии очевиден ещё одному ведущему провайдеру web-услуг – Baidu, который показал свои наработки. Впрочем, не следует забывать, что глубокое обучение зависит, с одной стороны, от проработанных алгоритмов, а с другой стороны – от доступного аппаратного обеспечения. Фаза обучения сетей Deep Learning требует существенных вычислительных мощностей, здесь как раз GPU NVIDIA играют важную роль.

Пленарный доклад Baidu на GTC 2015 — Галерея: пленарный доклад Baidu на GTC 2015.

В 2007 году были разработаны первые сети, за обработку отвечали CPU, сложность составляла до миллиона соединений. Годом позже, с появлением вычислений на GPU, сложность возросла до десяти миллионов соединений. 2012 году стал знаменательным для Deep Learning, но годом раньше Baidu провела собственные исследования в данной области, пытаясь уйти от ограничений "железа". Использование большого числа CPU позволяло создавать сеть с миллиардом соединений. Но сегодня потребности уже выше, поэтому для 2015 года можно говорить о сетях GPU, которые позволяют создавать сети Deep Learning со 100 млрд. соединений и несколькими десятками слоёв.

Baidu разрабатывает свой поисковый движок, поэтому приводит многочисленные примеры использования сетей Deep Learning. При поиске изображений анализируются не столько сами изображения, сколько их подписи, а также имя файла. Технология Deep Learning позволяет анализировать содержание изображений. Также возможно выполнение сравнений. Можно довольно легко находить похожие изображения. Поиск можно связать с соответствующим текстом или видео. Впрочем, возможности анализировать каждый кадр пока нет, и вряд ли она появится в ближайшем будущем.

Ещё один пример – распознавание речи. С помощью Deep Learning за последние годы наблюдается серьёзный процесс в распознавании речи. Если вы пользуетесь голосовым поиском на смартфоне или планшете Android, то невольно обращаетесь к базе данных, которая постоянно улучшается с помощью Deep Learning. Технология распознавания речи существенно продвинулась вперёд за последние годы, но прогресс не собирается останавливаться. Будущие возможности хорошо показаны на следующем видеоролике:

Анализ теста, голоса и фотографий сегодня являются наиболее активными сферами Deep Learning. Их также легко всего проиллюстрировать. Во всех указанных областях Deep Learning приводит к более эффективной работе систем по сравнению с человеческим мозгом. Вероятность возникновения ошибок меньше, скорость выполнения задачи выше, сегодня можно говорить уже о вычислениях в реальном времени. Андрю Нг (Andrew Ng), директор проекта Deep Learning в Baidu, не боится, что технология "отобьётся от рук". Страхи о слишком умных системах, которые могут восстать против своих создателей, беспочвенны. Но инструменты Deep Learning настолько мощные, что опасность таится не в самих системах, а в их применении. Кто владеет данными обо всех пользователях, тот владеет миром.