Неспециализированным местом в любом популярном тексте по кибернетике и ее большому потомству было то, что подавляющую часть обрабатываемой мозгом информации человек приобретает через зрение. Это вправду так… Но вот какое дело – человеком разумным узконосых мартышек делает более узкий информационный канал, в частности – речевой. Именно он снабжает возможность экстракорпорального, внетелесного хранения информации.
Сперва та информация, которой не обладал конкретный индивидуум хранилась в организмах вторых участников своры гоминид. Так осуществлялась передача самых первых баз культуры в свор, от поколения к поколению… Весьма интересно наблюдать на эволюцию письменности. Как она происходила в действительности мы, вероятнее, не определим ни при каких обстоятельствах, но, вероятнее, она шла от самобытных и своехарактерных картин к более-менее общепонятным пиктограммам. К картинам, каковые преобразовывались в знак, отмечающий наиболее значимые черты объекта.
Ну, в том месте, крутой поворот либо кидающихся под колеса детей. Нарисован – человек, значит человек. (Говорят, у людоедов некогда пользовалась популярностью ветчина с полуодетой девушкой на этикетке, а примитивные англосаксонские варвары отвергали красивые советские карамельки «Раковая шейка» с картиной рака на обертке, что говорит о примитивизме их мышления…) А вот позже начали появляться символы более сложного значения, так именуемые идеограммы.
Идеограмма – это рисунок, означающий определенную идею. Ну, к примеру, ноги обозначают не только эту часть тела, но и понятие «ходить», в противном случае и перемещение по большому счету. Объединяясь во все более и более сложные конструкции, иерограммы порождают иероглифические совокупности письменности. Но в них уже появляются символы для обозначения звуков, слогов, слов… И в итоге все приходит к алфавитной письменности – именно она употребляется единственной культурой – европейской, иудео-христианской – которая породила единственную известную нам технологическую цивилизацию.
Так что дело создания неестественных разумных существ пребывает в том, дабы обеспечить распознавание не столько визуальных образов (это потребуется неестественным животным – пускай кроме того мы будем возлагать на них человеческие ремесла грузчика и водителя), но людской речи, именуемой еще речью на естественных языках. Освоит это дело машина – возможно будет сказать о полноценном неестественном интеллекте…
И вот в эту отрасль на данный момент интенсивно попадают разработке глубокого обучения, используемые к обработке громадных данных лингвистической информации. На каковых громадных данных нейросети и осваивают общение на естественных языках. Вот весьма увлекательная работа группы исследователей из известной коллаборации Гугл Brain, специализирующейся на глубоком обучении – Exploring the Limits of Language Modeling. «Расширение пределов языка моделирования» имело собственной целью понижение возможности для того чтобы явления, как perplexity. В этом случае – это растерянность компьютера, не опытного, какое значение слова выбрать из словаря.
Неприятности, каковые это породит для машинного разума были известны весьма в далеком прошлом. Их вводили кроме того в сказки. Вот, скажем, «Тайна закинутого замка» Александра Волкова, где в Чудесную страну – страна Оз из сказок Ф.Баума в девичестве – попадали завоеватели из второй звездной совокупности (в СССР также писали фэнтези, но лишь не знали, что это фэнтези…). И вот в том месте у генерала-завоевателя появлялись неприятности с данной самой perplexity, в то время, когда он пробовал поболтать с подлежащими завоеванию обитателями Чудесной страны посредством компьютерного лингвиста:
Лишь удивление помогло генералу снести эту неслыханную наглость. Он так и блистал глазами на ни в чем не повинного Жевуна:
– Запомни , – быстро увидел он, – что с генералом так не подобает сказать.
Крайнее удивление отразилось на лице беллиорца.
– Я готов отрубить себе шнобель, но не могу осознать, при чём тут генерал и какая вам от этого польза? – пролепетал он.
– Что ты мелешь, болтушка? – завопил, не выдержав, Баан-Ну.
Жевун совсем перепугался.
– Если бы я был мельницей, я молол бы муку. А вдруг я болтушка, то яичницу-болтунью жарят на сковороде. Про что вы меня задаёте вопросы? Я вижу, вы злитесь. Я ничем не желаю вас обидеть. Но отдавайте мне понятные приказания, в противном случае я не знаю, что мне делать, – негромко молвил он и покорно и преданно посмотрел в течении-Ну.
– Мон-Со, – рявкнул генерал очень громко, – где вы забрали данный бронзовый лоб?
Времени с первой половины семидесятых, в то время, когда Александр Волков – по профессии учитель высшей математики – писал собственную сказку прошло весьма и довольно много. Но вот совокупности автоматического перевода все еще склонны к растерянности в куда большей степени, чем хотелось бы. И обстоятельство этого – в семантической неоднозначности естественных языков. Отмечено это было еще до эры машинного перевода, и кроме этого отображено в детских книжках. Вот «Экипаж «Меконга»» Евгения Войскунского и Исая Лукодьянова:
Валя подсела к инженерам:
— Что вы тут бормочете? Дайте-ка я вам переведу, любители несчастные.
— Хорошо, — с готовностью дал согласие Юра. — Лишь вначале самую малость удостоверимся в надежности тебя. — Он перелистал пара страниц и ткнул пальцем в одну из фраз: — Переведи вот это, к примеру.
— «Naked conductor runs under the carriage», — прочла Валя в этот самый момент же перевела: — «Обнажённый кондуктор бежит под вагоном…» Неприлично и довольно глупо!
Инженеры так и покатились со хохоту.
— Послушай, как необходимо верно, — сообщил Юра, отсмеявшись: — «Неизолированный провод проходит под тележкой крана». Американский технический язык — это тебе, Валечка, не британский литературный. Тут навык нужен…
Тут на эту самую perplexity попадается протеиновый филолог Валечка… Действительно, массе народа, каковые колесят по миру без всякого знания зарубежных языков, с одними только гаджетами, в которых имеется тот либо другой, в большинстве случаев от Гугл переводчик, эта «растерянность» не мешает совсем, они смогут объясниться с английским портье и парижским официантом, а также перевести венецианскую вывеску. (Не смотря на то, что, скажем честно, для общения на таком уровне хватило б и пиктограмм…) Но вот саму Гугл таковой уровень неточностей не устраивает.
Convolutional Neural Networks она же Long-Short Term Memory воображает текст так. Причем, как и в картинах, распознаются новые…
и котики, базирующиеся на глубоком обучении разработки коллаборации Гугл Brain разрешают данный самый уровень неточностей заметно снизить, фактически двукратно. Причем объединение нескольких моделей разрешает существенно повысить достоверность распознавания текста на выходе. И проверен новый метод на комплекте данных в миллиард слов.
И вот тут – самое занимательное. Да, пока совокупность распознавания делает приблизительно такие же неточности, как семиклассник, переводящий The Golden Rule как «золотую линейку». Ну, что сделать – знает он о существовании линеек и золота, и может представить линейку, сделанную из золота. А вот о добром рабби Гиллеле и Золотом правиле этики ему лишь предстоит определить… Но дети-то они – обучаются. А автомобили, благодаря глубокому обучению, обучаются весьма скоро.
Сегодняшняя нейросеть-переводчик уступает умелому переводчику протеиновому. Но лишь протеиновый переводчик поучился в школе-университете, постажировался в конкретной языковой среде – и все… А ИскИн-то будет обучаться непрерывно. Сперва посредством команды «преподавателей». Позже – самостоятельно. К примеру, сканируя соцсети, и овладевая живым жаргоном трейдеров Уолл-стрита, речью и бормотаньем учёных весёлых альтернативно-одаренных детей третьего мира. И все, что выучит один ИскИн, станет дешёвым всей экосистеме ИскИнов данной компании (кроме того не нужно будет составлять словари – возможно участки нейросети…) И это – неизбежно!