 Ученые приспособили поисковый сервис Гугл для проведения масштабных лингвистических исследовательских работ. С его помощью спецы, используя 5 миллионов отсканированных книжек, смогли проследить эволюцию языка в последние 200 лет. До сего времени у языковедов не было инструмента, с помощью которого можно было бы проанализировать существенное количество текстов. Создатели нового исследования работали с книжками, которые были переведены в цифровой формат к истинному моменту - всего их насчитывается около 15 миллионов. Ученые избрали из их третья часть текстов (5,2 миллиона книжек, написанных на британском, французском, испанском, германском, китайском и российском языках) и составили базу всех использованных в их слов - их вышло около 500 млрд. Базу слов Ngrams можно отыскать тут - поиск по словам осуществляется на базе алгоритмов Гугл. Проанализировав приобретенные данные, создатели смогли сделать огромное количество различных выводов. А именно, они установили, что за последние 100 лет число нередко применяемых слов возросло в два раза - если в 1900 году использовалось около 544 тыщ слов, то в 2000 году эта цифра возросла до 1-го миллиона, при этом 52 процента новых слов стало интенсивно употребляться после 1950-х годов. Не считая того, спецы исследовали, как сказывалась на использовании тех либо других слов цензура. Ученые установили, что после 1989 года словосочетание "площадь Тяньаньмень" фактически не стало встречаться в литературе, изданной в Китае. То же самое вышло с именованием Лев Троцкий в СССР в 1940-е годы и с именами голливудских актеров, уличенных в связях с Русским Союзом в США. Создатели и их коллеги считают, что новый инструмент дозволит ученым изучить слова и лингвистические тенденции, используя те же подходы и способы, что и спецы по естественным наукам.
|