В переводе с небесного

В 1967 г. британские астрономы Джоселин Белл и Энтони Хьюиш зафиксировали радиосигнал, повторявшийся с удивительной периодичностью. Не зная, как это объяснить, они предположили, что поймали долгожданное послание от братьев по разуму, и назвали открытый ими феномен LGM-1, то есть Little Green Men (маленькие зеленые человечки). Очень скоро Хьюиш и Белл поняли, что такие сигналы издают не человечки, а звезды особого вида – пульсары. За открытие пульсаров Хьюиш получил Нобелевскую премию, но ученые с тех пор так и не придумали, как отличить попадающее на Землю излучение естественных объектов от осмысленного послания, если его вдруг отправят.
С тех пор поиск внеземной жизни и исследования дальнего космоса продвинули многие науки к самому краю их возможностей. Астрохимики определяют состав далеких звезд по их цвету, астрофизики с карандашом в руках изучают окрестности черных дыр, астробиологи строят гипотезы, какие формы жизни могут быть во Вселенной. Теперь ученые заговорили об астролингвистике и ставят перед собой вовсе фантастическую задачу: понять инопланетян. Недавно в Париже на конференции по поиску внеземной жизни Джон Эллиотт из британского Университета Лидс Метрополитен представил компьютерную программу, позволяющую проверять космические сигналы на осмысленность. С помощью математических методов программа анализирует сигнал и пытается установить, язык это (пусть даже совершенно неизвестный) или что-то еще.
«На таком уровне этими проблемами, наверное, занимаюсь только я, – отвечает Эллиотт на вопрос о единомышленниках. – А ведь это одна из самых сложных задач, стоящих перед человечеством». Искателю-одиночке приходится исследовать самые разные вещи: от коммуникационных способностей дельфинов до нерасшифрованных древних надписей. «А вам, кстати, большое спасибо за материалы по русскому языку», – благодарит он за ссылку на русские тексты (так называемый Национальный корпус русского языка), которой его снабдил корреспондент Newsweek.
Самый простой для анализа случай, говорит исследователь, если сигнал будет передан с помощью радиоволн (самый надежный и простой канал) и будет представлять собой последовательность единиц и нулей – двоичный код, используемый в компьютерах. Эллиотт предлагает первым делом проверить, насколько сильно эту последовательность можно сжать при помощи программы-архиватора: текст на человеческом языке, по мнению ученого, сжимается примерно вдвое. Смысл в том, что неупорядоченный шум будет архивироваться гораздо хуже, чем человеческий язык. Архивация возможна только благодаря повторяемости: длинные одинаковые последовательности при сжатии заменяются более короткими.
«Это не очень точный метод», – считает профессор Ольга Кукушкина из Лаборатории общей и компьютерной лексикологии и лексикографии МГУ. Повторяемость встречается и в природе. Например, шум прибоя. «Да и процент сжатия сообщений на человеческом языке может разниться», – говорит Кукушкина. По степени сжатия пытаются даже определять авторство: у разных авторов она разная, потому что одни больше склонны к повторам, а другие меньше.
Если сообщение прошло проверку архивацией – сжимается так, как должен сжиматься осмысленный текст, – необходимо будет решить еще одну задачу: определить минимальную единицу, с которой нужно работать. То есть выделить в этом сообщении буквы. Скорее всего каждая буква будет зашифрована последовательностью из нескольких бит. По крайней мере так устроено на Земле: символы (буквы) кодируются разными комбинациями нулей и единиц. Земляне за чрезвычайно короткое в масштабах Вселенной время успели сменить не так мало стандартов: например, в распространенной кодировке ANSI на один знак выделяется 8 бит, а в кодировке Unicode – 16 бит.
Если мы правильно разобьем текст на символы, то одни знаки будут повторяться часто, другие – реже. Например, если закодировать текст на русском языке, то последовательность бит, соответствующая букве «А», будет встречаться гораздо чаще, чем та, что соответствует букве «Ъ». Если же мы не угадаем с длиной одного символа, то все последовательности окажутся практически случайными, так как не будут соответствовать никаким буквам. Встречаться они тогда будут примерно одинаковое число раз.
В теории информации есть способ, который позволяет, рассчитав так называемую частотность знаков (как часто они встречаются), определить уровень энтропии. Энтропия – мера случайности: она максимальна, когда все знаки встречаются с одинаковой частотой. Если же частотность у знаков разная, то энтропия уменьшается. Таким образом, если длина символа выбрана правильно, то энтропия должна оказаться меньше, ведь символы в естественном языке встречаются с разной частотой. Минимум на графике энтропии может свидетельствовать о том, что мы наткнулись на осмысленное сообщение и правильно разделили его на символы.
Эти выводы подтвердились, когда Эллиотт попробовал применить свой метод к английскому тексту в 7-битной кодировке (то есть такой, где каждой букве соответствует 7 бит, например 101 1000 – буква X) и к китайскому – в 14-битной кодировке. Представьте, что английский язык – инопланетный и вам нужно сначала понять, язык это или нет. Вы попытаетесь определить длину символа – в битах. И раз речь идет о 7-битной кодировке, вы увидите: при длине символа кратной семи энтропия начинает падать. Это значит, что перед вами не бессмысленная мешанина из нулей и единиц, а некий текст, состоящий из символов.
Эллиотт увидел, что в английском языке минимумы энтропии встречаются при длине символа 7, 14 и 21. Это соответствует одно-, двух- и трехбуквенным сочетаниям. Они все, разумеется, не случайны и имеют разную частоту встречаемости (the заметно чаще, чем, скажем, thh). Важно, что та же методика, если ее применить, например, к графическому файлу, а не к тексту, дает гладкий график без минимумов.
Разделив сообщение, гипотетически полученное из космоса, на символы, Эллиотт предлагает считать, что самый часто встречающийся символ – это пробел. Тогда в тексте можно будет выделить слова. «Вот это странно. Никто не обещает нам, что в инопланетном тексте будет разделение на слова», – скептически замечает болгарский лингвист Иван Держанский.
Если считать, что все же удалось выделить в непонятном сообщении слова, то нужно посмотреть на их длину. В языке действует принцип экономии усилий: говорящий всегда ленив и старается потратить как можно меньше усилий (но хочет, чтобы собеседник его понимал). Поэтому короткие слова встречаются в тексте довольно часто, чуть более длинные слова – еще чаще, но дальше с увеличением длины слова частотность начинает падать. Если длина слов в сообщении, которое люди надеются получить из космоса, будет распределена так же, то можно заключить, что мы имеем дело с естественным языком.
Эллиотт предлагает также и методы для анализа звуковых сообщений. Чтобы разработать теоретическую базу для общения с инопланетянами, он сравнивает язык людей с системами коммуникации, которыми пользуются дельфины и птицы. «Мне нравится эта идея. Нужно получить представление о том, каким бывает языкообразное общение на основе не только человеческой речи, но и “речи” дельфинов и певчих птиц, – говорит Иван Держанский. – А потом сравнить это представление с другими неслучайными сообщениями, например с музыкой, отмечая на сей раз не общее, а различное». Вот только выборка человеческих языков, по мнению Держанского, у британского исследователя пока маловата, да и вообще при чтении его работ ощущается нехватка лингвистической подготовки.
Сам Эллиотт утверждает, что нередко общается с традиционными лингвистами и они обычно находят его работу интересной. «У нас часто возникают плодотворные дискуссии, – говорит он. – Я подхожу к языку как бы со стороны полного невежества. Делаю шаг назад – и смотрю на язык “наивным” взглядом, отказываюсь от всех знаний и предположений – и пытаюсь “с нуля” понять его структуру». Для этого он также изучает древнюю письменность и сейчас планирует заняться расшифровкой надписей с печатей из долины Инда.
В дешифровке древних письменностей уже достигнуты серьезные успехи, но оптимизма по поводу внеземных языков у коллег Эллиотта гораздо меньше – разве что сами инопланетяне захотят нам помочь. «Если мы получим сигнал из других миров случайно, например, что-то вроде инопланетного телевидения, которое неожиданно дойдет до нас, то у нас будет немного шансов его понять, – говорит Дэн Вертимер, астроном из Беркли. – Но если придет сигнал, адресованный именно нам, то такое сообщение, может быть, осилим». «Возможно, тогда нам и пригодятся исследования Эллиотта», – добавляет Сет Шостак, главный астроном Института SETI (Search for Extra-Terrestrial Intelligence – Поиск внеземного разума) в Калифорнии.
Какова вероятность того, что это произойдет? Шотландский астроном Дункан Форган в статье, которая скоро выйдет в журнале International Journal of Astrobiology, пытается оценить количество разумных цивилизаций в Галактике и приходит к выводу, что их может быть от 361,20 до 37964,97 (именно с сотыми долями, несмотря на большой разброс между минимальной и максимальной оценкой). Это продолжение и уточнение исследований известного астронома Фрэнка Дрейка, который полвека назад предложил формулу, позволяющую оценить количество разумных цивилизаций в нашей Галактике. Но даже если таких цивилизаций 1,00, то работа Эллиотта не бессмысленна.

Рейтинг
( Пока оценок нет )
webnewsite.ru / автор статьи
Загрузка ...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: