Продолжение поста https://vk.com/wall14829515_248:
= Переписка на форуме
== Параллельные корпуса
=== Мария Бажатарник
Здравствуйте, уважаемые слушатели!
Все комментарии и вопросы, касающиеся материалов недели 10, пожалуйста, пишите в эту ветку. Мы постараемся максимально быстро на них ответить.
С уважением,
Команда курса
=== Александр Якушев
Здравствуйте! У меня есть вопрос относительно будущего (быть может, уже настоящего) корпусной лингвистики. Используются ли корпусные методы для расшифровки различных видов древней письменности? Например, можно было бы создавать параллельные корпусы исследуемой письменности и его расшифрованных соседей того же времени, и далее, на основе частотности и других признаков, попытаться расшифровать исследуемую письменность. Проводятся ли такие исследования? И вообще возможны ли они?
=== Мария Бажатарник
Здравствуйте. Вы совершенно правы: методы машинного анализа, и правда, удобно использовать при расшифровке текстов. В то же время создать параллельные корпуса в этом случае невозможно: параллельный корпус предполагает выравнивание, а установление соответствия оказывается невозможным, если один из двух текстов непонятен.
=== Кирилл Булыгин
Мария, не совсем верно, что установление соответствия невозможно, если текст непонятен: современные системы статистического машинного перевода (например, открытая в плане исходного кода система Moses и закрытые Google Translate и Яндекс.Перевод) как раз основаны на автоматическом уточнении выравнивания текстов без учёта их семантики. Например, в систему Moses можно загрузить текстовые файлы на разных языках, выровненные по предложениям (и с пробелами между токенами внутри предложений), и получить выравнивание по словам: используется не словарная информация и т.п. (можно даже не говорить системе, какие языки используются), а оценка вероятности того, что:
- слово в одном языке соответствует слову в другом (чтобы перевод был точен);
- слово в языке может идти вслед за определёнными другими словами (чтобы перевод звучал естественно).
Пусть есть такой минимальный корпус:
- I like milk. — Мне нравится молоко.
- I drink milk. — Я пью молоко.
- I like tea. — Мне нравится чай.
Здесь оба языка могут быть неизвестны, однако это не мешает вычислить соответствия между словами и определить перевод для предложения "I drink tea". На таком сопоставлении основаны, кстати, многие задания на лингвистических олимпиадах (пример: http://www.ioling.org/booklets/iol-2003-indiv-prob.ru.pdf). Реальные корпуса отличаются тем, что в них соответствиям приписываются вероятности.
Выравнивание по предложениям тоже можно примерно вычислить исходя из того, что длинным предложениям соответствуют длинные переводы и наоборот, см. https://en.wikipedia.org/wiki/Gale%E2%80%93Church_alignment_algorithm. (Ради полноты можно упомянуть, что однажды мне встретилась и реализация подхода с выравниванием через словари: Андрей Поминов, автор словарной системы Мультитран, около 2007 г. выпустил тестовую версию программы для выравнивания текстов по предложениям, а также получившийся параллельный корпус, см. https://www.multitran.ru/c/m.exe?a=DisplayFile&s=parasent_expl.htm. Но всё-таки такой словарный подход, насколько знаю, сейчас почти не используется: вероятно, из-за того, что при больших корпусах словарная информация и так в основном извлекается из текстов, и оказывается невыгодно платить за немного большую точность задержками на поиск в словарях.)
Так что корпусные методы (к которым методы статистического перевода относятся, т.к. направлены и на составление, и на использование корпусов) для расшифровки корпусов вроде Розеттского камня определённо помогли бы. Но с до сих пор не расшифрованными письменностями (которые частично перечислены на https://en.wikipedia.org/wiki/Undeciphered_writing_systems) главная проблема, похоже, в том, что сопоставлять тексты на них не с чем.
Действительно, если у нас есть только набор предложений "I like milk", "I drink milk", "I like tea" на неизвестном языке, то трудно определить, что такое "milk". Хотя и здесь можно предположить (исходя из сведений об уже известных человеческих языках), что на первом месте стоит подлежащее (а не сказуемое или дополнение), что частотное слово "I" является служебным словом или местоимением и т.п. В таких случаях можно, например, сопоставлять списки частотности для известных и неизвестных языков, что к корпусным методам тоже относится.
Но, конечно, при ограниченных языковых данных большую роль играют сведения об особенностях жизни народа, о том, кем и с какой целью могли быть написаны предложения и т.п. Думаю, к до сих пор не расшифрованным письменностям относятся в основном такие, для которых и лингвистических, и экстралингвистических данных пока слишком мало (нужны ещё раскопки и другой сбор материала), и здесь уже вряд ли дальнейшее развитие корпусных методов значительно поможет.
=== Александр Якушев
Спасибо, Мария! И огромное спасибо, Кирилл! Очень интересный материал для изучения добавили!
== Использование корпуса в суде
=== Кирилл Булыгин
Случайно нашёл пример того, как можно использовать корпусную лингвистику для доказательства в суде. Конечно, это случай не такой драматичный, как, например, дело Дерека Бентли 1952 г. (кратко: там посчитали, что слова "Let him have it", обращённые к сообщнику, являлись призывом выстрелить в полицейского, а не призывом сдать оружие, и на основании этого смогли приговорить сказавшего к смертной казни), но зато здешний и недавний.
Идентификатор дела: "АРБИТРАЖНЫЙ СУД ГОРОДА МОСКВЫ, дело No А40-224312/17-91-1916, 06 апреля 2018 года". Ссылка на решение: http://kad.arbitr.ru/PdfDocument/61989342-5071-43cd-b56a-c5141327f2e4/6013e1c6-623a-4a80-a489-35c978dc7218/%D0%9040-224312-2017__20180406.pdf?download=True. Найдено через http://ras.arbitr.ru/.
Суть: налоговая через суд потребовала от фирмы "АКВАРОС" изменить название, т.к. оно содержит сокращение от слова "Россия", на что нужно специальное разрешение. А лингвист-эксперт опроверг это так (выделение моё):
> для определения значения буквосочетания «РОС» и возможности его
> интерпретации как сокращения от слов «Российский», «Россия» в
> искусственно созданном слове «АКВАРОС» был произведен **анализ данных
> корпуса письменных источников современного русского языка**. Обработка
> данных **Национального корпуса русского языка** по аббревиатурам с
> буквосочетанием РОС показала, что буквосочетание РОС как усеченная
> основа слов Российский, Россия типично и продуктивно в качестве
> начального компонента Рос- (РОС-) при образовании аббревиатур. Это
> отражает лингвистическую закономерность: буквенное сочетание «РОС»,
> находящееся в сильной позиции начала слова, часто является сокращением
> от слова «Российский», так как имя прилагательное по правилам русской
> грамматики предшествует определяемому существительному (типичность и
> продуктивность данной модели номинации подтверждают примеры,
> пародирующие такую номинацию: Рос-чёто-там, Рос-чего-то-там-надзора).
>
> **Однако конечный компонент - Рос (-РОС) в качестве усеченной основы
> слов Российский, Россия является непродуктивным** (2 названия), причем
> выделение данного компонента и наделение его значением обусловлено
> разделительным знаком.
>
> В связи со значимостью графического (графемного) оформления
> буквосочетания «РОС» в составе слов, был произведен графемный анализ
> собственно наименования «АКВАРОС». **Для сопоставления графемного
> оформления наименования ООО «АКВАРОС» с другими фирменными
> наименованиями была использована база данных ЕГРЮЛ.**
>
> Словесное обозначение «АКВАРОС» выполнено прописными буквами русского
> (кириллического) алфавита и заключено в кавычки (что графически
> отражает статус имени собственного, онима).
>
> Словесное обозначение «АКВАРОС» не содержит оснований для графемного
> членения наименования, выделяющего буквосочетание «РОС», как-то:
> разделение слова дефисом (ср. ООО «РОС-ТЕК», «ЭЛЕГИЯ-РОС»,
> «РОС-ГИГИЕНА», ООО «РОС- НТ», ООО «ЮГ-РОС-ТОРГ», ООО «РОС-АГРО», ООО
> «ИН-РОС», РОС-ТЭКС, ООО «ОСФАРМА-РОС», ООО «ЭККО-РОС», ООО «ЛПМ-РОС»),
> точкой, запятой или каким-либо пунктуационным знаком (ср. ООО
> «РОС.ПЕК», ООО «РОС.-С.+»), разделение наименования пробелом (ср. ООО
> «Строительная компания «ИНТЕР РОС», ООО «БЕЛ РОС», ООО «КЛАССИК РОС»,
> ООО «РОС СТРОЙ»), написание части слова с прописной буквы, чередование
> прописных и строчных букв (ср. РОСпоставка). **Буквенное словосочетание
> «РОС» в наименовании «АКВАРОС» находится в слабой позиции конца слова
> и выполняет роль словообразующего суффиксоида**, графически не
> выделяется внутри названия.
>
> Таким образом, специалистом сделан вывод об отсутствии лингвистических
> оснований считать буквосочетание «РОС» в наименовании «АКВАРОС»
> сокращением от слов «Российский», «Россия».
>
> Суд приходит к выводу, что представленное экспертное заключение
> **приводит исчерпывающие доказательства** полного соответствия
> наименования ООО «АКВАРОС» требованиям действующего законодательства.
> В фирменное наименование ООО «АКВАРОС» не включены слова Российская
> Федерация или Россия, а также слова, производные от этого
> наименования, в связи с чем отсутствует необходимость получения
> разрешения, выдаваемого в порядке, установленном Правительством
> Российской Федерации.
Да уж, знание корпусной лингвистики — сила 😊.
Жаль, из-за многозначности слова "корпус" найти ещё такие дела на http://ras.arbitr.ru/ непросто.
А какие случаи знаете вы?
=== Мария Бажатарник
Большое спасибо за интересный и, главное, актуальный пример! К слову, разговору о корпусных методах в юриспруденции будет посвящена значительная часть последней лекции нашего курса.