Ниже некоторые тексты, написанные мной при прохождении курса "Введение в корпусную лингвистику" (https://openedu.ru/course/hse/CORPUS/) весной 2018 г. Выкладываю их, чтобы сослаться сюда из одного поста.
= Неделя 4: Виды корпусов
== Задание
Создатели НКРЯ на сайте корпуса пишут: «Следует учитывать, что не всё, что может показаться неподготовленному пользователю ошибкой Корпуса, в действительности ей является». Опишите три гипотетические ситуации, в которых «ошибки», найденные неподготовленным пользователем в тексте, не надо исправлять.
Найдите в устном, параллельном или мультимедийном подкорпусе НКРЯ один пример такой «ошибки».
== Эссе
Некоторые типы "ошибок":
1. Может использоваться написание, являющееся нестандартным для современного языка. Например, в Полном собрания сочинений Л.Н. Толстого (изданном в 1928-1958 гг.) отражены как особенности орфографии Толстого (см. http://tolstoy.ru/online/90/04/#h000008; например, встречается написание "этаго" и "этого"), так и особенности орфографии в период издания этого собрания сочинений (пример: написание "итти", судя по толковому словарю Ушакова 1935-40 гг., являлось предпочтительным для 1935 г., которым датирован первый том Полного собрания сочинений, в результате чего в этом томе написание "идти" у Толстого исправлено на "итти", см. http://tolstoy.ru/online/90/01/). Если такие случаи соответствуют соглашениям, приведённым в описании соответствующего корпуса, то их "исправление" будет некорректным.
2. В качестве возможных жестовых признаков и т.п. могут предлагаться к поиску и такие, которых ещё нет в базе. "Исправление" в виде скрытия этих признаков может быть излишним. Например, на странице http://www.ruscorpora.ru/search-murco.html при указании в поле "Пол персонажа" значения "неизвестен | мужчина, играющий женщину | женщина, играющая мужчину | мужчина, притворяющийся женщиной | женщина, притворяющаяся мужчиной" (т.е. все опции, которые можно выбрать, кроме "мужской" и "женский") выдаётся ноль совпадений, однако и пустая поисковая выдача несёт информацию о том, что есть в корпусе. (Конечно, можно бы было уточнить формулировки, связанные с полем "Пол персонажа" в категории "Жесты", но это уже другой вопрос.)
3. При поиске английского слова в русско-английском параллельном корпусе это слово ищется и в русской части, что может быть неожиданным. Например, при поиске слова "energy" (http://search1.ruscorpora.ru/search.xml?mycorp=%28lang%3A%22eng%22+%7C+lang_trans%3A%22eng%22%29&mysent=&mysize=24681277&mysentsize=1608376&dpp=&spp=&spd=&text=lexform&mode=para&sort=gr_tagging&env=alpha&req=energy) встречается фрагмент "у компании GE Energy (США)". "Исправление" в виде ограничения области поиска (без соответствующего примечания в форме поиска) нежелательно.
= Неделя 5: Поиск информации в корпусе
== Задание
Описывая работу пользователя в лингвистическом корпусе, многие лингвисты употребляют латинское выражение caveat emptor, которое дословно переводится как «покупатель должен остерегаться». Чего именно должен «остерегаться» пользователь лингвистического корпуса? Подтвердите свою мысль двумя примерами из НКРЯ.
== Эссе
Принцип "caveat emptor" в данном случае означает, что пользователь корпуса как сервиса должен проверять работу сервиса на соответствие своим потребностям.
В частности, следует проверять по поисковой выдаче, что "формальный" запрос соответствует "лингвистическому" намеренью поиска. Например, в справке к полю "Слово" формы поиска в основном корпусе НКРЯ приводится следующий пример: "Так, запрос *вед -швед найдет все лексемы, заканчивающиеся на вед (языковед, искусствовед...), но не швед". Однако это не означает, что найдутся только двуосновные слова со второй основой "вед", как могут предполагать некоторые пользователи. В частности, запросу соответствует слова "веды", "медвед", "полушвед" и т.п. Для обнаружения таких случаев можно, например, выбрать в настройках выдачи "Упорядочить: по дате создания", "Формат выдачи: KWIC", "Показывать: 50 документов на странице, 50 примеров в документе" и затем посмотреть таблицу лемм в конце каждой из нескольких страниц выдачи.
Кроме того, иногда поисковые возможности документируются не вполне точно, и поведение нужно проверять самостоятельно. Причём если не объясняются некоторые возможности, то это может считаться не ошибкой документации, а лишь умолчанием о "нестандартных" возможностях, в результате чего пробел в документации может сохраняться долгое время. Например, в справке к вышеупомянутому полю "Слово" упоминается также "символ *, обозначающий любую последовательность символов в начале или конце лексемы или словоформы". Однако на практике этот символ может использоваться и в середине слова (пример: запросу "а*ц" соответствуют слова "авианосец" и т.п.). Также этот символ может соответствовать пустой последовательности символов. Но символ "*" не может встречаться больше одного раза, даже если он находится лишь в начале и в конце слова (пример: "*а*").
Таким образом, можно оказаться полезным составление собственной инструкции по использованию корпуса с перечислением особенностей корпуса, имеющих отношение к текущему исследованию: "продавец" всё равно не сможет перечислить все особенности своего "товара" для всех возможных случаев использования.
= Неделя 9: Корпусное преподавание
== Задание
Покажите, каким образом на базе НКРЯ можно составить упражнение для освоения лексики определенного типа. Ваш ответ должен соответствовать следующей схеме:
1. Обозначение и обоснование выбора типа лексики.
2. Описание подкорпуса, в котором будет вестись поиск контекстов.
3. Описание типа упражнения.
4. Демонстрация контекстов (не менее 5) до и после редактуры.
5. Итоговый результат: текст задания с контекстами.
== Эссе
1. Тип лексики и обоснование.
1.1. Тип лексики: слова, для которых при переводе с английского языка на русский нередко используются англицизмы, т.е. ложные друзья переводчика, а также слова, для которых в русском языке уже есть фонетические эквиваленты (полные или частичные; кратко будем называть такие эквиваленты транскрипциями), но есть и более устоявшиеся слова. Например: слово "realize" могут переводить как "реализовывать", и иногда это является ошибочным, иногда лишь неестественным переводом.
1.2. Обоснование: упражнения на лексику такого типа могут быть полезны при подготовке переводчиков с английского языка на русский, особенно в связи с тенденцией использовать при переводе транскрипции отдельных английских слов (что может увеличить точность перевода, но при этом уменьшить его естественность, а также понятность для тех, кто знает лишь русский язык).
2. Описание подкорпуса:
- подкорпус параллельного корпуса в составе НКРЯ (http://ruscorpora.ru/search-para-en.html; описание по состоянию на 2005 г.: http://ruscorpora.ru/sbornik2005/17dobrovolsky.pdf);
- язык оригинала: английский;
- язык перевода: русский;
- дата перевода: до 1990 г. (т.е. предположительно до появления вышеуказанной тенденции).
3. Тип упражнений: каждое упражнение включает английский контекст слова в таком значении, что иногда используется транскрипция этого слова при переводе, а также соответствующий русский контекст из параллельного подкорпуса (в котором слово передано не транскрипцией).
4. Демонстрация контекстов. (Примечание: слова подбираются путём просмотра списка частотности NGSL 1.01, см. http://www.newgeneralservicelist.org/.)
4.1. Слово "realize" (554-е место; поиск по запросу "be на расстоянии 1 от realize").
4.1.1. До редактуры.
4.1.1.1. "His dreams were beginning to be realized―he, Eugene Witla, the painter of a double page spread in Truth!" Theodore Dreiser. The "Genius", book I-II (1915)
4.1.1.2. "Его мечты начинают сбываться, он, Юджин Витла, автор цветного разворота в журнале "Труф"! Теодор Драйзер. Гений (ч. 1-2) (М. Волосов, 1930)
4.1.2. После редактуры.
4.1.1.1. "His dreams were beginning to be realized." (По Теодору Драйзеру.)
4.1.1.2. "Его мечты начинали сбываться." (Не "реализовываться".)
4.2. Слово "problem" (120-е место.)
4.2.1. До редактуры.
4.2.1.1. "He was sharp and he worried a problem till he had the solution or till he had it in such tatters that he knew no solution was possible." Isaac Asimov. The Gods Themselves (1972)
4.2.1.2. "Он обладал на редкость острым умом, и раз взявшись за какую-нибудь задачу, терзал ее до тех пор, пока не находил решения или не оставлял от нее лишь жалкие клочья, которые явно доказывали, что она вообще решения не имеет." Айзек Азимов. Сами боги (Р. Рыбакова, 1975)
4.2.2. После редактуры.
4.2.2.1. "He was sharp and he worried a problem till he had the solution." (По Айзеку Азимову.)
4.2.2.2. "Он обладал острым умом, и раз взявшись за задачу, терзал её до тех пор, пока не находил решения." (Не "переживал о проблеме".)
4.3. Слово "maximum" (1839-е место. Слово лежит в основе современных словосочетаний вроде "максимальная радость" и "максимальный репост".)
4.3.1. До редактуры.
4.3.1.1. "I had visions of waiting until Harrison TBoring had introduced Dianne to his millionaire pigeon and then stepping into the picture in a way that would cause MrBoring a maximum of embarrassment and perhaps feathering Dianne Alder's nest»." Erle Stanley Gardner. The Case of the Blonde Bonanza (1962)
4.3.1.2. "Я уже представлял, как появлюсь на сцене после того, как Харрисон Боринг представит Дайанн старому миллионеру, и доставлю массу неудобств мистеру Борингу, а также, не исключено, помогу Дайанн свить уютное гнездышко." Эрл Стэнли Гарднер. Белокурая удача (М. Жуков, 1990)
4.3.2. После редактуры.
4.3.2.1. "I will cause Mr. Boring a maximum of embarrassment." (По Эрлу Стэнли Гарднеру.)
4.3.2.2. "Я доставлю мистеру Борингу массу неудобств." (Не "максимум чего-либо" или "максимальное что-либо". Примечание: слово "mister" переводится как "мистер", т.к. не имеет эквивалента в современном русском языке, а также отражает национальность героя.)
4.4. Слово "system" (179-е место).
4.4.1. До редактуры.
4.4.1.1. "She stopped and let forth a howl of terror: a system of dark and pale patches coagulating into a phantastic figure had risen from the garden bench which the porch light just reached." Vladimir Nabokov. Pale Fire (1962)
4.4.1.2. "Она остановилась и испустила вопль ужаса: группа темных и светлых пятен, слившихся в фантастическую форму, поднялась с садовой скамьи, до которой как раз дошел свет с крыльца." Владимир Набоков. Бледный огонь (Вера Набокова, 1983)
4.4.2. После редактуры.
4.4.2.1. "She stopped and screamed: a system of dark and pale patches turned into a fantastic figure." (По Владимиру Набокову.)
4.4.2.2. "Она остановилась и пронзительно закричала: группа тёмных и светлых пятен слилась в фантастическую форму." (Не "система чего-либо" или "система из чего-либо".)
4.5. Слово "business" (211-е место).
4.5.1. До редактуры.
4.5.1.1. "Also, Barbara and her husband were having to look after Billy's business interests, which were considerable, since Billy didn't seem to give a damn for business any more." Kurt Vonnegut. Slaughterhouse-Five Or The Children’s Crusade (1969)
4.5.1.2. "А кроме того, Барбаре с мужем приходилось распоряжаться денежными делами Билли, и притом довольно значительными суммами, так как Билли с некоторых пор совершенно наплевательски относился к деньгам." Курт Воннегут. Бойня номер пять, или Крестовый поход детей (Р. Райт-Ковалева, 1978)
4.5.2. После редактуры.
4.5.2.1. "Also, Barbara and her husband were having to look after Billy's business interests, which were considerable." (По Курту Воннегуту.)
4.5.2.2. "А кроме того, Барбаре с мужем приходилось распоряжаться денежными делами Билли, и притом довольно значительными суммами." (Не "следить за бизнес-интересами" и т.п.)
5. Текст задания с контекстами.
Переведите с английского языка на русский следующие предложения. Старайтесь использовать фонетические эквиваленты английских слов только там, где иначе перевод будет менее точен.
(Примечание: также можно указать на проблему использования транскрипций не при постановке задачи, а при разборе ошибок.)
- "His dreams were beginning to be realized." (По Теодору Драйзеру.)
- "He was sharp and he worried a problem till he had the solution." (По Айзеку Азимову.)
- "I will cause Mr. Boring a maximum of embarrassment." (По Эрлу Стэнли Гарднеру.)
- "She stopped and screamed: a system of dark and pale patches turned into a fantastic figure." (По Владимиру Набокову.)
- "Also, Barbara and her husband were having to look after Billy's business interests, which were considerable." (По Курту Воннегуту.)
= Неделя 10: Корпус и междисциплинарные исследования
== Задание
Проанализируйте представленный в открытом доступе контент образовательного сайта («Верные слова», «Живые страницы», сайт Cambridge English Corpus или любого другого на ваш выбор), использующего корпусные технологии. Покажите, какие возможности предоставляет корпусное обучение преподавателям гуманитарных дисциплин (опишите не менее трёх возможностей).
== Заметки
Выбор дан странный: «Верные слова» и «Живые страницы» рассчитаны непосредственно на ученика, а на сайте закрытого Cambridge English Corpus одна реклама.
== Эссе
Рассмотрим возможности, которые предоставляет сайт https://lextutor.ca/ (на базе корпусных технологий) таким преподавателям гуманитарных дисциплин, как преподаватели английского языка.
1. С помощью инструмента "N-Gram Phrase Extractor" (https://lextutor.ca/n_gram/) преподаватель может сделать следующее:
- загрузить одно или несколько эссе одного студента;
- получить конкорданс N-грамм заданной длины, отсортированный по тексту N-грамм (так что видны контексты, в которых употребляется каждая N-грамма; также есть частичное вычисление коллокаций как обобщённых N-грамм);
- сформулировать рекомендации для студента: например, можно определить, какие N-граммы студент употребляет чаще одного раза, и предложить синонимичные N-граммы.
2. С помощью инструмента "Random word generator (Classic - GSL+AWL)" (https://www.lextutor.ca/rand/classic/) преподаватель может сделать следующее:
- сформировать случайную выборку размером в десять слов из тысячи самых частотных слов английского языка (числа могут варьироваться);
- сформировать случайную выборку из предзаданного списка псевдослов;
- перемешать выборки и дать студентам в качестве теста на знание слов.
Также в другом разделе сайта (на странице https://www.lextutor.ca/m/yn/index.html) есть уже приготовленные тесты для определения того, соответствует ли словарный запас пользователя требованиям к младшеклассникам разного уровня, которые являются носителями английского языка.
На базе этой же идеи тестирования с псевдословами разработана автоматическая система оценки размера словарного запаса говорящего на английском или на русском языке: http://www.myvocab.info.
3. С помощью инструмента "Dictator" (https://www.lextutor.ca/spell/dict/) можно для заданного списка слов, фраз, пар близких по звучанию слов и т.п. сформировать тест, в котором студент прослушивает автоматически сгенерированную звукозапись и записывает текст, который ей соответствует. Т.е. автоматизируется проведение тренировочных и контрольных диктантов.
Продолжение: https://vk.com/wall14829515_249.