Компьютерная лингвистика что это такое


КОМПЬЮТЕРНЫЙ ЛИНГВИСТ

КОМПЬЮТЕРНЫЙ ЛИНГВИСТ

Компьютерная лингвистика занимается разработкой методов, технологий и конкретных систем, которые обеспечивают общение человека с компьютером на нормальном, понятном языке.

Специалист по компьютерной филологии – профессиональная квалификация специалиста с высшим университетским образованием в области компьютерного обеспечения филологической деятельности.

Доминирующие виды деятельности

  • Работа с современными лингвистическими информационными ресурсами и экспертными компьютерными системами;
  • компьютерное обеспечение филологической деятельности;
  • создание и использование электронных корпусов текстов;
  • создание электронных словарей, тезаурусов, онтологий;
  • автоматическое извлечение фактов из текста(извлечение информации);
  • автореферирование;
  • построение систем управления знаниями;
  • создание вопросно-ответных систем;
  • оптическое распознавание символов;
  • автоматическое распознавание и синтез речи;
  • лингвистическая экспертиза (например, в судебной практике).

Качества, обеспечивающие успешность выполнения профессиональной деятельности

Способности:

  • высокий уровень развития технических способностей;
  • математические и аналитические способности;
  • устойчивость, переключение и распределение внимания;
  • долговременная структурированная словесно-логическая память;
  • словесно-логическое теоретическое и практическое мышление;
  • способность к системному и сравнительному анализу;
  • способность к междисциплинарному подходу при решении проблем;
  • развитая моторика пальцев.

Личностные качества, интересы и склонности:

  • внимательность, терпеливость, усидчивость;
  • тщательность, систематичность в работе, аккуратность;
  • интерес и склонность к работе за компьютером;
  • трудолюбие, творческое отношение к делу;
  • стремление к самопознанию, саморазвитию, профессиональному росту и высокому качеству результатов труда.

Качества, препятствующие эффективности

профессиональной деятельности

  • Неразвитые технические способности;
  • безответственность, неаккуратность, невнимательность, рассеянность;
  • ригидность мыслительных процессов;
  • сильно развитая близорукость.

Области применения профессиональных знаний

  • филологическая наука и образование;
  • сфера культуры и сфера управления;
  • компьютерное обеспечение филологической деятельности;
  • литературно-издательское дело, культурно-просветительская работа.

История профессии

Создание компьютера в середине прошлого века стимулировало появление многих новых наук, которые возникали на стыке уже существующих. Например, бионика возникла на стыке биологии и инженерных наук, психолингвистика – психологии и лингвистики, компьютерная лингвистика – вычислительной техники и лингвистики.

Появление компьютерной лингвистики было обусловлено несколькими причинами: лингвистике не хватало математической точности, обрести которую должны были помочь точные науки совместно с компьютером, новоиспечённым пользователям ЭВМ не хватало знаний, поэтому самой простой формой общения с «умными машинами» для них был естественный язык. Сфера деятельности компьютерной лингвистики очень широкая, включающая в себя компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерную лексикографию.

Активно развиваться направление «обработки естественного языка» (так дословно переводится с английского термин «компьютерная лингвистика») начинает в 1970-х годах. Это связано с резким увеличением количества пользователей ЭВМ. Обучить всех языкам программирования невозможно в принципе, поэтому уже тогда возникла проблема организации взаимодействия с компьютерными программами. Было найдено два пути решения проблемы общения: во-первых, это попытки адаптации языков программирования и операционных систем к конечному пользователю, во-вторых, – разработка систем, которые позволяли бы взаимодействовать с ЭВМ в конкретной проблемной области на естественном языке.

Уже в наше время многие теоретические исследования по искусственному интеллекту обрели практическое воплощение. Роботы осуществляют точные механические операции, распознают образы, ведут поиск в сложных условиях, сочиняют стихи. В классификации наук США работы по искусственному интеллекту из разряда теоретических переведены в разряд прикладных наук.

Если удастся успешно реализовать многие проекты компьютерной лингвистики, то человек сможет управлять сложными техническими объектами посредством голосовых команд или текстов на естественном языке. Учёные предполагают, что мир человека, мир слов и мир техники сольются.

www.brsu.by

Компьютерная лингвистика в «Вышке»: Анастасия Бонч-Осмоловская о новой магистерской программе

— Эта программа — чуть ли не единственная такого рода в России. А вы где сами учились?

— Я училась в МГУ на отделении теоретической и прикладной лингвистики филологического факультета. Попала туда не сразу, сначала поступила на русское отделение, но потом всерьез увлеклась лингвистикой, и меня привлекла атмосфера, которая остается на кафедре сих пор. Самое главное там — хороший контакт между преподавателями и студентами и их взаимная заинтересованность.

Когда у меня родились дети и надо было зарабатывать на жизнь, я пошла в сферу коммерческой лингвистики. В 2005 году было не очень понятно, что представляет из себя эта область деятельности как таковая. Я работала в разных лингвистических фирмах: начинала с небольшой фирмы при сайте Public.ru — это такая библиотека СМИ, там я начала заниматься лингвистическими технологиями. Потом год работала в Роснанотехе, где была идея сделать аналитических портал, чтобы данные на нем автоматически структурировались. Потом я руководила лингвистическим отделом в компании «Авикомп» — это уже серьезное производство в области компьютерной лингвистики и семантических технологий. Параллельно я вела курс по компьютерной лингвистике в МГУ и старалась сделать его более современным.

Два ресурса для лингвиста: Национальный корпус русского языка — сайт, созданный лингвистами для научных и прикладных исследований, связанных с русским языком. Это модель русского языка, представленная с помощью огромного массива текстов разных жанров и периодов. Тексты снабжены лингвистической разметкой, с помощью которой можно получать информацию о частотности тех или иных языковых явлений. Ворднет — огромная лексическая база английского языка, главная идея Ворднета — связать в одну большую сеть не слова, но их смыслы. Ворднет можно скачивать и использовать для собственных проектов.

— А чем занимается компьютерная лингвистика?

— Это максимально междисциплинарная область. Тут самое главное понимать, что творится в электронном мире и кто тебе поможет сделать конкретные вещи.

Нас окружает очень большое количество дигитальной информации, существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и чего угодно. И очень важно уметь обращаться с этой информацией эффективно — главное не только быстрота обработки информации, но и легкость, с которой ты можешь, отсеяв шум, достать те данные, которые тебе нужны, и создать из них цельную картину.

Раньше с компьютерной лингвистикой были связаны какие-то глобальные идеи, например: люди думали, что машинный перевод заменит человеческий, вместо людей будут работать роботы. Но сейчас это кажется утопией, и машинный перевод используется в поисковых системах для быстрого поиска на незнакомом языке. То есть сейчас лингвистика редко занимается абстрактными задачами — в основном какими-то маленькими штучками, которые можно вставить в большой продукт и на этом заработать.

Одна из больших задач современной лингвистики — семантический web, когда поиск происходит не просто по совпадению слов, а по смыслу, а все сайты так или иначе размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго.

В двух словах, у нас есть тысяча текстов, надо разложить их по кучкам, представить каждый текст в виде структуры и получить таблицу, с которой уже можно работать. Это называется обработка неструктурированной информации. С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Есть такая компания, которая придумала механизм генерации текстов на темы, на которые человеку писать скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказывать человеку эти тексты гораздо дороже, притом компьютерные тексты на такие темы написаны связным человеческим языком.

— Разработками в области поиска неструктурированной информации в России активно занимается «Яндекс», «Лаборатория Касперского» нанимает исследовательские группы, которые изучают машинное обучение. Кто-то на рынке пытается придумать что-то новое в области компьютерной лингвистики?

**Книги по компьютерной лингвистике:** Daniel Jurafsky, Speech and Language Processing Кристофер Маннинг, Прабхакар Рагхаван, Хайнрих Шютце, «Введение в информационный поиск» Яков Тестелец, «Введение в общий синтаксис»

— Большинство лингвистических разработок является собственностью больших компаний, практически ничего нельзя найти в открытом доступе. Это тормозит развитие отрасли, у нас нет свободного лингвистического рынка, коробочных решений.

Кроме того, не хватает полноценных информационных ресурсов. Есть такой проект, как Национальный корпус русского языка. Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. Разница примерно как в биологии — до ДНК-исследований и после.

Но многие ресурсы не существуют на русском языке. Так, нет аналога такому замечательному англоязычному ресурсу, как Framenet — это такая концептуальная сеть, где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» — кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса. Это очень полезно.

В компании Avicomp сейчас разрабатывается плагин для поиска близких по содержанию статей. То есть если вас заинтересовала какая-то статья, вы можете оперативно посмотреть историю сюжета: когда тема возникла, что писалось и когда был пик интереса к этой проблеме. Например, с помощью этого плагина можно будет, оттолкнувшись от статьи, посвященной событиям в Сирии, очень быстро увидеть, как в течение последнего года развивались там события.

— Как будет построен процесс обучения в магистратуре?

— Обучение в Вышке организовано по отдельным модулям — как в западных университетах. Студенты будут разделены на маленькие команды, мини-стартапы — то есть на выходе мы должны получить несколько готовых проектов. Мы хотим получить реальные продукты, которые потом откроем людям и оставим в открытом доступе.

Кроме непосредственных руководителей проектов студентов, мы хотим найти им кураторов из числа их потенциальных работодателей — из того же «Яндекса», например, которые тоже будут играть в эту игру и давать студентам какие-то советы.

Я надеюсь, что в магистратуру придут люди из самых разных областей: программисты, лингвисты, социологи, маркетологи. У нас будет несколько адаптационных курсов по лингвистике, математике и программированию. Потом у нас будет два серьезных курса по лингвистике, и они будут связаны с самыми актуальными лингвистическими теориями, мы хотим, чтобы наши выпускники были в состоянии читать и понимать современные лингвистические статьи. То же самое и с математикой. У нас будет курс, который будет называться «Математические основания компьютерной лингвистики», где будут излагаться те разделы математики, на которых зиждется современная компьютерная лингвистика.

Для того чтобы поступить в магистратуру, нужно сдать вступительный экзамен по языку и пройти конкурс портфолио.

Кроме основных курсов будут линейки предметов по выбору Мы запланировали несколько циклов — два из них ориентированы на более глубокое изучение отдельных тем, к которым относятся, например, машинный перевод и корпусная лингвистика, и, а один, наоборот, связан со смежными областями: такими как, социальные сети, машинное обучение или Digital Humanities — курс, который как мы надеемся, будем прочитан на английском языке.

theoryandpractice.ru

Чем занимается компьютерный лингвист?

Компьютерные лингвисты занимаются разработкой алгоритмов распознавания текста и звучащей речи, синтезом искусственной речи, созданием систем семантического перевода и самим развитием искусственного интеллекта (в классическом смысле слова — как замена человеческому — он вряд ли когда-нибудь появится, но зато возникнут различные экспертные системы, основанные на анализе данных).

Алгоритмы распознавания речи будут все больше использоваться в быту — у «умных домов» и электронных приборов не будет пультов и кнопок, а вместо них будет использоваться голосовой интерфейс. Эта технология оттачивается, но вызовов еще много: компьютеру сложно распознать человеческую речь, потому что разные люди говорят очень по-разному. Поэтому, как правило, системы распознавания работают хорошо либо когда они натренированы на одного диктора и уже подстроены под его особенности произношения, либо когда количество фраз, которые может распознать система, ограничено (как, к примеру, в голосовых командах для телевизора).

У специалистов по созданию программ семантического перевода впереди еще много работы: на данный момент неплохие алгоритмы разработаны только для перевода на английский и с английского. Тут много проблем — разные языки по-разному устроены в семантическом плане, это различается даже на уровне построения фраз, и не все смыслы одного языка можно передать с помощью семантического аппарата другого. Кроме того, программа должна различать омонимы, правильно распознавать части речи, выбрать правильное значение многозначного слова, подходящее к контексту.

Синтез искусственной речи (например, для домашних роботов) — тоже кропотливая работа. Сложно сделать так, чтобы искусственно созданная речь звучала естественно для человеческого уха, ведь есть миллионы нюансов, на которые мы не обращаем внимания, но без которых все уже не «то» — фальстарты, паузы, заминки и т.д. Речевой поток непрерывен и одновременно дискретен: мы говорим, не делая паузы между словами, но нам нетрудно понять, где заканчивается одно слово и начинается другое, а для машины это будет большая проблема.

Самое большое направление в компьютерной лингвистике связано с Big Data. Ведь существуют огромные корпуса текстов типа новостных лент, из которых нужно вычленять определенную информацию — например, выделять инфоповоды или затачивать RSS под вкусы определенного пользователя. Такие технологии есть уже cейчас и будет развиваться дальше, потому что вычислительные мощности стремительно растут. Лингвистический анализ текстов используется и при обеспечении безопасности в интернете, поиске необходимой информации для спецслужб.

Где учиться на компьютерного лингвиста? У нас, к сожалению, довольно сильно разделены специальности, связанные с классической лингвистикой, и программирование, статистика, анализ данных. А для того, чтобы стать цифровым лингвистом, нужно разбираться и в том, и в другом. В зарубежных вузах есть программы высшего образования по компьютерной лингвистике, а у нас пока оптимальный вариант — получить базовое лингвистическое образование, а потом освоить основы IT. Хорошо, что сейчас есть много разных онлайн-курсов, к сожалению, в мои студенческие годы такого не было. Я училась на факультете прикладной лингвистике в МГЛУ, где у нас были курсы по искусственному интеллекту и распознаванию устной речи — но все-таки в недостаточном объеме. Сейчас IT-компании активно пытаются взаимодействовать с институтами. Мы с коллегами из «Лаборатории Касперского» тоже стараемся участвовать в образовательном процессе: читаем лекции, проводим студенческие конференции, даем гранты аспирантам. Но пока инициатива больше исходит от работодателей, чем от университетов.

thequestion.ru

Компьютерная лингвистика (стр. 1 из 4)

КУРСОВАЯ РАБОТА

по дисциплине «Информатика»

по теме: «Компьютерная лингвистика»

Содержание

ВВЕДЕНИЕ

1. Место и роль компьютерной лингвистики в лингвистических исследованиях

2. Современные интерфейсы компьютерной лингвистики

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

Введение

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.

1. Место и роль компьютерной лингвистики в лингвистических исследованиях

В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

mirznanii.com

Стоит ли учиться на компьютерного лингвиста? Личный опыт

В далеком 2012 году, я, только что сдав ЕГЭ (на то время баллы были хорошими), подала документы в университет на бакалаврскую программу «Фундаментальная и прикладная лингвистика». Я не понимала, что это такое, чему нас будут учить, кем я потом буду. Меня привлекло сложное название программы и описание в буклете абитуриентов. Да, в общем, я отучилась 4 года и до сих пор не поняла, правильный ли выбор я сделала.

Чтобы разобраться в этом, необходимо понять, что такое компьютерный лингвист. По современным определениям, компьютерная лингвистика – это

научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков. Возьмем обычного выпускника, который сдавал ЕГЭ по математике, русскому и английскому. Вот он поступает на компьютерную лингвистику, не зная, кем он будет на выходе. В процессе обучения он успевает побыть в трех амплуа: человек, который отлично знает современный русский язык, тенденции его изменения, как развивался русский язык (от древнерусского до наших дней), его морфологический строй, диалекты и немного литературу. Человек, который каким-либо образом не забыл это все после сдачи зимней сессии – филолог. Добавим немного еще компетенций: Человек, допустим, шарит в морфологии, синтаксисе, семантике, социолингвистике и других аспектах языка. Его не пугают такие понятия, как синтагматика и парадигматика, онтологии и тезаурусы, пропозиция, когнитивизм, прагматика и так далее. Знает английский язык и в идеале еще плюсом 1-2 других иностранных языка (в моем случае это заброшенные напрочь немецкий и испанский). И вот мы получаем лингвиста. Прикладного. Который знает, как теорию можно применить на практике. Теперь, чтобы получить компьютерного лингвиста, мы добавим этому бедному студенту навыки программирования, машинного обучения и в принципе навыки natural language processing. Он знает, как можно обработать звучащую речь, как можно собрать коллекции текстов, как можно определить тональность отзыва о недавно вышедшем фильме. Разбирается в NLTK, других полезных библиотеках. Понимает, что омонимия может стать проблемой выделения именованных сущностей. А, к чему это все. В итоге-то программировать я не научилась, я могу знать всю теорию, а как применить ее на практике не позволяет склад ума. И получается, что после выпуска я не компьютерный, а прикладной лингвист. Ни два ни полтора, как говорится. И много ли вообще таких, кто посередине? Получается, что человек должен в идеале знать две абсолютно противоположные предметные области. Как вы думаете, легче научить человека с аналитическим складом ума разобраться в лингвистике, или наоборот, гуманитария научить программированию?

П.С. Работу по специальности я нашла — лингвист, который составляет справочники, решает проблемы омонимии, тестирует (ну, как тестирует, смотрит тексты), в которых должны правильно выделяться именованные сущности и так далее.

Теги: компьютерная лингвистика, лингвистика, автоматическая обработка языка, личный опыт

Данная статья не подлежит комментированию, поскольку её автор ещё не является полноправным участником сообщества. Вы сможете связаться с автором только после того, как он получит приглашение от кого-либо из участников сообщества. До этого момента его username будет скрыт псевдонимом.

habr.com

8. Применение лингвистических знаний в компьютерных технологиях (компьютерная лингвистика)

Компьютерная лингвистика - направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Инструментарий компьютерной лингвистики. Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».

Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

Направления компьютерной лингвистики. Сфера КЛ весьма разнообразна и включает такие области, как компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерная лексикография. В узком смысле проблематика КЛ часто связывается с междисциплинарным прикладным направлением с несколько неудачным названием «обработка естественного языка» (перевод английского термина Natural Language Processing). Оно возникло в конце 1960-х годов и развивалось в рамках научно-технологической дисциплины «искусственный интеллект». По своей внутренней форме словосочетание «обработка естественного языка» охватывает все области, в которых компьютеры используются для обработки языковых данных. Между тем в практике закрепилось более узкое понимание этого термина – разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

  1. Теория и методика преподавания иностранного языка. Применение компьютерных технологий в образовании.

Эта дисциплина охватывает аспекты подачи материала и аспекты усвоения материала учащимися. В западных странах многие из этих вопросов решаются в рамках прикладной лингвистики.

Грейб связывает момент возникновения прикладной лингвистики с выпуском журнала «Изучение языка» Журнал прикладной лингвистики 1948г.

В виде отдельной самостоятельной дисциплины ПЛ начала оформляться в 20в.

Создание новых учебников

Задачи стоящие перед методикой: подбирать материал, тестирования, развивать умение говорить, слушать и так далее

Специалисты постоянно следят за новыми разработками теоретической лингвистики и внедряют самые эффективные. Современные исследования в области когнитивной лингвистики и дискурсивного анализа применяются в составлении учебников. Весь языковой материал представлен как дискурс, используются более аутентичные, приближенные к реальной жизни ситуации (реальные действующие лица, предметы, цели действительных лиц, цепочки действий, ведущие к целям максимально приближены к настоящим)

По-новому моделируются персонажи, они не идеальны, максимально приближены к реальным жизненным проблемам.

Обучаемые должны пройти адаптацию к различным типам общения, не должны быть оторваны от жизненных ситуаций. Благодаря тому, что иностранный язык преподают как дискурс, одновременно с усвоением языкового материала происходит освоение информации о том социальном мире, в котором живут носители языка. Достижения теоретической лингвистики находят свои практические применения.

Методы обучения иностранным языкам

Главной целью обучения было чтение текстов и их перевод на родной язык, что достигалось через знание грамматики. В этом и состоит суть грамматико-переводного метода. Вот его краткая характеристика:

• когнитивность (осознанность): цель обучения — это знание системы, а не развитие умений и навыков;

• принципиальное двуязычие как учебника, так и самого процесса обучения; родной язык служит основой для сравнения и посредником в приобретении знаний;

• перенос подходов преподавания латинского и древнегреческого языков на живые языки, использование строго латинской терминологии для формулировки правил и заданий к упражнениям;

• дедуктивная логика предъявления и усвоения грамматического материала — строго от правила к примерам, а не наоборот;

• системное отношение к грамматическому материалу: изучение грамматики происходит «по частям речи», безотносительно важности того

или иного грамматического явления в практическом использовании носителями конкретного языка (в этом также заключается влияние традиций преподавания мертвых языков).

Необходимо заучивать правила и все исключения из них, в учебниках приводятся общепринятые упражнения, которые повторялись в строгом порядке, что приводит к монотонности, также упражнения содержат отдельные предложения, оторванные от контекста, что не дает представления о том, как правила функционируют в реальной жизни. Лексический минимум дается в виде двуязычного глоссария. Как правило, учебник содержит довольно трудные тексты художественной литературы, отрывки из произведений серьезных авторов, предназначенные для перевода на родной язык с учетом выученной грамматики. Художественный текст доминирует в учебнике, поскольку одна из основных целей в рамках грамматико-переводного метода — воспитание обучающегося на текстах, соответствующих высоким эстетическим идеалам. Поэтому выбор текстов осуществляется из известных, ставших классическими произведений художественной литературы.

Отказ от обучения системе. В качестве цели обучения был выбран «живой» язык, такой, которым пользуются в повседневном общении. В чем же состоит суть прямого метода? Уже из его названия вычитывается главная концептуальная идея: обучаемые входят в мир изучаемого языка «прямым путем», то есть так, как ребенок овладевает родным языком. Кроме того, это означает, что обучаемые не нуждаются в языке-посреднике, влияние которого, с точки зрения последователей данного метода, тормозит становление навыков и умений. Следующей принципиальной особенностью прямого метода является отказ от дедуктивного подхода к изложению грамматического материала. Закономерность, то есть правило употребления того или иного грамматического явления выводится лишь после его усвоения в ходе многократного повторения речевых образцов (фраз) как в ходе самого занятия, так и с помощью учебника через систему упражнений. Очень важная роль внутри этой специфической методической системы отводится учителю. Он является образцом в абсолютном смысле этого слова. Его речь должна звучать четко, понятно, фонетически правильно и красиво — прямой метод впервые выдвигает требование обучения фонетике, его учебные пособия содержат упражнения для развития навыков произношения. Следовательно, предпочтительно использование в роли учителей носителей языка.

  1. Аудиолингвальный — аудиовизуальный

Предъявление языка через готовые формулы (структуры) и их заучивание с помощью технических средств обучения (лаборатория устной речи, магнитофон и т. п.). Для аудиовизуального метода характерна и максимальная загрузка зрительного канала приема информации одновременно со слуховым, что достигается показом «картинки» (диапозитивы, фильмы, видео и т. п.) во время звучащего звукового стимула. Благодаря этому ожидается образование стойких ассоциаций, а следовательно, и автоматизма в овладении структурами речи, воспроизводимыми даже тогда, когда один из стимулов (зрительный или слуховой), а впоследствии и первый, и второй снимаются.

Важным принципиальным моментом для обоих методов остается индуктивный подход к изучению грамматики — от примеров к правилу.

  1. Коммуникативно-ориентированный

Цель: общение на иностранном языке

центральное понятие: коммуникативная ситуация, она определяет логику и последовательность различных высказываний

Данный метод воссоздает ситуации реального общения. Реальные ситуации общения связаны не только с «произносимыми» текстами, но и с прочими знаковыми системами (дорожные знаки, пиктограммы и т. п.) и печатными текстами (реклама, анкеты, меню, расписание поездов и пр.). Эти тексты включаются в процесс обучения с целью оперирования с ними в контексте предлагаемых ситуаций. Следовательно, параллельно с изучением собственно иностранного языка мы изучаем то, что окружает носителей данного языка в их обыденной жизни, учимся работать с этими типами текстов — заполняем настоящие анкеты, выбираем маршруты поездок по настоящим расписаниям поездов, читаем настоящие объявления из газет. Познание жизни в стране изучаемого языка идет «естественным путем» в ходе процесса обучения иностранному языку. Эта концепция получила название интегрированного страноведения.

Такой была логика развития методики преподавания иностранных языков на протяжении столетия. На основе представленных методов возникали и развивались частные методики, которые представляют собой методические системы, разработанные с учетом потребностей определенных групп обучающихся (например, немецкий язык для иммигрантов), на основе определенных оригинальных теорий (интенсивные методы, суггестопедия) или с использованием новейших средств коммуникации (обучающие теле- и видеопрограммы, компьютерные программы обучения, взаимообучение по электронной почте). Выбор в любом случае за теми, кто хочет интересно преподавать или изучать иностранные языки.

Дистанционное образование - совокупность технологий, обеспечивающих доставку обучаемым основного объема изучаемого материала, интерактивное взаимодействие обучаемых и преподавателей в процессе обучения, предоставление обучаемым возможности самостоятельной работы по освоению изучаемого материала, а также в процессе обучения.

Современное дистанционное обучение строится на использовании следующих основных элементов:

  • среды передачи информации (почта, телевидение, радио, информационные коммуникационные сети),

  • методов, зависимых от технической среды обмена информацией.

Использование технологий дистанционного обучения позволяет:

  • снизить затраты на проведение обучения (не требуется затрат на аренду помещений, поездок к месту учебы, как учащихся, так и преподавателей и т. п.);

  • проводить обучение большого количества человек;

  • повысить качество обучения за счет применения современных средств, объемных электронных библиотек и т.д.

  • создать единую образовательную среду (особенно актуально для корпоративного обучения).

Методика контент-анализа, история возникновения, его цель, задачи, сущность. Этапы подготовки и проведения контент-анализа. Виды контент-анализа.

Контент-анализ (от англ. contens содержание) — метод качественно-количественного анализа содержания документов с целью выявления или измерения различных фактов и тенденций, отраженных в этих документах. Особенность контент-анализа состоит в том, что он изучает документы в их социальном контексте. Может использоваться как основной метод исследования (например, контент-анализ текста при исследовании политической направленности газеты), параллельный, т.е. в сочетании с другими методами (напр., в исследовании эффективности функционирования средств массовой информации), вспомогательный или контрольный (напр., при классификации ответов на открытые вопросы анкет).

Объектомконтент-анализа может быть содержание различных печатных изданий, радио- и телепередач, кинофильмов, рекламных сообщений, документов, публичных выступлений, материалов анкет.

Первые опыты использования количественных методов близких к К-А относятся к 19в. Именно тогда стало ощущаться влияние СМИ на общество. В США по заказам некоторых организаций был проведен ряд исследований тематики газетных статей. Тематика определяется на основе количественного анализа лексики. Вывод был сделан такой, что пресса отдает предпочтения уголовной хронике, скандалам, сплетням и спорту, игнорирую сферу науки, религии и искусства.

Лассоуэл исследователь данной области провел исследования основных тем и идей преобладавших в официальной пропаганде стран-участников первой мировой войны.

Развитие средств массовой коммуникации вызвало увеличение контент-аналитических исследований в этой области. Во время второй мировой войны контент-анализ применялся некоторыми государственными учреждениями США и Англии для изучения эффективности пропаганды в разных странах, а также в разведывательных целях. Накопленный опыт контент-аналитических исследований был подытожен в книге Б. Берелсона «Контент-анализ в коммуникационных исследованиях» (начало 50-х гг). Автором был определен сам метод контент-анализа, а также разные его виды, критерии и единицы для количественного исследования. Книга Б. Берелсона до сих пор является фундаментальным описанием, дающим понимание основных положений контент-анализа. После обобщений, сделанных Б. Берелсоном, в США появилось много исследований, в которых контент-анализ применяется в различных научных направлениях. Наиболее интересной методической новацией была методика «связанности символов» Ч. Осгуда (1959), которая позволяла выявить неслучайно связанные элементы содержания. Западноевропейские исследователи в использовании метода контент-анализа опирались в основном на американский опыт. Тем не менее, здесь тоже появилось несколько оригинальных методик качественно-количественного анализа содержания (Ж. Клейзер, А. Моль).

Сущностьконтент-анализа заключается в том, чтобы по внешним количественным характеристикам текста на уровне слов и словосочетаний сделать правдоподобные предположения о его плане содержания и, как следствие, сделать выводы об особенностях мышления и сознания автора текста, его намерениях, установках, желаниях, ценностных ориентациях.

Важной категорией контент-анализа является концептуальная переменная — понятие, которое стоит в центре проводимого исследования. Например, концептуальной переменной могут быть такие категории как «свой-чужой», «демократия», «права человека», «материальное благополучие»

В конкретном тексте концептуальная переменная представлена своими значениями — языковыми представителями, так концептуальная категория «свой-чужой» в текстах может иметь следующие значения: мой, наш, я, мы, привычный, знакомый, близкий, их, его, ее, она, он, непривычный, незнакомый, дальний, чужой.

Концептуальная переменная «демократия»: демократия, демократический, демократический выбор, власть народа, народовласть, возможность выбора.

Для правильности контент-анализа очень важно определить весь смысл языковых значений, иначе результаты не будут точны.

Этапы подготовки и проведения эксперимента

studfiles.net


Смотрите также