Курс "Обработка нечисловой информации"

  Главная | Форум  

 

     
 
Навигация
Программа курса
Содержание лекций
Материалы курса
Лабораторные работы
Требования к экзамену
Другие материалы

Гостевая книга
Форум

 

Лекции 2004 - 2005 года

 

Обновленные варианты лекций

21/04/05

Семиотика

Общая филология - теория обращения с текстами в обществе

Риторика, теория документа и риторические технологии

 

Лекция 1. Семиотика

18/09/04

Практическая (лабораторные) и теоретическая часть курса.

Основы теоретического минимума - семиотика (наука о знаках), риторика (наука об эффективной коммуникации), общая филология (наука о бытовании текстов в обществе).
Лабораторные работы – практическое приложение полученных и получение новых знаний.

Объединяющая идея курса.
Перенесение бизнес процессов в Интернет - одна из актуальных научных и практических задач современности.

Семиотика - наука о знаках. Определение знака по Г.П. Мельникову. (См. его книгу на сайте – «Системология и языковые аспекты кибернетики» -
Если мы видим (слышим, обоняем ...) объект из внешнего мира S, то в нашем сознании возникает его образ S1. Если мы видим другой объект - D, то происходит то же самое - возникает образ этого объекта D1. А теперь - самое главное - если в нашем сознании есть устойчивая связь от S1 к D1: S1 ---> D1, то может происходить следующее - мы видим S, активизируется S1, затем D1. То есть мы не видим объекта D, но его образ D1 возникает в нашем сознании! В этом случае мы говорим, что S - это знак, а D - это денотат. Это лучше видно на графической схеме, которую здесь нельзя представить.

Если совсем просто - то знак (S) - это то, что замещает объект (D). Если происходит это явление – то не надо бояться называть знаками совсем непривычные вещи. Например – фотография дерева – это не дерево, значит – это знак.
Основатель семиотики Чарльз Пирс делил знаки на три вида -

1. Icons (иконические) - знаки, похожие на денотат. Например - дорожный зак - извилистая дорога.

2. Symbols (символы) - знаки, непохожие на денотат (слово стол - не похоже на сам стол)

3. Признаки (indexes) - это когда ЧАСТЬ денотата становится его знаком (дым - знак костра, а не огня)

Можно взять старый и новый физтеховский значок и посмотреть, какой из них содержит больше иконических (то есть - легко понимаемых!) знаков, а какой больше содержит знаков-символов.

Чарльз Пирс также считал, что семиотика делится на три части - синтактику (правила, как правильно складывать знаки), семантику (как знаки и знаковые структуры связываются с денотатами). А также прагматику - науку об отношении создателей и получателей знаков к этим знаковым произведениям.

Это тоже просто. Если вы слышите слово "Пожар", то можете пройти мимо или броситься пожар тушить. При одинаковой семантике - разное прагматическое отношение получателя к полученному знаковому произведению. А если послушать наших дикторов - то можно увидеть и разное отношение создателей (вернее - озвучивателей) к своим знаковым произведениям. Некоторые почти трясутся от возбуждения, объявляя о катастрофах, жертвах и т.п. Некоторые говорят об этом даже с некоторой меланхолией, может даже пытаясь смягчить ужасную семантику сообщения.
Но можно взять пример посерьезнее. В кино "17 мгновений весны" цветочный горшок в окне явочной квартиры (синтактика) означал, что она провалена (семантика). Проф. Плейшнер видел этот знак, но связь S1 -> D1 у него в сознании не реализовалась. А если бы реализовалась (семантика), то ему надо было бы бежать от этого места (вот она - прагматика). Но это верно только для Плейшнера. Если бы это увидел мужественный Штирлиц - он бы атаковал эту квартиру (другое пргматическое значение - в виде другого действия)! В этом примере можно для упражнения поварьировать с синтактикой (какой знак у опасности), семантикой (что он означает) и прагматикой.
На сайте курса есть хороший link на американский курс семиотики.
Семиотика - интересная наука - но в курсе немного времени для ее изучения. Например - костюм - самообозначение человека - как он хочет, чтобы его воспринимали. Джинсовый костюм и пиджак с галстуком - разные знаки.

В синтактике есть два важных для нас понятия - синтагма и парадигма. Синтагма - это знаковая структура, образованная по правилам синтактики, а парадигма - на основании каких правил отобран знак для каждой знаковой позиции в этой структуре.

Поясним на примере. "Маша ела кашу". Это синтагма. А парадигма - для "каши" - из какого набора (каша, каши, кашу, кашей) взят этот знак.

Для семиотики костюма - синтагма - это то, что одето - какие туфли, брюки, пиджак, рубашка. А парадигма - в гардеробе - из какого набора рубашек, пиджаков и т.д. и на основе каких соображений была образоана эта синтагма.
Теперь зловещая фраза "синтактико-парадигматические отношения в тексте" звучит не так уж страшно.

 

Лекция 2. Семиотика

25/09/04

А теперь рассмотрим как могут быть связаны знаки и денотаты. Один к одному бывает редко (как и в жизни). Часто бывает: один знак - два денотата (D1<--S-->D2). Это полисемия. А наоборот - два знака ссылаются на один денотат - это синонимия (S1-->D<--S2). Например - "облако" и "туча". Можно придраться, что это не полные синонимы. Так и есть - полные и точные соответствия редки в реальной жизни. Омонимия - это когда знаки означают совсем разное, но случайно совпадают по начертанию или звучанию.
На конференциях по прикладной лингвистике (например, Диалог-2002 в Протвино) разработчики разных ИС (информационных систем) часто спрашивали друг друга - а как вы разрешали у себя омонимию?
Но и полисемия не менее страшная проблема при разработке ИС на ЕЯ (естественном языке). Например, английское слово "table" значит (как минимум - и не только) - "стол" и "таблица". Попробуйте узнать во фразе "I put my report with many tables on his table" - где здесь какое из двух значений. Очень легко - если знаешь СЕМАНТИКУ этого предложения. Вот так легко мы пришли к выводу об одном из принципиальных ограничений ИС на ЕЯ (прежде всего - систем машинного перевода). - Адекватная обработка текста на ЕЯ может быть только при условии, что известна его семантика. Исходя из одних правил синтактики невозможно узнать - где нужно брать значение "стол", а где - "таблица". Можно сразу и красиво уточнить, что здесь значит определение "адекватная обработка". Действительно, при МП мы хотим знаковую структуру на одном языке перевести в знаковую структуру на другом, при условии, что семантика (то есть денотатные структуры, на которые ссылаются эти знаковые структуры) неизменна, остается инвариантом.
Так и легко и просто мы (науке потребовалось гораздо дольше) пришли к некоторым простым выводам и обобщениям, касающихся систем обработки нечисловой информации, а проще - прикладной лингвистики. Семиотика позволяет научно, правильно формулировать проблемы этой науки, ее выводы и методы.


Теперь нам понадобится концепция трех миров Г.Сковороды (см. целый пакет ссылок ниже). Он считал, что есть три мира - мир материальный (физический, то, что можно пощупать), внутренний мир человека (его сознание, психика и т.д.)и мир знаков (он имел в виду прежде всего Библию как мир знаков). Кстати, при этом он говорил, что в каждом из миров есть по меньшей мере два слоя - верхний, доступный непосредственному наблюдению, и внутренний, доступный через познание.

Обозначим эти миры через R (reality), M (mind), S (signs).
Действительно, в физическом, например, мире (R) мы никогда не наблюдаем бесконечного движения по прямой с постоянной скоростью. Только огромные усилия науки по проникновению во внутреннюю суть физических явлений позволило (относительно недавно) вывести закон инерции. Не говоря уже о многих других законах.

Нам сейчас важно то, что денотат D может располагаться в любом из трех миров - M,R,S. То есть - знак S может обозначать объекты материального мира (столы, носороги), также идеи, понятия нашего внутреннего мира М (радость, математика, чин полковника, гомозиготный). Также он может ссылаться на другие знаки из мира знаков S. Например – буква на письме.
Мы пока считаем, что знак материален. То есть он реализуется в материальном мире в виде реальноного физического объекта - написанной, напечатанной буквы, звука, круга с нарисованными на нем фигурами (дорожный знак). Но нельзя рассматривать тот же дорожный знак, как объект из реального, физического) мира. Иначе мы ничего не поймем.

 

Лекция 3. Семиотика

02/10/04

Будет дополнено - но в основном примено то же, что и в курсе 2002-2003 гг. (см. краткое содержание там).

 

Лекция 4. Семиотика

09/10/04

Будет дополнено - но в основном примено то же, что и в курсе 2002-2003 гг. (см. краткое содержание там).

 

Теория тезауруса

20/10/04

Тезаурус - онтогенез.

Этот процесс более полно описан в ссылке внизу. Если выразить это кратко, то через собирание всего лексического богатства языка (Т1), проходя затем процесс упорядочивания этой лексики (Т2), люди пришли к идее тезауруса как чистой функции движения от денотата к знаку (Т3).

Действительно, в толковом словаре мы ищем объяснение слова, т.е. движемся от знака к денотату -

S ---> D или D = f(S)

В тезаурусе же реализуется обратная функция -


D ---> S или S = F(D)


Зачем нужен тезаурус в информатике во-первых - информационный поиск (ИП).

Если мы ищем что-то в Интернете простейшей "искалкой", то мы найдем только те тексты, которые включают в себя заданные в запросе ключевые слова. Можно представить, что я ищу информацию о цветах. Мой запрос принесет мне тексты с этим словом. А теперь представим себе, что есть нужные мне тексты о розах или гвоздиках, в которых ни разу не встречается слово "цветы". Тогда эти тексты НИКОГДА не будут найдены, несмотря на любые увеличения скорости процессора. Если же этот запрос пропустить через простейший тезаурус, то он развернет поисковое слово в необходимых подробностях. В данном случае запрос может быть расширен - в него могут быть добавлены названия разных цветов.

Зачем нужен тезаурус во-вторых - интеграция знаний и повышение эффективности трудовой деятельности за счет оптимизации процесса коммуникации и интеграции знаний.

Лексика (чаще всего терминология) какой-либо предметной области (ПО) человеческой деятельности позволяет значительно повысить эффективность труда в этой ПО. Например - см. ниже описания тезаурусов SNOMED и НАСА.

Тезаурус - парадигматика.

Тезаурус - это прежде всего иерархическая классификация. Она нужна, чтобы найти сначала нужный денотат. Действительно, если я вижу гайку и не знаю как она называется даже на моем родном языке, тезаурус предлагает мне такую схему поиска по дереву - это идея или материальная сущность. Затем - гайка - это природой созданный предмет или создан человеком и т.д. Мы движемся по дереву, пока не достигнем своего денотата, а потом видим, как он назыавется.
Поэтому для любой словарной статьи нужно указать в какие более общие понятия, конструкции и т.п. интегрируется описываемый ею объект - т.е. вышестоящая статья. Аналогичное рассуждение справедливо и в обратную сторону. Эта стройная иерархическая классификация дополняется перекрестными связями самого разного рода - чаще всего синонимическими или антонимическими, различного рода ассоциативными связями.

Терминология Т (ТТ). Даже на английском - современной имперской латыни ТТ содержит два наиболее употребительных синонимических набора терминов - один с более научным уклоном, другой - более практический или технический.
Так, вышестоящий термин называется гиперним (hypernym)? но в информатике (в частности в MULTITES) он называется BT - Broader Term (как бы - более широкий термин). и наоборот - нижележащий термин - соответственно - гипоним (hyponym) или NT (Narrower Term). Более подробно эта терминология описана на сайте MULTITES.
Популярные тезаурусы и их особенности.

В чистом виде тезаурус встречается редко - как и движение без трения или чистый кремний. В реальных тезаурусах происходит упрощение исходной идеи или добавление посторонней, но потенциально нужной его пользователю информации.

Roget''s
Наиболее популярный Т. Организован вниз вплоть до набора синонимов. Поэтому он часто, (как сенатор в окне внизу), используется для того, чтобы подыскать более подходящий синоним к слову. Поэтому он и дополнен грамматичекими сведениями в каждой своей статье.

DUDEN

Идея поиска названия денотата релизована наиболее просто и наглядно. DUDEN -это книга с картинками на правой стороне (по разным ПО) с пронумерованными по-чертежному мельчайшими их деталями. На правой строне этот нумерованный список сопровождается названиями (даже на двух языках). Напимер - на целой странице нарисованы ж.д. техника, станции, пути и т.п. Справа можно найти названия стрелок, семафоров, костылей.

SNOMED


Это огромный компьютеризированный Т медицинской терминологии. Ссылка на его сайт дает хорошее представление о его возможностях.

Тезаурус НАСА
Как и SNOMED - этот Т - одно из больших свершений в области лингвистики. Систематизированный свод терминов по ракетной технике и смежным областям. НАСА сделала прекрасный сайт. Можно посмотреть этот тезаурус в оригинальном динамическом графическом интерфейсе.
http://www.visualthesaurus.com/index.jsp


Популярное средство создания словарей - MULTITES. - См. ссылку.

WORDNET - интеллектуальный компьютерный тезаурус

Создан в Принстонском университете и свободно распространяется.

Основной материал о нем расположен в ссылке внизу.

Основные особенности.

Слова в нем сгруппированы в синонимические группы (синсеты - synsets). Они разбиты на 4 словаря - существительные, прилагательные, глаголы и наречия. Синсеты объединены как в иерархические связи (гипонимы и гиперонимы), так и в отношение антонимии и также меронимии (быть частью чего-л или состоять из частей). Решена также проблема морфологии - слово после обращения к WN возвращается в исходной форме.



~
И космические корабли что-то там бороздят - и тридцать тысяч одних курьеров. - - Вот пример того, для чего в том числе этот курс - чего никогда не должен подумать человек, изучивший этот курс - особенно разделы - семиотика и общая филология.

~

еHOMO: HOMO SAPIENCE В БЛИЖАЙШЕЙ ПЕРСПЕКТИВЕ

А.С. Нариньяни, РосНИИ Искусственного Интеллекта ( narin@aha.ru)


Через 10-15-20 лет, т.е. еще при жизни основной части нынешнего поколения, сегодняшний цивилизованный НОМО превратится в еНОМО - новый вид, сохраняющий биологическую принадлежность к Homo Sapience, но качественно значительно отличающийся от него за счет симбиоза с продуктами стремительно развивающихся сверхвысоких технологий. В работе делается попытка представить, каким будет этот еНОМО и формирующаяся вместе с ним будущая
е-цивилизация.

Введение

Мы стремительно врастаем в высокие информационные технологии (ИТ) и они врастают в нас. ПК, интернет и мобильник - это лишь первые шаги лавинообразного процесса, который если не накроет, то радикально изменит нашу цивилизацию в ближайшие 10-20 лет.
Конечно, человек понятие весьма многомерное: от гения до дауна, от инвалида до олимпийского чемпиона, от негодяя до святого: Homo Sapience остается видовым наименованием, второй части которого соответствует, мягко говоря, далеко не каждый.
В фокусе этой статьи - технологическая перспектива ближайшей пары десятилетий и связанная с ней эволюция некоторого усредненного human being, которого сегодня еще можно называть НОМО. Биологически за этот период он заметно измениться не может, а вот симбиоз с новыми технологиями способен преобразовать его радикально, превращая сегодняшних НОМО в некоторый новый вид, который вполне будет заслуживать этикетки eHOMO.
Очевидно, что еНОМО не возникнет спонтанно и ниоткуда: "продвинутый" Homo Sapience уже превращается в него, шаг за шагом приближая тот рубеж, когда новый вид станет очевидной реальностью. Можно сказать, что еНОМО уже среди нас, да и сами мы, пусть немного, но ими являемся. Трансформация только начинается, она затрагивает каждого в разной степени, но мы уже не те НОМО, которыми были 20 лет назад, хотя и еще не такие, какими станем через 10-15-20 лет.
Мы у порога новой эры - очередного захватывающего этапа в развитии Ноосферы, касающегося любого человека ближайшего будущего, его личности, судьбы, тела, и даже души.
Процесс пошел, как любил говорить один слишком хорошо известный нам лауреат Нобелевской премии мира.

1. Родео верхом на сверхвысоких технологиях

Сегодня у "идущих вместе" будущих еНОМО в одной руке ноутбук или палм, в другой - мобильник. Первый становится все более интеллектуальным и компактным, второй - стремительно вбирает в себя все больше функций (видеофон, телевизор, фото, видео, плеер, диктофон, органайзер, и т.д.), превращаясь в смартфон и двигаясь дальше к полной интеграции с остальной информационно-коммуникационной средой через всевозможные сети.
Уже понятно, что телефон в мобильнике далеко не основная функция, а скорее повод к рождению чего-то качественно нового. Происходящая ИТ революция использовала его в качестве того топора, из которого она варит щи нашего близкого будущего. Еще немного, и мобильник вырастет до статуса нашего е-Помощника и даже е-Друга, превратившись в наше Alter ego, нашу е-Тень.
При этом префикс "е" у еНОМО и других используемых в этом тексте е-сочетаний быстро теряет первичный смысл: вся сегодняшняя суперсовременная электроника - всего лишь макет недалекого будущего, в котором она станет таким же этапом прошлого, как ламповая ЭВМ, паровоз, галера или каменный топор. Очень скоро она уступит место технологиям еще более супер с приставками био-, нано- и многими другими, нам пока неизвестными.
В качестве доказательства стремительности развития компьютеров нам постоянно напоминают принцип Мура, согласно которому скорость процессора удваивается каждые два года. За этим расхожим символом прогресса ИТ ухитряются не видеть реального темпа развития вычислительной техники, который можно оценить, только учитывая, кроме скорости процессора, и все остальные составляющие компьютера от объема памяти всех уровней до степени развития интерфейсов и периферии. Между тем, отношение качества к цене ПК растет на порядок в год. В то время как для развития традиционных высоких технологий считается сенсационным скачок годовых показателей в десяток процентов, т.е. в сто раз меньше, чем в ИТ.
Сегодня средний ноутбук превосходит отечественного лидера начала шестидесятых БЭСМ-6 примерно в тысячу раз по каждому из трех основных параметров: по производительности, по объему ОЗУ и объему внешней памяти. Итого миллиард, не считая уровня программных технологий, качества интерфейса и много чего еще. Таким образом, рядовой ноутбук на несколько порядков эффективней всей вычислительной техники мира сорок (а может быть и всего тридцать) лет назад.
На сколько же выросли суммарные ИТ ресурсы за последние десятилетия, если на тот уровень, который был тогда у всего человечества, сегодня вышли возможности отдельного НОМО? И каковы будут ресурсы НОМО через 10-20 лет с учетом того, что сам он будет полностью включен в мировую вычислительную сеть этого будущего?
Как суммарный объем интеллекта, вложенного через десятки тысяч ноу-хау в эту информационную мощь Ноосферы, расширит, углубит, умножит ее влияние на ближайшую перспективу нашей цивилизации?
Траектория любого развития состоит из чередований участков поступательного процесса и точек бифуркации, т.е. крутых поворотов, отличающихся своей внезапностью: все настолько привыкают к текущему ходу событий, что как бы не видят или не могут вообразить все более очевидного приближения - точнее сказать, наезда - предстоящего драматического скачка. Их часто называют революциями. В политике они часто происходят за дни или даже часы, в технологиях - еще недавно за десятилетия. Сегодня темп развития вырос настолько, что радикальные смены технологий происходят за несколько лет, а иногда и того быстрее.
При сохранении такого темпа определение общей картины в 10-20 лет становится задачей сложной, а, скорее всего, невыполнимой. Если же учесть, что развитие вычислительной техники за свою короткую историю в полвека прошло множество бифуркаций разного масштаба, то показатель "умножение на порядок в год" может помочь только в грубой оценке отдельных составляющих, но никак не в надежном предвидении полной панорамы будущего,
Поэтому уже в начале нашего путешествия за ближайший горизонт стоит оговориться, что этих горизонтов получится не меньше трех. Ближайший, отстоящий от нас на 10-15 лет, виден достаточно ясно. До следующего, который можно отнести примерно к 2030 году, экстраполяция еще достает, но из-за неизбежных взрывов непредсказуемых бифуркаций многие детали этого горизонта теряют четкость предсказуемости. И, наконец, в третьем горизонте, угадываемом ближе к середине века, можно попытаться разглядеть только отдельные черты, лишь зарождающиеся сегодня, но кажущиеся такими же фантастическими, какими представляется эскиз взрослого организма при рассмотрении эмбриона на ранней стадии развития.
Таким образом, наше суммарное изображение еНОМО будет напоминать совмещение портретов оригинала в юности и лет двадцать спустя плюс ретушь попыток заглянуть еще на пару десятилетий дальше. В прогностике это естественно, поскольку привязать все элементы будущего к одной временной шкале просто невозможно, - по крайней мере, я такую задачу взять на себя не могу.

Продолжение следует.
В следующем выпуске главы:
2. Общий взгляд на предмет.
3. Естественный е-отбор.
4. Роботы внутри нас.

 

Лекция 5. Семантика (окончание темы "Семиотика")

16/10/04

Слово, его значение, его смысл. Анализ значений и синтез смыслов.

Разрешение типовых семантических проблем в ИС.

Еще раз о проблемах и различиях в природе и обработке полисемии и омонимии.

Типовые семантические структуры - метафора, анафора, метонимия. Способы их обработки.

Прагматика-1.

Закономерности существования текстов в обществе.

Общая филология как наука о закономерностях существования текстов в обществе.

Как появилось эта наука. Ю.В.Рождественский - создатель ОФ.

Поиск универсалий. Треугольник Ю.В.Рождественского.

 

Лекция 6. ОБЩАЯ ФИЛОЛОГИЯ

23/10/04

Понятие универсалии. Последний римлянин Боэций.

Базовые универсалии ОФ.

 

Лекция 7. ОБЩАЯ ФИЛОЛОГИЯ

30/10/04

ОФ как динамическая парадигма разворачивания и реализации универсалий управления речью в четырех фактурах - F1, F2, F3. F4 (включая WWW)

Средства поддержки функционирования данной фактуры речи.

Законы обращения с текстами для данной фактуры речи.

Особенности перехода от одной фактуры речи к другой.

Use cases -

1. Германия начала 16 века (крестьянская война) - при переходе от F2 к F3 - экспансия первопечатных Библий.

2. Китай (культурная революция - 1960-е годы) - экспансия переводных текстов из СССР.

3. СССР - 1980-е - 1990-е годы массовое вторжение текстов западных СМИ.

 

Лекция 8. Теория грамматического разбора

06/11/04

Теория грамматического разбора. Грамматика Хомского. Язык Пролог и его возможности.

 

Лекция 9. Риторика

13/11/04

Определение риторики как науки об ЭФФЕКТИВНОЙ коммуникации. Риторика как прагматика.
Риторика и логика. Риторика и истина. Образ ритора.

 

Лекция 10. Риторика

20/11/04

Общая схема коммуникации с точки зрения риторики

 

Лекция 11. Риторика

27/11/04

Риторика. Классические парадигмы.

 

Лекция 12. Риторика

4/12/04

Понятие риторического изобретения.

Тропы - девиация значений слов (метафора, метонимия, анафора и т.д.)

Фигуры - девиация порядка слов - повтор, и т.д.

Полную схему см. на сайте Rhetorics for Rookies в разделе ссылок.

 

Лекция 13. Теория Документа

4/12/04

Теория документа, построенная при помощи риторического изобретения.

Чем отличается документ от обычного текста с точки зрения семиотики, общей филологии, риторики.

Документ с точки зрения семиотики - особенности его синтактики, семантики, прагматики.

Документ с точки зрения общей филологии - особенности его хранения, передачи, авторства, создания и т.д.

Документ с точки зрения риторики - эффективность, истинность. Описание документа через другие классические парадигмы риторики.


   
Главная | Программа курса | Содержание лекций и курса | Литература и материалы курса
Лабораторные работы | Требования к экзамену | Другие материалы | Гостевая книга | Форум
Сайт управляется системой uCoz