09.02.2008   l   14:09
16.11.2006
Калибровочные бозоны, рыцари и www II

В 2008 в ЦЕРНе должен заработать Большой Адронный Коллайдер (LHC); ежесекундно будет происходить около миллиарда столкновений, в каждом из которых будут рождаться десятки частиц разных типов. Годовой объём экспериментальных данных оценивается в 10 петабайт (1 Пб = 10 15 байт) - LHC будет давать 1% информации, производимой человечеством. Требующийся для их обработки новый уровень интеграции компьютерных сетей должен быть достигнут в результате проекта EGEE (Enabling Grid for E-sciencE). Если WWW позволяет лишь совместное использование информации, то EGEE нацелен на коллективное пользование всеми ресурсами компьютеров, объединённых в сеть. Например, в июне 2006 осуществлялось пробное подключение ITU (Международного Телекоммуникационного Союза) к EGEE. При этом для обработки данных, помимо 100 персоналок ITU, было задействовано 400 персоналок из EGEE, что ускорило обработку данных в 4 раза.

Использование сетей PC для вычислений и обработки данных стало модным. Если в 1989 самый быстрый в мире суперкомпьютер ACPMAPS обеспечивал 50 Гигафлоп/сек, то в 2003 этот уровень был достигнут персональными компьютерами (MACG4). Сейчас один современный суперкомпьютер по производительности равен примерно 1 тыс. PC, так что сеть из большого числа персоналок вполне может конкурировать с суперкомпьютером.

Например, в рамках проекта SETI@home (обработка сигналов с радиотелескопа для поиска внеземных цивилизаций) было задействовано 900 тыс. PC, что давало скорость вычислений до 250 Терафлоп/сек (на апрель 2006). Для сравнения: суперкомпьютер BlueGene - 280 Терафлоп/сек (на октябрь 2005). Хотя EGEE по масштабам скромнее, чем SETI@home - он объединяет всего 30 тыс. PC с перспективой расширения до 100 тыс. - в рамках этого проекта предполагается обеспечить более надёжную передачу данных, достичь существенно большей эффективности использования PC и он разрекламирован в ЦЕРНе как проект №1. В сети EGEE на настоящий момент может выполняться 10 тыс. задач одновременно и храниться до 5 Пб. В EGEE участвует 91 институт из 28 европейских стран, а также США, Кореи, Тайваня, Турции (в т.ч. 8 институтов из РФ -  другие гос-ва СНГ и страны Балтии не участвуют в проекте). Сеть будет использоваться не только для нужд физики высоких энергий, но и для астрофизики, вычислительной химии, исследований термоядерного синтеза, расшифровки генома и т.д. Она должна быть готова к пуску LHC весной 2008 года.

В уже далёком 1989 году Бернерс-Ли мотивировал своё предложение о новом типе коммуникации так:

Формально ЦЕРН иерархическая организация (отделы, лаборатории, группы), реальные же связи между сотрудниками более напоминают паутину, меняющуюся со временем (временные группы, участие одного человека в нескольких проектах). Систему реальных связей между сотрудниками стало трудно отслеживать старыми методами, что создавало затруднения в управлении.

Чтобы справиться с этой проблемой, нужно разобраться с общими принципами контроля сложных систем, меняющихся со временем. Обычно мы рисуем сложную систему так: изображаем объекты кружочками, а связи между ними стрелочками. Это отличается от организации информации в виде таблицы или дерева, как это было принято во многих базах данных. Вывод: паутина (т.е. диаграмма "кружочки-стрелочки") - более адекватная модель восприятия реальности человеческим сознанием, нежели таблица или дерево. Что важно, она облегчает как внесение локальных изменений в схему, так и сохранение связей между объектами при реорганизации - проблема сохранения такого рода информации стояла в ЦЕРНе остро.

Бернерс-Ли ставил такую сверхзадачу: паутина должна дать возможность построения совместными усилиями модели ЦЕРНа (в идеале - мира) в виде гипертекста. Основные ингредиенты этой модели таковы:

Объекты: люди, группы людей, программные модули, проекты, концепции, документы, типы периферийных устройств, конкретные периферийные устройства.

Типы связей: А зависит от Б, А использует Б, А содержится в Б, А делает Б, А есть частный случай Б, А ссылается на Б.

И в этой паутине человек должен иметь возможность найти необходимую ему информацию даже в том случае, когда он не знает точно, что именно ему нужно.

Автор WWW не обошёл вниманием и выявление гипертекстовой структуры обычного текста. Естественные узлы, позволяющие связывать между собой различные фрагменты текста - это ключевые слова. Здесь следует отметить, что в 1985-88 ДУ использовал идею гипертекста при написании БТ. При этом система обозначенных связей между отдельными фрагментами БТ формально иерархична - имеет вид дерева (это дерево нарисовано на вкладке). Однако, Бернерс-Ли имел ввиду гипертекстовые системы, построенные по принципу паутины, позднее использованном в википедии: фрагменты текста связаны между собой посредством ключевых слов. Этого списка ключевых слов, полностью раскрывающих структуру БТ, в имеющихся вариантах текста, к сожалению, нет.

Можно провести параллель между особенностью русского языка - многочисленными придаточными приложениями, причастными и деепричастными оборотами, приводящими к "ветвистой" структуре предложения, - и "ветвистой" структурой БТ. На первый взгляд, все эти цепляющиеся друг за друга придаточные предложения-причастные обороты - очевидный недостаток русского языка, лишающий его предметности и динамичности. Иногда кажется, что частое употребление слов "причём", "при этом", неудобопереводимых на английский, топит мысль в болоте оговорок. Однако, не всё так просто. Как недавно отметил ДУ, привычка думать по-русски может иметь и положительные стороны: "Я мыслю ультрасхематично, причём схема ветвится долго. До логического упора. При таком типе мышления любые субъективные наслоения отпадают как короста."
 
(Pelikan)