Category:

Манифест В++: социальные сети + Википедия + каталог всего на одном движке

Вот! Наконец-то на habr-е появилась статья, в которой собрано воедино множество обрывочных мыслей, которые то и дело приходят сегодня на ум многим из тех, кто размышляет о будущем Интенета.
Мы прошли эпоху Форумов, на наших глазах заканчивается эпоха социальных сетей. И уже становится примерно понятно, каким будет следующий шаг. Но впервые этот следующий шаг оформлен в виде конкретного техзадания.

Оригинал заметки на Хабре, там же ссылки на первоисточник, на английский текст.
Прошу моего дорого читателя кликнуть по ссылке на Хабр и читать там. (Или хотя бы просто кликнуть, чтобы "продвинуть" этот важный и ценный для всех нас материал.)  Впрочем, копирую текст и сюда, чтобы и у меня было.

[Нажмите, чтобы прочитать копию текста с habr... Упс! Текст оказался слишком длинным, придётся разбить его надвое!]

Аннотация.

В данной статье рассматриваются методы создания социальных сетей, которые будут одновременно свободны от цензуры и спама согласно своей архитектуре. Предложенная архитектура универсальна: по выбору пользователя система может выглядеть для пользователя как соцсеть, блог, новостная лента, Википедия, или большой аннотированный каталог пригодный для поиска во всём интернете. В последующих текстах разбираются социологические метрики общения в различных коммуникационных системах и влияние коммуникационных систем на мышление человека.

Соцсеть, и не только соцсеть, сочетание нескольких разных объектов:

A.      база данных текстов с метаданными и ссылками,

B.      взаимные отношения пользователей включая дискурсы[1], то есть ещё одна база данных,

C.       хостинг – синхронизация – маршрутизация для A и B,

D.      фронтенд у пользователя. Согласно способам запроса к базам выдает соцсеть или что-то ещё.

Каждый из этих объектов является достаточно независимым от других и задаёт отдельное направление разработки: определение взаимных отношений текстов, определение отношений пользователей, способы хостинга, способы просмотра.

Отношения между текстами могут задаваться в системе ортогональных (независимых) координат[2]:


  1. Название текста, как в Википедии, это самая большая координата. Категории Википедии и взаимные ссылки позволяют оценивать расстояния между текстами количественно;


  2. Дискурс текста, то есть точка зрения. Самый важный параметр, отсутствующий в явном виде в современном интернете. Как будет описано ниже, механизм дискурсов позволит одновременно избавиться от спама и цензуры;


  3. Автор(ы) текста;


  4. Дата написания или редактирования, есть в Википедии;


  5. Язык текста, как в Википедии;


  6. Уровень сложность текста от детского до профессионального;


  7. Формат текста, например энциклопедическая или оригинальная статья, форум, блог… В Википедии есть не только энциклопедические статьи, но и форумы для авторов под статьями;


  8. Значимость и область применения текста, типы внешних ресурсов, соответствующие тексту, включая сторонние сайты или физические объекты. Например, обсуждение сети булочных или конкретной булочной, что также относится к 1 и 7. Легальный статус текста, например запрещён Роскомнадзором. Данная координата не является полностью независимой, и является скорее набором координат, а не одной координатой.


Проще и точнее осуществлять навигацию, поиск и ссылки изменяя только одну координату за шаг, а все остальные координаты по умолчанию сохраняются. В Википедии мы так осуществляем навигацию по теме статьи или по языкам. Выбор координаты для навигации задаёт форму системы. Например, если мы осуществляем навигацию по названиям текстов, то система подобна Википедии или другой Вики системе. Выбор Википедии или другой системы осуществляется точкой фиксации остальных координат, например фиксация дискурса задает точку зрения вики-системы. Навигация по авторам превращает систему в социальную сеть если точка фиксации времени – сегодняшний день, авторов можно отобрать согласно ограничению дискурса, например, или просто зафрендить. Для ленты новостей необходимо также зафиксировать дату сегодняшним днём, формат – оригинальными новостными публикациями, значимость – высокую и осуществлять навигацию по авторам.

Чтобы создать новый текст, его надо сделать отличным от существующих хотя бы по одной координате. Некоторые координаты у текста могут отсутствовать, например у блога может не быть тем, но обязан быть автор, а у статей в формате энциклопедии не будет одного автора, но очень много авторов в истории правки.

Взаимные отношения пользователей позволяют вычислять дискурсы для текстов и оценивать расстояния между дискурсами на уровне алгоритмов: в одном дискурсе друг друга лайкают. Дискурс шире френдования и может вычисляться между группами пользователей, а не только индивидуально как френдование. Авторы сами называют свой дискурс, а другие оценивают точность самоназвания.

От хостинга требуем отсутствие цензуры и спама: любой вклад принимается, но спама мы не видим. Для отсутствия цензуры необходим распределённый хостинг с неограниченным кругом владельцев. Для отсутствия спама хостим только, что сами пишем и кого читаем, то есть только себя и друзей, спам отмечаем как спам (не дислайк, дислайк обычно чужой дискурс) и опираемся на взаимное доверие в оценках в рамках дискурса. Для маршрутизации и поиска храним полностью себя и друзей + подробную карту своего дискурса (друзей друзей) + подробную карту соседей хотя бы на 1 шаг по каждой координате + примерное направление, где искать, то, что далеко от нас.

Frontend копируем у Википедии, прячем языки кроме языков которыми мы владеем, например только русский и английский. Кроме языков в левой колонке навигация по другим координатам, включая дискурсы. Способ навигации задает тип ресурса, который мы читаем. Например, выборка недавних постов френдов – соцсеть, навигация по темам статей – Википедия, по дискурсам – просмотр альтернативных точек зрения на одну тему.  Многие другие формы могут быть реализованы на основании простых наборов правил доступных для загрузки пользователями во фронтенд.

Система ортогональных координат и навигация по ним позволяет расположить тексты на сходные темы рядом, что удобно. Например, все топовые статьи о каком-то явлении из разных дискурсов окажутся рядом кто бы их не писал, под каждой статьёй соответствующий форум или место, где форум можно мгновенно создать, как новую статью в Википедии. Близость текстов на сходные темы помогает бороться с копипастой и реагировать на чужие публикации. Из сходных публикаций самая популярная будет иметь больший приоритет. Можно читать не ленту френдов с копипастой, а просто самые популярные новые посты и комментарии к ним в рамках своего дискурса на какую-то тему.

В++ потенциально очень большая система, монополия. Поисковики и каталоги способствуют монополиям, включая монополии Гугла как поисковика и Википедии как большого каталога. В середине 90-х были каталоги всего интернета, потом поисковики (со скрытым каталогом внутри), но из больших каталогов осталась только Википедия, все остальные Вики-проекты на много порядков меньше. В++ потенциально намного больше Википедии. В++ должен быть способен поглощать любой вклад, не только Википедию и все Вики-системы, но всё для чего будут написаны парсеры. Всё чего нет в В++ можно залить под своей подписью, включая более мелкие форки В++. Пользователь предпочтёт самую большую систему, самый большой каталог всего, что создаёт полноценный функционал поиска внутри В++.

Возможна реализация только части пунктов манифеста, но реализация всего манифеста В++ по всей видимости будет наиболее жизнеспособной, то есть способной поглощать остальной Веб и частичные реализации В++.

Много слов про развитие интернета через примитивизацию протоколов

Аннотация: только распределённые системы могут быть свободны от цензуры

Кризис интернета, проявляющийся в падении аудитории и курса акций Фейсбука и Твиттера, вызван повсеместным введением цензуры. Такая цензура не может быть оправдана интересами бизнеса, но носит политический характер. Например, президент США Трамп и его сторонники подвергаются цензуре и блокировкам практически с момента избрания. Новым направлением цензуры стал запрет критики официальных медицинских мероприятий, связанных с ковидом-19. Создание новых социальных сетей затруднено не только в силу монополий существующих ресурсов и сложности экспорта сложившихся пользовательских связей и текстов из старых ресурсов в новые, но и по причине принципиального невозможности гарантий отсутствия цензуры со стороны владельцев ресурсов, если владельцы есть. Гарантии отсутствия цензуры могут дать только распределённые соцсети круг «владельцев» которых может расширяться неограниченно с ростом соцсети. Свободные от цензуры распределённые социальные сети в данный момент не обладают какими-либо иными преимуществами перед существующими социальными сетями как для разработчиков, так и для пользователей, но скорее уступают традиционным соцсетям во всех остальных пользовательских аспектах. Для решения проблемы необходимо предложить концепцию нового распределённого интернета не только свободного от цензуры, но и превосходящую существующий интернет по ряду ключевых метрик, включая привлекательность системы для пользователей и разработчиков. Разработчики должны иметь возможность зарабатывать деньги, а пользователям необходимы гарантии отсутствия цензуры и спама, сохранности и доступности текстов, удобства, включая качественный поиск внутри системы и легкий перенос старых текстов в новую систему. В данной статье предпринята попытка обосновать возможность создания нового интернет-протокола высокого уровня способного удовлетворить описанным выше требованиям. Статья написана в виде манифеста, то есть предполагаемой программы действий и может содержать не полностью доказанные и совсем недоказанные тезисы, ошибки и противоречия. Особенностью большинства предложенных в манифесте методов является их новизна – пока не существует не только интернет-проектов пытающихся их реализовать, но, и по всей видимости, даже публичного обсуждения подобных проектов.

История коммуникации, примитивизация как метод создания новых протоколов

В прошлом, при помощи примитивизации, было создано простое линейное финикийское письмо из сложного пиктографического египетского письма[3]. Книгопечатание также было примитивизацией сложного труда переписчиков и иллюстраторов книг. Можно ли повторить успешный опыт примитивизации для современных коммуникационных систем? Необходимо найти способ замены огромного количества сложившихся частных конструкций интернета с помощью универсального протокола. Cложные конструкции лучше создавать из простого «алфавита» и простых «грамматических правил», как набор текстов в задаваемых авторами текстов жанрах, а не как большой набор слабосвязанных между собой практик, каждая из которых обитает на отдельном сайте.

Покажем, что можно создать сравнительно простой и универсальный протокол, В++ (Вичат не предлагать, он уже есть), реализация которого может заменить соцсети, Вики, поисковики и, потенциально, остальной Веб. Создание протокола оправдано, если В++ сможет превзойти своих конкурентов на порядки по ряду ключевых метрик, включая стоимость реализации, удобство создания, хранения и (само)оценки вкладов для авторов, доверие читателей к вкладам и возможности их оценки, качество поиска и защите от спама, возможности коммерциализации для авторов, разработчиков и хранителей контента.

Простая распределённая архитектура предполагает отказа от сайтов и системы адресации Веба согласно владельцам сайтов и физического расположения серверов согласно IP, в пользу одноуровневой распределённой системы с базами данных текстов и пользователей, но с и иерархией прав авторов на основе оценок их вкладов[4]. Единицей хранения базы данных В++ является страница, показываемая пользователям в сочетании с метаинформацией о статусе страницы позволяющей осуществлять адресацию и навигацию. Кроме ссылок, метаинформация содержит наборы тегов и «лайков» текста начиная с оценки текста его авторами. В++ использует нескольких разных типов ссылок, работающих «независимо» друг от друга, что делает В++ «многомерной» системой, в которой разные типы ссылок являются «ортогональными координатами», что позволяет задать «метрику» в геометрическом смысле для вычисления «расстоянии» и определения «направлений» между разными страницами. Основа такого многомерия заложена в существующей Википедии в виде параллельной навигации по темам статьей и языкам: смена темы статьи не меняет языка, а смена языка – тему статьи, что делает тему и язык «ортогональными» координатами. Новыми координатами В++ будут не представленные в Википедии форматы изложения, уровни сложности от младшей школы до профессионального и, самое важное, дискурсы вычисляемые из политики дружбы как в соцсетях[5]. Версии статьи с одним заголовком, но в разных дискурсах выражают разные точки зрения на одну и ту же тему. Если зафиксировать все координаты, кроме одной по которой мы осуществляем навигацию или поиск, то мы получаем «срез» В++. Множество срезов пересекаются на тексте, открытом в данный момент читателем. При навигации по темам срез В++ будет выглядеть как Википедия или другая Вики система. Перпендикулярные ему срезы могут быть набором статей на одну тему написанных с разных точек зрения при навигации по дискурсам, или набором статей на одну тему в рамках одного дискурса разной сложности при навигации по уровням сложности, или набором статей на одну тему в рамках одного дискурса на разных языках при навигации по языкам, или как личный блог одного автора при навигации по времени по вкладам этого автора, или как социальная сеть при навигации недавним вкладам выбранной группы авторов, часто связанных дружбой, то есть пишущих в рамках одного дискурса. Читатель может выбирать срез для навигации от данного вклада переключателями, который определит направление навигации и, возможно, стиль интерфейса, как у Википедии, блога, социальной сети или учебника… База данных В++ едина для всех срезов сети, но содержит информацию о «независимых координатах» каждого текста в этой базе.

Многомерность В++ является способом роста «объема» всей системы по сравнению с объемом Википедии, без существенного роста «размера» системы вдоль каждого из измерений. Здесь под «объемом» системы мы понимаем количество страниц в системе или же просто размер общей базы в гигабайтах. Размер системы вдоль одного из измерений это количество страниц в одном срезе системы, то есть размер одномерной подсистемы. Многомерность системы существенно повышает связность системы, то есть расстояния между различными страницами, дискурсами или другими ресурсами по сравнению с существующими в интернете «одномерными» системами того же объема, для которых размер просто совпадает с объемом.

Почему Википедия стартовая позиция для В++?

Википедия, с середины нулевых занимает пятое - шестое место в рейтингах некитайского интернета. В рейтингах каждой из крупных стран, кроме Китая, Википедия в первой десятке. Она на порядки превосходит сопоставимые по популярности коммерческие сайты по ряду метрик включая малое количество серверов, финансовые затраты, длительность хранения и поддержание актуальности вкладов, доступность истории правок, предсказуемость и качество результатов поиска, несмотря на примитивное устройство поискового движка. Объем всех текстов английской Википедии после сжатия не превышает 30 GB. К сожалению, самый «эффективный» ресурс сети застыл на своем месте в первой десятке и не имеет существенного развития с середины нулевых, хотя западные коммерческие проекты оказались неспособны приблизиться к эффективности Википедии[6]. Возможно ли развитие Википедии во что-то гораздо большее? Для ответа на этот вопрос надо понять, чем ещё является или могла бы стать Википедия кроме интернет-энциклопедии.

Википедия – единственный по-настоящему большой каталог всего, в том числе каталог основных сайтов интернета. Каталоги «всего интернета» в 90-е сменились поисковиками, точнее спрятались внутри скрытых от пользователей баз данных поисковиков, только Википедия осталась единственным «большим каталогом». Хотя Википедия не может служить заменой поисковикам или частным собраниям ссылок, потребуем от В++ способности содержать внутри себя как «каталог всего интернета», так и частные тематические коллекции ссылок. Под «каталогом всего интернета» следует понимать не полноту В++, но возможность пополнять В++ аннотированными ссылками на любой ресурс интересный её пользователям. При этом В++ должна сохранять структуру близкую к Википедии, что невозможно в Википедии в силу огромных размеров интернета по сравнению с Википедией, но возможно в «многомерном» В++ в силу его гораздо большего объема за счёт новых измерений.

Большой каталог, в отличие от поисковика, позволяет поддерживать обратные ссылки из Веба: при посещении любого внешнего ресурса браузер при помощи плагина позволит нажатием одной кнопки переход на страницу В++ соответствующую этому ресурсу или создание такой страницы. Таким способом к любой странице Веба можно привязать не только форум В++, но даже дублирующую страницу В++.

«Википедию внутри В++» необходимо расширить «малозначимыми» для Википедии темы. Малозначимость с точки зрения Википедии не может быть поводом для удаления из В++ из-за отсутствия процедуры удаления, но в В++ можно голосовать за значимость статьи и отмечать результат в метаданных, влияющих на выдачу. Вместо удаление В++ допускает забвение и утрату вклада, особенно в случаях, когда автор и его единомышленники отказывается от поддержания собственного вклада.

Википедия, в отличии от большинства больших интернет-систем, организованна согласно открытым и понятным для пользователей принципам. Алгоритмы выдачи поисковых запросов у Гугл – секретны, а у пользователей нет доступа к базе данных. Даже Фейсбук содержит скрытые механизмы показа ленты, а также использует тайные команды цензоров. В++ предполагает максимально открытое для пользователей внутренние устройство, доступный со стороны фронтенда интерфейс запросов к базе данных, явные процедуры взаимной оценки вкладов.

Википедия обладает мягкой адресацией устойчивой к устаревшим или ошибочным ссылкам и повреждениям. Страницы Веб-сайтов могут изменяться, что ломает html ссылки. Ссылки внутри Википедии являются просто заголовками статей и терминами, которые сохраняются в ходе развития Википедии. Сломанная ссылка внутри Википедии обычно означает просто отсутствие статьи на тему ссылки. Переход по «ломаной» ссылке предлагает создание новой статьи или страницы (переадресация в Википедии не статья для чтения, но техническая страница). Если термин напечатан с орфографической ошибкой, то страницу всё равно можно создать с перенаправлением на статью с заголовком, не содержащим ошибку. Если термин слишком узкий и пока не достоен статьи, то на странице можно сделать перенаправление на более широкий термин или раздел существующей статьи. После создания статьи точно соответствующей термину узкой направленности перенаправление будет заменено на текст этой статьи, но исходная ссылка сохранит смысл и не потребует обратного поиска и исправления. Мягкая адресация делает ненужным постоянные проверки целостности системы роботами.

Википедия также содержит ссылки и на внешние источники, явно заданные авторами. Ошибки в таких ссылках могут исправляться авторами в своих текстах. Сломанные ссылки на внешние источники могут находиться роботом, но неустойчивость ссылок Веба стимулирует авторов загружать в В++ все цитируемые источники и заменять внешние ссылки на ссылки на внутренние копии, которые в свою очередь могут ссылаться на внешние источники в разделе библиографии. Внутри Википедии уже содержится история правок, но нет доступа к удалённым страницам, что должно быть исправлено в В++. Так В++ может заменить архив сети, Wayback Machine.

Как и случае социальной сети, содержимое Википедии пишется множеством авторов. В отличие от соцсетей, страницы Википедии посвящены объектам, а не авторам – субъектам, что делает Википедию единственной большой «объективной» социальной сетью. Остальные соцсети, состоящие из авторских страниц, можно назвать «субъективными». Как социальная сеть, Википедия ставит рекорды по количеству прочтений вкладов и по сохранению внимания к вкладам на протяжении многих лет. Википедия крайне недружественна к авторам, по причине ограниченности представленных в ней форматов, строгой цензуры в рамках одного дискурса и административного произвола. Количество активных авторов английской Википедии не превышает 100 тысяч. Решение проблемы дружественности к авторам при помощи механизма множественных дискурсов и форматов позволит принять любой вклад, что будет стимулом для привлечения авторов и роста В++.

Объективная, то есть отстранённая от автора, архитектура социальной сети универсальна и даже тотальна. В объективной соцсети можно создать страницу не только для любого объекта, включая Веб-сайты, но и субъективные авторские страницы, принадлежащие одному автору. Этому же автору может быть посвящена написанная другими статья – любой субъект, то есть автор, является также и объектом. Обратное невозможно: большинство объектов лишены субъектности и не могут написать сами о себе. Википедия позволяет создавать страницы для любых объектов, включая субъектов не участвующих в написании статей о самих себе, но возникает конфликт, когда субъект желает сам писать статьи о себе сам. Этот конфликт разрешен в В++, допускающей параллельное существование как «авторских», так и «энциклопедических» страниц на одну тему, но в рамках различных форматов. В++ будет сочетать структуры ссылок «объективных» публикаций в формате Википедии с со структурой дискурсов, включающей систему дружбы и подписки социальных сетей, а также множество разных форматов, описанных в ходе обсуждения «многомерия» в предыдущей главе.

Модерация социальных сетей сейчас выполняется штатом цензоров и, отчасти, алгоритмами. Цензура В++ ограничена дискурсами, нежелательное изгоняется из одного дискурса в другой, возможно малый, дискурс, но никого нельзя изгнать из системы в целом. Дискурсы В++ образуют «коллективные разумы», обладающие внутренним согласием, что требует самоцензуру. В++ примет вид ухоженных парков с оградами, вне которых останется заброшенное дикое поле из сорняков, но каждый волен определять, что для него парк, а что сорняки. Все пользователи В++ будут оценивать вклады, но такая оценка в качестве модерации будет работать только в собственном дискурсе среди единомышленников. Упорядоченность, свойственная «дискурсу-разуму» требует сжатия подконтрольного ему интернета на порядки путём избавления от дубликатов и копипасты.

[1] Дискурсы — доминирующие точки зрения, разделяемые большим количеством людей.

[2] Описанная ниже координатная система примерно соответствует многомерному OLAP-кубу https://ru.wikipedia.org/wiki/OLAP-куб , но некоторые, причём самые большие, индексы (координаты) могут быть плохо упорядочены и обладать структурой графа благодаря ссылкам обычно направленным вдоль одного измерения, а другие разбиваться на новые измерения. Применение OLAP к социальным сетям не является новым, новым является прямой доступ пользователей к навигации по индексам OLAP прямо описывающим взаимные отношения текстов согласно понятным конечным пользователям принципам.

[3] Согласно Уолтеру Онгу, финикийское письмо было первой системой письменности на основе алфавита без огласовок сходной с современными семитскими письменностями. Предшественниками финикийского письма были упрощённые египетские системы письма для «малограмотных». Все современные алфавиты, включая греческий – первый фонетический алфавит с огласовками, произошли от финикийского. Все фонетические алфавиты произошли от греческого. Египетское пиктографическое письмо отчасти сходно с современным китайским, единственным массово применяющимся сегодня пиктографическим письмом.

[4] Многие предлагаемые в прошлом распределённые архитектуры не предполагали отказа от сайтов и их владельцев и другого наследия интернета, что усложняло их реализацию, но делало распределённую архитектуру более привычной, без всякой пользы от такой привычности.

[5] Лайки соцсетей позволяют вычислять принадлежность взаимно лайкающих пользователей одному дискурсу. Категории Википедии не являются дискурсами, но позволяют вычислять «расстояние» между разными темами статей. Чем ближе две темы, тем большему общему количеству взаимных категорий они при принадлежат. Для упрощения расчётов расстояний между разными темами желательно создание большого количества категорий.

[6] Возможно, современные коммерческие проекты принципиально неспособны достичь уровня эффективности и качества Википедии в рамках рекламной финансовой модели. Реклама отличается от спама для компаний только тем, что реклама своя, а спам – чужой. Такую неотличимую от сама рекламу можно замешивать только в самый низкокачественный и неструктурированный поток, мало отличающийся от спама. Качество и концентрация информации не допускает непрошенной пользователем рекламы, то есть допускает очень малый объем рекламы.

Исходная копия статьей на https://vignatovic.dreamwidth.org/444.html https://vignatovic.dreamwidth.org/748.html


См. окончание: Манифест В++: техзадание, разрешение конфликта дискурсов, борьба с перепостами