Microsoft viewport: не голографично, но иммерсивно

В последних числах Апреля корпорация Микрософт объявила вакансию главного разработчика ПО для некоего проекта в рамках собственного подразделения Startup Business Group. Соискателю сулят возможность переопределить методы общения между людьми (при помощи телекоммуникаций, конечно), создавая возможность в буквальном смысле “виртуально находиться” в конференц-зале, к примеру, физически пребывав на втором финише света. Подразумевается, что посредством для того чтобы виртуального двойника участник встречи сможет оглядываться по сторонам, поворачиваться к сотрудникам а также перешёптываться с ними.

Само собой напрашивалось предположение, что речь заходит о голографических “аватарах” для телеконференций (тем более что в тексте вакансии прямо указывалось, что созданные функции в будущем планируется интегрировать в Skype). Фактически, ровно в таком ключе СМИ и блоги данные и подали. Что было не совсем правомерно.

Десять или одинадцать месяцев назад поступила информация, что в Микрософт Research ведутся разработки проекта называющиеся Viewport. В описании проекта говорится, что Viewport обязан будет воображать собой всецело распределённую совокупность иммерсивной (другими словами формирующей у каждого участника эффект присутствия друг друга) конференц-связи. Образ каждого участника захватывается при помощи совокупности, включающей три цветные камеры, три инфракрасных камеры, и два инфракрасных лазерных проектора, аналогичных тем, что употребляются в Kinect. Примечательно, что применять Kinect с его собственными камерами не получается, потому, что, как отмечается в описании, синхронизировать между собой три таких контролера нереально, к тому же они склонны мешать друг другу.

Риг для захвата образа участника телеконференции и приобретаемые изображения

Благодаря этим проекторам формируется точечный растр, благодаря которому после этого в реальном времени реконструируется правильная 3D-модель участника; для этого создан особый метод, что разрешает в реальном времени воображать вид человека в виде разрежённого облака точек, причём для этого нужна только одна рабочая станция.

Схема кодирования людской вида в разрежённое облако точек

Один из главных новаторских качеств в отечественном подходе содержится в применении разрежённого облака точек вместо многоракурсной стереосъёмки для реконструкции геометрии, что разрешит существенно ускорить 3D-реконструкцию и рендеринг. Вдобавок мы воображаем схему “виртуального рассаживания”, при которой облака точек размещаются так, дабы сохранять то же размещение участников конференции относительно друг друга, какое имело бы место при встречах в действительности. Это достигается путём узкой калибровки, благодаря которой строго поддерживается обоюдное размещение взоров участников.

Это облако точек, и три цветовых видеопотока и три видеопотока, содержащих бинарные маски, полученные посредством инфракрасных камер, передаются по сетям вторым участникам виртуальной встречи – на их рабочие станции. На этапе приёма происходит разворачивание сжатых данных, наряду с этим разрежённое облако точек интерполируется в плотное при помощи метода регрессии.

Бинарные маски употребляются для неспециализированного улучшения качества будущего изображения. Плотные тучи точек после этого преобразуются в треугольные меши. Затем запускается метод размещения этих мешей в общем виртуальном пространстве. И три (либо более) виртуальных двойника участников телеконференции пристально наблюдают друг на друга: положение глаз всех участников “виртуальной” конференции всегда отслеживается, и виртуальное пространство, в котором происходит “встреча”, рендерится для каждого из них с учётом возможности, так что в точности воспроизводится и параллакс – изменение видимого положения “собеседников” довольно удалённого фона в зависимости от положения наблюдателя.

Схема размещения участников виртуальной телеконференции. Направление взора всегда отслеживается

Не обойдена вниманием и аудиосоставляющая: разработчики проекта предполагают применять методы пространственного позиционирования звука, так, дабы усиливать иллюзию присутствия: голос каждого участника конференции обязан будет исходить в точности из его виртуального рта.

В итоге каждому из участников конференции потребуются две рабочие станции, одна из которых занимается формированием “отправного сигнала” (другими словами облака точек), а вторая – рендерингом. Разработчики проекта Viewport применяли автомобили, оборудованные сходу двумя шестиядерными серверными процессорами Xeon Six-Core X5690 с тактовой частотой 3,46 ГГц, оснащённые 24 видеокартами и гигабайтами памяти NVidia Geforce GTX 580. Топ-модели, в общем.

Подробное техническое описание проекта приводится в объёмном, изобилующем формулами документе, дешёвом тут. Слово “голограмма” в нём не употребляется ни разу.

Может сложиться чувство, что исследователи из Микрософт Research, сами того не хотя, всем запудрили мозги. Но никакого обмана тут не было и в помине: журналисты ухватились за термин “голограммы”, но, к сожалению, обращение тут идёт только о конференциях в виртуальном пространстве, а не о встречах, где люди и высокодетализированные голограммы смогут сидеть за одним столом и при необходимости перешёптываться между собой.

Вследствие этого появляется вопрос осмысленности всей выдумки. Микрософт, но, далеко не единственная компания, которая трудится в этом направлении: подобные прототипы уже представлены Hewlett-Packard (совокупность Halo) и Cisco (Telepresence). Главным преимуществом собственного Viewport Микрософт вычисляет возможность правильного позиционирования моделей так, дабы сохранять обоюдное размещение глаз собеседников: в случае если им необходимо наблюдать друг на друга, то они наблюдают друг на друга, а не в камеру, к примеру.

Демонстрация прототипа Viewport

Увлекателен и второй нюанс: Viewport предполагает, что в реальном времени формируются правильные и высокодетализированные 3D-копии собеседников. На приведённом выше скриншоте, само собой разумеется, видно, что “виртуальные” собеседники представлены трёхмерной графикой, причём не совершенного качества. Но Viewport – это всё ещё прототип. Увлекательнее всего будет взглянуть, что случится через несколько лет и как удастся сделать этих “виртуальных двойников” жизнеподобными.

Эксперты по компьютерной графике много лет бились над проблемой “ужасной равнины”; сейчас наметилось её преодоление, хотя бы и частичное.

И уж по крайней мере о том, дабы конструировать всецело жизнеподобных компьютерных двойников любого человека в реальном времени, и речи не шло.

Получение “фотореалистичного” (видеореалистичного) 3D-изображения живого человека так, дабы его нереально было отличить от живого, с применением довольно минималистичного комплекта инструментов (две рабочие станции вместо большой рендерфермы) и в настоящем времени – это в самом деле окажется прорывом. При условии, что проект будет реализован до конца.

О современных технологиях

Layer Setting in AutoCAD2016(Part 20)

Похожие статьи: