Дополненная реальность. Все, что вы хотели узнать о технологии будущего Папагианнис Хелен
Helen Papagiannis
AUGMENTED HUMAN
© 2018 Eksmo Publishing Company
Authorized Russian translation of the English edition of Augmented Human ISBN 9781491928325 © 2017 Helen Papagiannis
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.
© Михайлов В.Г., перевод на русский язык, 2017
© Оформление. ООО «Издательство «Эксмо», 2019
Об авторе
Хелен Папагианнис – признанный во всем мире эксперт в области дополненной реальности, уже более десяти лет работающая в этом направлении как исследователь, разработчик и технологический евангелист. Была руководителем по инновациям в Infinity Augmented Reality Inc. и старшим научным сотрудником в лаборатории дополненной реальности Йоркского университета в Торонто. Хелен Папагианнис – спикер TEDx, ISMAR и ISEA. Ее лекция на TEDx в 2011 г. попала в десятку самых рейтинговых видеороликов о дополненной реальности, а в 2016 году она вышла в финал престижной «Всемирной технологической премии». До того, как она начала заниматься исследованиями в области дополненной реальности, Хелен сотрудничала с дизайн-бюро Bruce Mau Design, где возглавляла проект «Значительные изменения: будущее глобального дизайна», организовала новаторскую выставку и участвовала в написании бестселлера, посвященного новейшим изобретениям и технологиям, изменяющим мир.
Вводное слово
Подлинность новых купюр в 200 и 2000 рублей можно проверить с помощью мобильного приложения дополненной реальности. Наводите камеру телефона – и готово. Этой новости уже несколько месяцев, так почему же я решила начать с нее? Само по себе приложение – скорее забава, чем серьезная разработка, но мне кажется, это отличная иллюстрация того, что дополненная реальность уже стала частью нашей жизни, если такие структуры, как Гознак РФ, используют ее и если это касается такой консервативной сущности, как деньги. Или еще один пример: мой 12-летний сын ходит в кружок по программированию на Unity (это самый популярный движок, в котором работают разработчики дополненной реальности). И это в общем-то рядовой факт для московского школьника в наши дни: кто-то ходит на баскетбол, а кто-то – «на Unity».
Одно из ключевых свойств технологии – улучшать жизнь, незаметно, органично и естественно для человека. Вы думаете, что это все еще фантазия про будущее, а она уже в вашем кармане, доступна на самых ходовых версиях Android и iPhone.
В России работает порядка 20 компаний, которые занимаются дополненной реальностью (Augmented Reality, AR), в том числе и компания Formika Lab. Одни создают hardware – «железо», – и будет здорово, если их идеи по созданию AR-устройств (очков дополненной реальности) или платформ смогут конкурировать с идеями Microsoft, Apple или Google. Победить такие корпорации почти невозможно, но вполне реально придумать «фичу», которую те купят.
Большая же часть AR-компаний (и мы в том числе) думает не столько о создании технологии (она уже есть и будет стремительно развиваться), сколько о ее грамотном использовании. Она должна быть полезной для людей и экономически целесообразной для компаний. И вот здесь есть где развернуться.
Автор книги, которую вы держите в руках, Хелен Папагианнис пишет про AR: «Не слишком часто рождается совершенно новая среда», – и, ссылаясь на главу Apple Тима Кука, добавляет: «AR – такая же значительная идея, как смартфон». Мне, как разработчику дополненной реальности, этот тезис, конечно, нравится. И я верю в колоссальный потенциал разработки, которая, к слову, и существование самого смартфона может сделать ненужным. AR сейчас требует использования устройств (очков или телефона), но в будущем достаточно будет голоса или даже сигнала вашего мозга.
Чем хороша книга «Дополненная реальность»? Тем, что она не столько о технологии, сколько о человеке. Она подходит для широкого круга читателей. Но, думаю, ее любопытно будет прочитать и разработчикам. AR принято считать визуальным инструментом: дополненная реальность дает нам «новые глаза». Но также – и на это обращает внимание Хелен – она дает нам новые уши, нос, цифровую тактильность.
Любопытно, что одной из первых сфер, где стали активно использовать виртуальную и дополненную реальность, стала медицина. Еще в 1996 году было создано приложение виртуальной реальности (Virtual Reality, VR) для снятия боли у пациентов. Отсутствие зрения, слуха, возможности говорить и передвигаться привели к большому количеству изобретений в области AR и VR. Автоматически раздвигающиеся двери не выглядят так, будто их создали для людей с ограниченными возможностями. Но это именно так. Продолжая аналогию: и другие технологические идеи, созданные для преодоления физических ограничений, способны существенно расширить способности здоровых людей. Тело – это, пожалуй, самый «естественный» интерфейс, который у нас есть.
В книге собраны десятки примеров приложений, способных передавать звуки, запахи, вибрации. Лаборатории по всему миру работают надо созданием продуктов, способных напрямую обращаться к отдельным участкам мозга. Главная рекомендация, которую могу дать: при прочтении вооружитесь ноутбуком и телефоном, не поленитесь посмотреть видео экспериментов и попробуйте установить описанные здесь приложения. Так ваше погружение в тему будет более увлекательным.
И позволю себе еще один совет: читайте о технологиях, интересуйтесь новыми разработками и идеями. Это новая грамотность. Нам повезло жить в мире, который стремительно меняется за счет повсеместного распространения различных технологий. Все-таки лучше понимать, как они работают.
Екатерина Дегай, директор Formika LAB, российской компании, специализирующейся на дополненной и виртуальной реальностях, апрель, 2018 г.
Предисловие
Когда Хелен сказала мне, что собирается издать эту книгу, я вызвался (а если точнее, попросил ее) написать это предисловие. На тот момент я еще не успел прочитать ее рукопись и понимал только основной замысел того, что она намеревалась рассказать, но, зная ее репутацию в ученых кругах, я понимал, что эта работа будет очень точной и содержательной.
Многие люди трудились совместно для того, чтобы создать эту новую технологию. Долгие годы ее рассматривали как нечто новое, как технологию, применение которой еще не найдено. Недостаточная известность ограничивала возможности по ее распространению, без чего нельзя было привлечь необходимые инвестиции и, в конечном счете, сделать дополненную реальность экономически жизнеспособной и широко распространенной. Поводом для написания мною настоящего предисловия является то, что я был одним из так называемых пионеров, которые находились у истоков разработки AR.
Для меня это путешествие началось 52 года назад, когда я служил офицером ВВС США на авиабазе Райт-Паттерсон, где работал над созданием кокпитов для истребителей и других военных машин. Моя задача состояла в том, чтобы решить проблему получения и передачи пилотом диапазона частот, обрабатываемых или пропускаемых авионикой, с учетом сложности систем, c которыми они работают в напряженной и опасной обстановке. Эта проблема побудила меня начать поиск возможностей дополненной реальности, помогающих пилотам управлять самолетами на более высоком уровне восприятия. Идея состояла в том, чтобы собрать и отобразить информацию в виде виртуальных изображений, спроецированных и наложенных на находящуюся в поле зрения пилота картинку, используя специальные устройства, расположенные в шлеме. Позже в рамках этих исследований я также занимался проблемами виртуальной реальности (сокр. VR от англ. «virtual reality»).
Теперь, когда технологии AR и VR практически сформировались (это заняло больше времени, чем я ожидал), моя миссия как создателя соответствующего инструмента подходит к концу. Пришло время передать переходящее знамя Хелен и ее команде. Одно дело – создать новый инструмент, но еще важнее – суметь его использовать. В конце концов, результат – это самое главное.
Как я уже отметил, Хелен Папагианнис проделала значительную работу в ходе написания этой заслуживающей внимания книги. В ней закладывается основа для понимания термина «дополненная реальность» с ее различными формами; здесь вы найдете систематический подход и классификацию приложений, а также описание самого предмета исследования и используемых на его базе приложений (и их создателей). Но автор не останавливается на этом. Складывая мозаику из своих рассуждений, Хелен подводит нас к пониманию того, что AR – это необычная технология. Это не просто новый инструмент – это способ дополнить человека. Применение этой технологии не предполагает изоляцию от реального мира, как, например, телевидение, фильмы или виртуальная реальность, а, наоборот, позволяет дополнить реальный мир, усиливая тем самым эффект восприятия. С этого ракурса она показывает нам, что AR несет в себе потенциал для развития и что наше представление о перспективах этой технологии пора расширять.
Если говорить о потенциале технологии AR, необходимо отметить, что она может повысить уровень нашей свободы при помощи, например, нелинейного повествования и альтернативных реальностей, изменяющих само физическое восприятие. Как пишет Хелен, нам нужно отбросить старое мировосприятие.
Автор книги предвидит в ближайшем будущем целый поток открытий в области того, что она называет «человек дополненный». Несомненно, ее слово не последнее в этом вопросе, и это важная и необходимая веха в одиссее по дополнению человека.
Я особенно ценю понимание и чуткость Хелен по отношению к роли создателей (или «операторов чудес», как она их называет) как стимула в развитии технологии. Исходя из моих собственных наблюдений, нет какого-то одного сообщества, которому принадлежит это пространство. Это место как для рассказчиков и художников, так и для инженеров и ученых, работающих в области компьютерных наук. Надеюсь, что эта технология станет «невидимой», так что применять ее в будущем станет еще легче.
Я присоединяюсь к выводу, который делает Хелен в конце этой книги, что нам нужно работать вместе, как единая цивилизация, для того чтобы максимально эффективно использовать инструменты нашего времени, возвысить человечество и вдохновить всех на позитивные изменения в мире. Поскольку в конечном итоге мы должны ответить на единственный вопрос: станет ли дополненная жизнь лучше обычной?
Том Фернесс, основоположник технологий AR/VR и основатель Virtual World Society, июль 2017 г.
Введение
Почему я написала эту книгу
Двенадцать лет назад я впервые осознала возможности дополненной реальности как нового инструмента коммуникации. Это была чистая магия: виртуальный трехмерный куб возник вокруг меня, что меня абсолютно поразило. Дополненное изображение куба не было интерактивным в то время (оно не делало ничего, кроме как появлялось), однако это заставило меня задуматься о том, как AR может расти и развиваться. Начиная с этого момента я посвятила свои исследования и публичные выступления новым возможностям, которые открываются благодаря технологии AR.
Я написала эту книгу, потому что стала свидетелем того, как фокус в работе с этой технологией наконец смещается с нее самой к разработке классного контента и поиску новых возможностей применения AR. Эта книга посвящена как раз таким «большим идеям» и новым необычным проектам на основе дополненной реальности. Пришло время представить, смоделировать и начать воплощать в жизнь наше чудесное будущее.
По мере того, как AR развивается, мы должны задаться вопросом: как дополненная реальность может усовершенствовать жизнь пользователей, сделать ее проще и лучше? Основатель Медиалаборатории Массачусетского технологического института (МТИ) Николас Негропонте однажды сказал: «Компьютеризация – это уже не о компьютерах. Это о жизни». Аналогично и AR – это понятие, подразумевающее теперь не только технологию, но и реальную жизнь и ее наполнение новым волшебным и необычным опытом. В этой книге рассказывается о том, как AR обогатит нашу повседневную жизнь и беспрецедентным образом расширит человеческие возможности.
Кто должен прочитать эту книгу
Совершенно новая среда появляется редко. Вы должны прочитать эту книгу, если вы создатель, исполнитель или исследователь, прокладывающий путь там, где пока нет рельсов, и хотите внести свой вклад в эту стремительно развивающуюся отрасль. Вас также должна заинтересовать эта книга, если вы относите себя к продвинутым пользователям, открытым для всего нового.
Для того чтобы понять содержание этой книги, не требуется обладать какими-то специфическими знаниями об AR. Для достижения наилучшего эффекта я рекомендую познакомиться с технологией AR самостоятельно на конкретном примере (в идеале на нескольких примерах), включая любые приложения, упомянутые на страницах этой книги.
Структура книги
В главе 1 дается классическое определение AR образца 1997 года, а также ее эволюция вплоть до сегодняшнего дня и тенденции развития. В этой главе представлены новые горизонты AR, которые делают возможными новое пространственное восприятие и новые ощущения. Благодаря этому опыт использования дополненной реальности становится более захватывающим, интегрированным и интерактивным.
В главе 2 рассказывается о том, как компьютерное зрение дает нам «новые глаза» и перспективы для взаимодействия с миром, начиная с художественных инсталляций и заканчивая роботами и беспилотными автомобилями, помогающими людям с ослабленным зрением.
Глава 3 посвящена исследованиям инноваций в области тактильных технологий (тактильная обратная связь) для синхронизации того, что мы видим, с тем, что мы чувствуем, и для создания новых путей взаимодействия с использованием сенсоров.
Помимо использования звука для навигации и повествования, в главе 4 рассматриваются подходы к расширенному звуку и описываются «беспроводные наушники-вкладыши» (аудиогарнитура, помещаемая в ухо), которые меняют способ восприятия вами окружающей среды и позволяют окружающей среде «слышать» вас.
Из главы 5 вы узнаете о такой растущей области научных исследований, как цифровые запах и вкус – о новейших прототипах и разработке продуктов, дополняющих возможности обмена информацией с миром, усиливающих ощущения от развлекательных приложений, углубляющих наши знания об окружающей среде и влияющих на качество жизни в целом.
В главе 6 мы узнаем о том, как технология AR открывает впечатляющие перспективы для повествования и информирования людей, познакомимся с уже существующими разработками в этой области и узнаем, куда нас приведут грядущие изобретения.
В главе 7 рассматривается, как аватары, интеллектуальные агенты, новые объекты и материалы в реальном времени видоизменяют контекст таких привычных процессов, как обучение, развитие, прогнозирование.
В главе 8 рассказывается о том, как человеческий организм можно дополнить различными технологиями, от электронных тканей до встроенных в организм интерфейсов, контролируемых мозгом.
В главе 9 приводится десять категорий современных экспериментальных AR технологий, которые, возможно, изменят ближайшее будущее и даже смогут привести все человечество к невиданному прогрессу.
Глава 1. Новая волна реальности
Очень скоро вы войдете в новую реальность. Здесь мир дополняет вас, подстраиваясь под ваше окружение, предпочтения и потребности. Реальность становится гибкой, изменчивой и высоко персонализированной; все это настраивается и управляется вами. Весь мир в одно мгновение становится изменяемым, нарушая коммуникационные барьеры и создавая новое сенсорное сознание, которое коренным образом меняет зрение, слух, осязание и обоняние. Правила старого мира больше не применимы. Портативные компьютеры, датчики и интеллектуальные системы расширяют человеческие способности и наделяют нас сверхспособностями.
Это новая Дополненная Реальность. Вы готовы?
В этой книге я расскажу вам о дополненной реальности, о возможностях и перспективах развития этой технологии. Я продемонстрирую вам возможности нового цифрового измерения и покажу, как функционирует эта среда. При этом вам не придется оставлять свою физическую реальность. Цифровые изменения уже вошли в ваш мир.
Позвольте мне объяснить. Эта книга не о виртуальной реальности (VR), но научиться различать AR и VR все же необходимо. Для использования технологии VR нужно надеть специальную гарнитуру, которая полностью блокирует физическое восприятие, заменяя реальный мир измененной компьютерной средой.
Приложение SnowWorld, разработанное в лаборатории Технологии человеческих интерфейсов (сокр. HIT, от англ. Human Interface Technology) Университета Вашингтона в 1996 году Хантером Хоффманом и Дэвидом Паттерсоном, было первой программой, погружающей в мир VR, призванной снизить болевые ощущения у взрослых и детей. SnowWorld был разработан специально для того, чтобы помочь в лечении пациентов с ожогами и уходе за ними. Хоффман объясняет[1], как технология VR помогает облегчить боль, отвлекая пациентов от реального мира:
Боль требует сосредоточения внимания. Суть VR заключается в том, что при ее использовании пользователь переносится в компьютерную среду. Погружение в другой мир задействует много когнитивных ресурсов, отвлекая мозг от обработки сигналов о боли.
Технология VR основана на иллюзии погружения в иное пространство и время, которые, как правило, сильно отличаются от реальности. В технологии AR вы не покидаете реальный мир, и виртуальная составляющая вливается в ваше окружение посредством прозрачных цифровых очков, смартфона, планшета или портативного компьютера. Вы по-прежнему будете видеть и ощущать реальный мир вокруг себя всеми органами чувств, но теперь он расширен при помощи цифровых технологий и изменяем.
Одним из первых приложений с применением технологии дополненной реальности было Word Lens[2]. Представьте себе путешествие в страну, местным языком которой вы не владеете. Заказать блюдо из меню или понять информацию на дорожных знаках без чьей-то помощи может оказаться трудной задачей. С помощью Word Lens вы можете навести ваш смартфон на напечатанный текст на иностранном языке и тут же перевести его на выбранный вами язык. И, таким образом, благодаря технологии AR вы глубже погружаетесь в новую среду.
На технологию VR есть свой специфический спрос, но AR позволяет нам глубже погружаться в реальный мир и быть с ним теснее связанными – мир, в котором мы проводим большую часть нашего времени. Как и в случае с VR, мы должны осознавать, что расходуем наши «ресурсы внимания» для восприятия информации из дополненной реальности, но вместе с тем мы не отстраняемся от окружающего мира или друг от друга. Нужно отдавать себе отчет в том, что в центре этой новой среды находится сам человек. Главная цель всего этого – не потеряться во всевозможных устройствах, но дополнить нашу действительность технологическим фоном, продолжая при этом жить реальной жизнью.
Что такое дополненная реальность?
Наиболее распространенное определение AR звучит так: цифровое наложение на реальный мир, выраженное в компьютерной графике, тексте, видео или аудио, которое является интерактивным в реальном времени. Технической оболочкой для дополненной реальности является смартфон, планшет, компьютер или AR-очки, оснащенные специальным программным обеспечением и камерой. Вы можете использовать AR, чтобы найти и идентифицировать звезды и планеты[3] в ночном небе или узнать больше про музейные экспонаты с помощью интерактивного AR-гида[4]. AR предоставляет возможность лучше понять наш мир и почувствовать его совершенно по-иному.
Краткое определение AR, используемое по настоящее время, было дано в 1997 году пионером этого направления Рональдом Азума, и звучит оно следующим образом: «AR позволяет пользователю видеть реальный мир с виртуальными объектами, наложенными полностью или частично на объекты реального мира. Поэтому AR дополняет реальность, а не полностью заменяет ее»[5].
Технология AR заключается в накладывании виртуальных образов на сфокусированный реальный предмет с помощью камеры и программного обеспечения на включенном устройстве, таком как смартфон. В качестве предметов из реальной жизни могут быть выбраны знаки, изображения, объекты, звуки, местоположение или даже человек. Исходные данные обрабатываются с помощью программного обеспечения и сравниваются с базой данных потенциально соответствующей информации. Если есть совпадения, запускается технология AR, и дополненный контент накладывается поверх реальности.
Согласно определению, данному Рональдом Азума, дополненная реальность включает в себя следующие три характеристики:
• объединяет реальный и виртуальный миры;
• интерактивна в режиме реального времени;
• обеспечивает распознавание в трех измерениях (3D).
Распознавание, третья характеристика, состоит в том, чтобы эффективно вписывать трехмерные виртуальные объекты в реальный мир. Без точного распознавания иллюзия существования виртуальных объектов в реальном мире будет нарушена и эффект реалистичности не будет достигнут. Так, если виртуальная AR-лампа парит над вашим столом, а не стоит непосредственно на столе, то такой технический сбой разрушает иллюзию того, что эта лампа действительно находится в вашем пространстве (если только не допустить, что в вашем офисе завелись призраки). Зато если к какому-то виртуальному объекту добавить, например, тень, он станет для вас более правдоподобным, поскольку будет иметь характеристики окружающей физической среды.
Как развивается AR
То, чего, по моему мнению, не хватает в этом описании сегодня и что отличает следующую волну развития AR, – это контекст. Контекстная информация преобразует наш опыт взаимодействия с AR, поскольку теперь с одинакового опыта для всех пользователей дополненная реальность сместилась в сторону персонализированного опыта, учитывающего ваши расположение, интересы и потребности. Контекст основывается на характеристиках получаемой из внешнего мира наиболее важной информации и подстраивается под вас, накладывая соответствующие образы поверх реального мира.
Контекстное распознавание технологии AR не только должно позволять лампе выглядеть так, будто она действительно находится на столе (как говорилось в определении 1997 года). Технология должна обеспечивать появление лампы тогда, когда вам требуется больше света, или выключать свет, когда вы уходите с работы. Технические аспекты этой задачи будут решены в ближайшее время, и, хотя эта сторона продолжит оставаться важной, фокус в дальнейшем сместится на вопросы значимости и эффектности получаемого пользователем опыта по дополнению реальности.
Процесс поиска целей усложняется и теперь заключается не просто в распознавании цели, выбранной из статичной библиотеки вещей, как, например, изображение динозавра в учебнике, запускающее трехмерную модель динозавра, отображаемую в дополненной реальности. Сегодня эта трехмерная модель может изменяться, подстраиваясь под такие факторы, например, как уровень знания предмета каждым из учеников или даже их индивидуальные особенности восприятия информации. Так, в следующий раз, когда ученик откроет книгу, AR изображение динозавра изменится с учетом нового изученного материала. Технология дополненной реальности становится живой, «дышащей» базой данных: взаимодействие факторов внешнего мира и дополненной среды, изменяющихся в реальном времени, позволяет технологии адаптироваться под ваши индивидуальные особенности, исходя из имеющихся данных.
Уже давно пора переосмыслить значение технологии AR и ее возможное применение, учитывая, что в настоящее время она вышла за рамки чисто теоретических рассуждений и получает все больше практического применения. Раньше для использования AR требовалось специальное оборудование, которое было громоздким и неудобным. Но сегодня, благодаря тому, что современные смартфоны оснащены огромным количеством датчиков, технология AR стала доступна практически каждому. В дальнейшем дополненная реальность будет применяться все чаще, например в незаметных портативных компьютерах, встроенных в одежду, очки или даже вшитые под кожу человека.
Крупные компании, такие как Apple, Facebook, Microsoft, Google и Intel, пристально наблюдают за дополненной реальностью и инвестируют в ее будущее, привлекая к ней массовую аудиторию. Генеральный директор Facebook Марк Цукерберг называет AR «новой коммуникационной платформой». Он пишет: «Мы считаем, что настанет день, когда дополненная реальность станет частью повседневной жизни для миллиардов людей»[6].
Генеральный директор Apple Тим Кук считает[7], что AR – это «настолько же значительная идея, как смартфон». Кук говорит: «Я думаю, что потенциал AR настолько велик, что его можно назвать огромным. Я очень впечатлен возможностями дополненной реальности, они могут улучшить жизнь многих людей и сделать ее более насыщенной». В 2017 году на ежегодной Всемирной конференции разработчиков (WWDC) компания Apple представила ARkit, передовую платформу для разработки приложений AR для iPhone и iPad. В Докладе WWDC Крейг Федериги, старший вице-президент Apple по разработке программного обеспечения, назвал ARkit «самой распространенной платформой AR в мире»[8].
AR – это расширение ощущений человека, и эта технология не будет развиваться изолированно. Реальный эффект AR будет заключаться в том, что она станет основой для создания среды, сочетающей в себе также другие новейшие технологии, такие как портативные компьютеры, датчики, Интернет вещей (сокр. IoT от англ. «Internet of Things»), машинное обучение и искусственный интеллект.
Первая волна AR, которую я называю «наложение», была связана с наложением цифровых образов поверх реальности. В качестве примеров «наложения» можно привести трехмерную модель бейсболиста, возникающую на бейсбольной карточке, или виртуальную игру-викторину, появляющуюся на картонной подставке для кружки в баре. Эти проекты практически не имели вариаций и не менялись, если вы взаимодействовали с ними повторно; типичный одинаковый контент, не вызывающий у пользователя желания обратиться к нему снова. Часто для такого рода приложений также требовалось загрузить и распечатать определенное изображение для фокусировки, распознавания и запуска дополненной реальности.
Вторую волну AR я называю «Проникновение». Это новое поколение является более захватывающим, интегрированным и интерактивным по сравнению с первым. Ключевое различие между «Наложением» и «Проникновением» (в котором собственно и заключается секрет получения впечатляющего опыта взаимодействия с AR) – это вы. Вы являетесь движущей силой в «Проникновении». Вы – это контекст, определяющий дополненную реальность.
В отличие от «Наложения», технология этой волны выходит за рамки использования напечатанных объектов к новому пониманию пространства и глубокому погружению в окружающую среду. Весь мир становится объектом трекинга. При переходе к технологии «Проникновения» снимаются ограничения «Наложения» и возникает возможность для сенсорного и более тесного взаимодействия как с внешним миром, так и друг с другом.
Новые сенсорные смартфоны, поддерживающие технологию AR, такие как Lenovo Phab 2 Pro и Asus ZenFone AR, использующие в работе технологию AR от Google под названием Tango, – отличные пример того, как работает «Проникновение». Технология Tango включает в себя отслеживание движения и восприятие глубины, позволяя устройству ориентироваться в физическом пространстве подобно тому, как это делают люди.
Когда вы держите устройство и перемещаете его по комнате, камера, распознающая глубину, фиксирует то, что расположено рядом, и может определять физические границы и местоположение предметов вокруг. Оно способно определить, где находятся стены, пол и даже мебель. В недалеком будущем такие технологии, как Tango, позволят по-новому взглянуть на привычные повседневные действия, такие как, например, рассказывание ребенку сказки на ночь. Представьте себе, что кровать превращается в виртуальный джип для сафари, и обезьяна прыгает с комода на лампу, в то время как лев крепко спит на комоде. Ваша физическая среда, переплетаясь с виртуальным дополнением, погружает вас внутрь самой истории.
Проникновение в ваши чувства
Kinect от Microsoft позволил технологии AR сделать большой шаг вперед в области распознавания целей в реальном мире. Kinect сыграл важную роль в этом, сделав человека частью AR, благодаря отслеживанию движений тела. До Kinect цели для распознавания AR были, как правило, статичными и ограничивались напечатанными изображениями. Эта технология сделала AR более интерактивной и позволила распознавать не только ваши действия, но даже выражение лица и эмоции. (В главе 2 рассказывается, как компьютерное зрение усовершенствовало AR и как оно позволяет нам по-новому взглянуть на мир через эти новые «глаза».)
Изобретатель Kinect Алекс Кипман (он же изобрел AR-гарнитуру Microsoft HoloLens) описывает[9]влияние Kinect, как «монументальный сдвиг от компьютерной индустрии из того старого мира, в котором мы должны были понимать технологии, в новый мир, где технологическая составляющая растворяется и начинает понимать нас». Технология AR не только распознает нас и окружающую среду, но и начинает распознавать нашу деятельность и реагировать на нас. Взаимодействие с технологией становится более естественным, так как технологическая составляющая исчезает и ощущения выходят на передний план. Это и есть «Присутствие».
«Присутствие» обеспечивает новый уровень погружения: от эффекта технологии «Наложения» мы переходим на новый уровень, на котором благодаря взаимодействию технологии со всеми нашими чувствами, мы оказываемся в более многомерном пространстве. Взаимодействие со всеми остальными человеческими чувствами, помимо зрения, будет играть наиболее важную роль в следующей волне AR. Например, дополненный звук часто сопрягается с визуальными эффектами, но звук может использоваться в AR и самостоятельно, без визуальной составляющей, или даже интегрироваться с элементами воздействия на другие органы чувств. В дополнение к визуальному и аудиальному восприятию, в настоящее время AR может воздействовать на осязание, обоняние, вкусовые рецепторы и даже создавать новые ощущения (более подробно об этом вы можете прочитать в главах 3, 4 и 5).
«Проникновение» – это технология AR, создающая новый гибридный режим, который объединяет реальное и виртуальное. AR наполняет физический мир цифровыми свойствами, а виртуальный мир становится осязаемым. Технология дополненных тактильных ощущений воздействует на чувство осязания человека за счет изменения давления воздуха, деформируемых экранов и специальных контроллеров. Например, AR позволяет протянуть руку и погладить виртуальную кошку, ощутив прикосновение к ее шерсти и вибрацию от мурлыкания.
Благодаря технологии AR также возможно создание вкуса и запаха с использованием таких устройств, как, например, Electronic Taste Machine[10] и Scentee – оба изобретены Эдрианом Дэвидом Чоком, профессором, изучающим полную информатизацию в Университете Лондона. Scentee – небольшое устройство, подключаемое к аудиоразъему смартфона и позволяющее отправлять сообщения, которые источают определенный запах. Electronic Taste Machine благодаря использованию металлических датчиков может передать на ваш язык разные вкусовые ощущения – от кислого до горького, соленого или сладкого, в зависимости от типа электрического тока, проходящего через электрод. В результате этого в мозг передается виртуальное ощущение вкуса.
Чокхочет, чтобы мы могли взаимодействовать с компьютерами так, как мы это делаем в реальном мире, используя при этом все пять чувств. Он объясняет[11]:
Представьте, что вы смотрите на свой рабочий стол или на свой iPhone или ноутбук, где все находится за стеклом, в окошке, и вы либо касаетесь экрана, либо наблюдаете за происходящим через него. Но в реальном мире мы можем приподнять стекло или открыть окно, прикоснуться и почувствовать вкус или запах.
Эта следующая волна AR позволяет нам «открыть окно» и расширить спектр человеческих чувств.
Человеческий мозг может воспринимать оцифрованные и электрохимические сигналы, создавая новые ощущения. Человеческий глаз не различает такие явления, как радиоволны, рентгеновские лучи и гамма-лучи, потому что у нас нет соответствующих биологических рецепторов. И дело не в том, что эти лучи невозможно увидеть; человек не может увидеть их, по крайней мере пока, потому что у нас нет соответствующих органов чувств. AR может дать людям такие сверхспособности, благодаря которым мы не только увидим больше, но и сможем использовать все остальные органы чувств, получая более насыщенный опыт и знакомясь с расширенным спектром информации и данных. Теперь у нас есть технология, позволяющая узнать этот мир намного лучше.
Различное применение AR
Давайте рассмотрим несколько отраслей, которые новая волна AR уже затронула.
Дополненное здравоохранение
Благодаря AR у врачей появилась возможность взаимодействовать с виртуальными 3D-моделями человеческого тела. Так, сегодня врачи могут работать с цифровыми моделями и даже трехмерной печатью на различных этапах лечения. Новейшие разработки в области сенсорно дополненного восприятия однажды позволят хирургам оперировать виртуальный мозг, ощущая его физически, прежде чем выполнять реальные операции.
Дополненное образование
Уже сегодня технология AR позволяет распознавать выражения лиц, позволяя, например, отследить момент, когда у студента возникли сложности в освоении материала. Учителя смогут использовать эту технологию в ближайшем будущем для изменения содержания уроков в зависимости от воздействия на учащихся. Например, если вы обучаетесь дистанционно или просматриваете лекцию через свое устройство AR и по вашему выражению лица можно сказать, что вам что-то непонятно, предмет будет разъяснен вам еще раз. Или, например, если вы отвлеклись, ваше внимание может привлечь какой-то вопрос.
Дополненная торговля
С помощью AR уже сегодня можно посмотреть, как будут выглядеть те или иные вещи в вашем доме (например, мебель) или как они будут смотреться на вас самих, если речь идет, скажем, о часах или одежде. Современные технологии развиваются таким образом, чтобы дать вам возможность не только видеть, как выглядят вещи, но и прикоснуться к ним.
Дополненная работа
AR уже сейчас позволяет получать инструкции и помощь в реальном времени, делясь изображением того, на что вы смотрите, с другими людьми. Формируются новые процессы проектирования, позволяющие осуществлять дистанционное сотрудничество в режиме реального времени, в результате чего меняется сам подход к работе людей, находящихся в разных точках земного шара. Например, архитектор из Японии может виртуально присутствовать на месте строительства в Канаде и оказывать строителям полноценную поддержку.
Дополненные развлечения
Однажды вам больше не понадобится телевизор: ваша AR-гарнитура станет вашим развлекательным центром, наполненным персонализированным контентом. Независимо от того, появится ли в вашем доме ваш любимый исполнитель и споет вам, или вы окажетесь в открытом поле, чтобы пройти через виртуальный лабиринт, – новые формы цифрового контента будут адаптированы к вашему физическому окружению и будут с ним сосуществовать.
AR сегодня: основное внимание сконцентрировано на человеке
Когда я начала работать над технологией дополненной реальности 12 лет назад, основное внимание в этой области уделялось технологии в целом; о контенте стали задумываться уже намного позже, если вообще задумывались, и, как правило, такие размышления были запоздалыми. В то время, когда большинство исследователей и разработчиков работали над техническими проблемами AR, мне посчастливилось быть частью команды, работавшей в уникальной лаборатории в Йоркском университете Торонто (Канада), под руководством Кейтлин Фишер, где мы вместе формировали будущее повествовательной составляющей дополненной реальности. Наша лаборатория сильно отличалась от других исследовательских центров того времени: мы работали на базе факультета изобразительных искусств и кафедры кинематографии, в то время как большинство университетских исследовательских лабораторий по развитию AR базировались на кафедрах вычислительной техники. В других лабораториях, как правило, делался акцент на исследования в какой-то конкретной области AR с уклоном в разработку и совершенствование отдельных методов. В то же время наша лаборатория сосредоточила работу на создании контента и эффекте от использования этой технологии.
С нашим подходом мы были «агностиками» в том, что касалось программного и аппаратного обеспечения. Дополненная реальность вдохновила наши разработки, но ее технологические рамки нас не ограничивали. Во многих лабораториях занимались решением этих проблем, а вот над созданием контента и новыми видами применения технологии никто не работал. Мы экспериментировали над объединением технологий, комбинируя их по-новому, чтобы уйти от традиционных ограничений в использовании AR. Если какой-то технологии не существовало на тот момент, мы обращались за помощью к инженерам и ученым, чтобы создать ее.
В 2009 году в нашей лаборатории был разработан один из первых коммерчески доступных инструментов – программа SnapDragonAR, работающая по принципу перетаскивания объектов из одного места в другое. Она позволила людям, не обладающим специальными знаниями в области программирования, внести свой вклад в формируемую среду и сделала AR доступной для педагогов, художников, кинематографистов и вообще для широкой аудитории. Благодаря этому появился потенциал для создания AR-контента любым человеком, которому это может быть интересно. В результате наших усилий вселенная AR вышла за рамки исключительно технической сферы программирования, и новаторы дополненной реальности и по сей день продолжают развивать и совершенствовать ее.
AR – это уже не просто технология; это возможность формировать реальный мир в соответствии с нашими пожеланиями и делать значимые открытия, приносящие пользу всему человечеству. За последнее десятилетие сама технология, понимание ее места в мире и ее возможности сильно изменились. Теперь, когда у нас есть все эти невероятные возможности, как мы поступим? Это вопрос, на который мы должны ответить все вместе: как должна развиваться технология AR? Нам нужны лидеры в бизнесе, дизайне и культуре, которые помогут управлять развитием и внедрением новых возможностей в этой быстро растущей отрасли. AR радикально изменит то, как мы живем, работаем и играем.
Глава 2. Взглянуть на мир по-новому
Мы находимся в начале масштабного процесса изменения того, как мы видим и воспринимаем окружающую нас реальность. Компьютерное зрение, машинное обучение, новые типы камер, датчиков и встраиваемых в одежду электронных устройств невероятно расширяют человеческое восприятие. Дополненная реальность дает нам «новые глаза».
Развитие AR как нового средства коммуникации уходит корнями в историю движущихся изображений и зарождения кино. В 1929 году один из пионеров кинематографа Дзига Вертов говорил о силе камеры, описывая новую реальность: «Я глаз механический. Я машина, показывающая вам мир таким, каким только я его смогу увидеть». Известный фильм Вертова «Человек с киноаппаратом» был снят с использованием инновационных ракурсов и технологий, фиксирующих картинку, не доступную для человеческого зрения.
Вертов экспериментировал с новыми точками для съемки (например, съемка с движущихся транспортных средств, таких как мотоцикл, или размещение камеры на железнодорожных путях в момент, когда поезд проходил по ним). Он также экспериментировал с ускорением и замедлением видеоряда. Вертов использовал новую технологию механической камеры для расширения возможностей человеческого глаза и создания новых способов наблюдения. Он писал: «Мой путь – к созданию свежего восприятия мира. Вот я и расшифровываю по-новому неизвестный вам мир».
Спустя почти столетие путь Вертова привел нас к AR, раскрыв новую реальность и понимание нашего мира. Камера играет центральную роль в работе AR: она соединена с компьютерным зрением для сканирования и расшифровки нашего физического окружения. Раньше AR главным образом основывалась на использовании координатных меток (в виде черно-белых геометрических узоров) или изображений для дополнения двумерных (2D) поверхностей, таких как печатные версии журналов.
Реальный мир, однако, не плоский, он находится в трехмерном (3D) пространстве. В отличие от 2D координатных меток или изображений, датчики для распознавания трехмерного пространства используются в AR для фиксирования и отображения реального мира. Датчики распознавания трехмерного пространства, такие как камера Microsoft Kinect и камера RealSense от Intel, не используют в своей работе устаревшие координатные метки и изображения, в результате чего трехмерное пространство иначе воспринимается, передается и дополняется с использованием компьютерных технологий.
Дзига Вертов в своей работе исследовал, как камера, подобно механическому глазу, может превосходить возможности человеческого зрения. Он продемонстрировал, каким выглядит мир сквозь призму камеры. Камеры с датчиками глубины, такие как Kinect и RealSense, дают возможность понять обратное: что было бы, если бы компьютер мог видеть, как человек? Технология AR начинает подражать особенностям человеческих чувств, позволяя нам взглянуть на мир совершенно по-новому.
Вы – контроллер
В 2010 году, когда появился Microsoft Kinect, технология AR вышла на новый уровень. Слоган Kinect «You are the controller» в переводе означает: «Вы – контроллер». Изменяя положение своего тела, движение которого фиксируют датчики, пользователи могут создавать дополненную реальность и управлять ею.
До создания Kinect для того, чтобы технологию AR можно было бы применить в сочетании с вашим телом, вам пришлось бы покрыть себя специальными координатными метками, напечатать изображение на своей одежде или даже сделать особую татуировку. Но с появлением Kinect использование технологии AR стало значительно более захватывающим, потому что барьер между пользователем и дополненной реальностью исчез и они слились воедино. Стоя перед экраном с подключенным устройством Kinect, вы можете видеть и взаимодействовать с трансформированной версией себя[12], как будто вы стоите перед волшебным цифровым зеркалом. Дополненная реальность, создаваемая вашими движениями и жестами, формируется индивидуально под вас.
На базе Kinect проектировщики сразу же начали создавать новые интерактивные программы. Инсталляция «Предательство неприкосновенности»[13] (2012) Криса Милка – прекрасный пример использования Kinect художником. Вы предстаете перед рядом из трех интерактивных панелей, которые олицетворяют творческий процесс через рождение, смерть и перерождение. Ваше тело зеркально отражается как темная тень с различными преобразованиями, происходящими на каждой панели. На первой панели ваше тело распадается на мириады разлетающихся птиц. Когда вы переходите ко второй панели, эти птицы слетаются, чтобы напасть на вас. На третьей и последней панели у вашего силуэта прорастают гигантские крылья, и, хлопая руками, ваше отражение взлетает, поднимаясь с земли в небо.
Милк дал следующей комментарий по поводу своей инсталляции:
Мне интересно, когда между моей работой и зрителем возникает двухсторонний диалог. Посетитель выставки становится непосредственным участником содержания и концепции моей работы, и с помощью технологии AR делается акцент на испытываемых впечатлениях, на инновационной способности к глубокому духовному погружению.
Часть «магии» Kinect заключается в том, что технология становится невидимой, потому что она предельно проста в использовании: вы стоите перед экраном и двигаетесь. Программа реагирует на движения вашего тела и формирует движения на экране. Технология позволяет создавать изображения, но без вашего участия это становится невозможным. Технология отступает на второй план, и вы в буквальном смысле становитесь ключевой фигурой в ее работе.
Наблюдение за движением и прогнозирование действий
Kinect использует камеру для измерения глубины, что позволяет ей распознавать мир в трех измерениях. Это устройство работает, проецируя совокупность инфракрасных световых точек на всю комнату, а затем, измеряя, за какое время свет от каждой из этих точек возвращается обратно на сенсор камеры, определяет расстояние до каждой точки комнаты. Программное обеспечение считывает данные для идентификации любых выделяющихся частей человеческого тела, например головы или конечности. Kinect использует модель скелета человека, состоящую из многочисленных частей и соединений. Хранящее в своей памяти более 200 поз, программное обеспечение фиксирует движения человеческого тела и может спрогнозировать, какое движение ваше тело вероятнее всего совершит дальше.
Прогнозирование – важный аспект человеческого восприятия, который мы широко используем в повседневной деятельности, чтобы взаимодействовать с нашим окружением. Джефф Хокинс, основатель компании Palm, создавшей первый карманный компьютер, и автор книги «Об интеллекте» (опубликованной в 2004 году[14]), описывает человеческий мозг как систему памяти, которая хранит и воспроизводит полученный опыт для того, чтобы спрогнозировать возможные сценарии развития.
Хокинс указывает, что человеческий мозг постоянно прогнозирует дальнейшие события. Мы познаем мир через последовательность шаблонов, которые храним, и воспроизводим, и, соотнося с увиденным, предполагаем, что будет дальше.
На базе технологии Kinect, исследователи из Лаборатории персональной робототехники Корнеллского Университета (США) запрограммировали робота, прогнозирующего действия человека[15] и способного решать такие задачи, как разлив напитков или открытие двери холодильника. Робот фиксирует движения вашего тела, чтобы определить, какое действие вы производите в настоящий момент. Затем он обращается к базе видеоданных, в которой содержатся около 120 видов деятельности (от чистки зубов до приема пищи и разогревания еды в микроволновой печи), чтобы предсказать, какое движение вы сделаете дальше. Затем робот планирует своевременно помочь вам в решении той или иной задачи.
Создание трехмерной карты с технологией SLAM
Для того чтобы робот мог перемещаться в окружающей среде и выполнять действия, он должен иметь возможность создавать карту своего окружения и понимать свое местоположение внутри этой среды. Для решения такой задачи инженеры-робототехники разработали метод одновременной локализации и построения карты (сокр. англ. SLAM – от Simultaneous Localization and Mapping). До разработки SLAM датчики, необходимые для построения такой карты, как правило, были дорогими и громоздкими. Kinect предоставил недорогое и легкое решение. Видеоролики с Kinect-роботами появились на YouTube в течение нескольких недель после презентации Kinect. Среди роботов, работавших по этой технологии, были различные варианты: от квадрокоптера, летающего по комнате самостоятельно без управления человеком, до робота, способного перемещаться по завалам в поисках выживших после землетрясения[16].
Беспилотный автомобиль[17] от Google также использует технологию SLAM с собственной камерой и датчиками. Автомобиль обрабатывает как данные карты, так и данные датчиков для определения своего местоположения и обнаружения объектов вокруг себя, учитывая их размер, форму, направление и скорость движения. Программное обеспечение прогнозирует, что объекты могут сделать дальше, и автомобиль выполняет соответствующие ответные действия, например уступает дорогу пешеходу, пересекающему улицу.
Применение SLAM не ограничивается автономными транспортными средствами, роботами или беспилотными летательными аппаратами; люди могут использовать этот метод для нанесения на карту своего окружения. В Массачусетском технологическом институте (США) был разработан один из первых примеров встроенного в одежду SLAM-устройства[18]. Первоначально система была разработана для сотрудников службы спасения, к примеру, спасателей, отправляющихся на неизвестную территорию. При использовании камеры Kinect, размещаемой в районе грудной клетки, цифровая трехмерная карта создается в режиме реального времени, и пользователь перемещается по окружающей его среде. Конкретные местоположения могут сопровождаться комментариями, включаемыми с помощью переносной кнопки. Картой можно поделиться и сразу же отправить ее по беспроводным каналам связи руководителю, находящемуся удаленно.
С помощью SLAM также стали возможны новые формы игр. Разработанная в 2011 году компанией 13th Lab (Стокгольм, Швеция) Ball Invasion[19] является ранним примером интеграции SLAM в игры с применением AR. Держа iPad перед собой, вы видите, что ваше физическое окружение заполнено виртуальными объектами, которые нужно преследовать и расстреливать. Уникальность «Ball Invasion» заключается в том, что виртуальные элементы взаимодействуют с реальным миром: виртуальные пули отскакивают от стены перед вами, а виртуальные шары закатываются за вашу мебель. Когда вы играете в игру и перемещаете камеру iPad, вы создаете трехмерную карту окружающей среды в реальном времени, в которой становятся возможны такие взаимодействия. В 2012 году 13th Lab выпустила PointCloud[20] – набор средств разработки программного обеспечения (SDK, от англ. software development kit), позволяющий создавать приложения для iOS с применением технологии SLAM. 13th Lab была приобретена VR-компанией Oculus в 2014 году.
Сегодня SLAM является одной из основных технологий платформы Google Tango AR. В 2015 году программы на планшетах для разработки приложений на платформе Tango стали доступны сначала для профессиональных разработчиков, а затем уже появились и смартфоны с поддержкой Tango: в 2016 году – Lenovo Phab 2 Pro, в 2017 году – Asus ZenFone AR. С применением Tango становятся возможными: точная навигация без GPS, окна в виртуальные трехмерные миры, измерение пространств в реальном времени и игры, определяющие свое местоположение в комнате и предметы вокруг. Google описывает цель Tango как наделение «мобильных устройств человеческим пониманием пространства и движения».
Наши смартфоны уже являются нашим продолжением, и с такими технологиями, как Tango, они начинают видеть, изучать и понимать мир подобно тому, как это делаем мы. Благодаря этому будут возникать новые типы взаимодействия, в которых виртуальная среда легко сопоставляется с нашей физической реальностью и имеет контекстуальный смысл, создавая более глубокое чувство погружения. Границы между виртуальным и реальным будут размываться все больше и больше. Технология будет способна не только распознавать нашу среду, но, возможно, поможет нам переосмыслить нашу повседневную жизнь.
Возможность видеть для незрячих
Если мы можем создать технологию визуализации для компьютеров и планшетов, почему бы не использовать ее, чтобы помочь видеть людям? Раджив Монгия, директор RealSense Interaction Design Group компании Intel, вместе со своей командой разработал прототип портативного устройства, которое использует технологию трехмерной камеры RealSense, помогая людям с ослабленным зрением лучше ориентироваться в пространстве.
Комплект RealSense Spatial Awareness Wearable впервые был представлен в рамках Международной выставки бытовой электроники (CES) 2015 года в Лас-Вегасе. Он состоит из жилета, оснащенного компьютером, который подключается по беспроводной сети к восьми вибрирующим датчикам (размером с палец), которые расположены на груди, туловище и на лодыжках. Он работает по принципу анализа глубины окружающей среды. Обратная связь направляется пользователю с помощью тактильной технологии, использующей вибрационные двигатели и посылающей в качестве обратной связи вибрацию.
Вибрационные датчики можно сравнить с вибрационным режимом мобильного телефона, интенсивность вибраций которого возрастает или снижается в зависимости от того, как близко от вас находится тот или иной объект. Если объект очень близко, вибрация усиливается, а если он удаляется, вибрация ослабевает.
Дэррил Адамс, технический руководитель проектов в Intel, занимался тестированием данной системы. 30 лет назад Адамсу был поставлен диагноз пигментная дистрофия сетчатки, и, по его словам, данная технология позволила ему получить максимальный эффект, расширив периферическое зрение при помощи тактильных ощущений.
Для меня очень ценно, что с этой технологией я могу распознавать, когда рядом начинается какое-то движение. Если я почувствую вибрацию, я сразу же могу повернуться в соответствующем направлении, чтобы увидеть, что вызвало реакцию сенсоров. Это, как правило, означает, что кто-то приближается ко мне и я смогу поприветствовать этого человека или хотя бы буду знать, что рядом кто-то есть. Без использования этой технологии я обычно не замечал людей вокруг, и часто оказывался в неудобном положении.
Система была протестирована на трех пациентах, каждый из которых обладал своими уникальными потребностями и уровнем зрения, от низкого до его полного отсутствия. Монгия и его команда работают над тем, чтобы создать систему с изменяемыми модульными компонентами, обеспечивающими пользователям возможность выстраивать комбинацию датчиков и уровня тактильного эффекта, которые наилучшим образом соответствовали бы конкретной ситуации.
Адамс хотел бы, чтобы программное обеспечение стало контекстно-ориентированным и система могла бы реагировать на потребности пользователя в любой заданной ситуации. Он считает, что эта технология может развиваться и быть дополнена, например, такими функциями, как распознавание лиц или отслеживание движения глаз. Таким образом, пользователь может быть предупрежден, когда кто-то смотрит на него, а не просто когда некто есть поблизости.
Искусственный интеллект (от англ. Artificial Intelligence – AI) можно было бы в будущем использовать для обеспечения встроенных в одежду компьютеров максимально эффективным распознаванием происходящего вокруг пользователя контекста. Такие методы, как машинное обучение, могут наделить компьютеры некоторыми способностями человеческого мозга, позволяя программам научиться выполнять новые задачи на основе новой полученной информации, не будучи специально запрограммированными для таких задач.
Обучение компьютера способности видеть с помощью машинного обучения
OrCam[21], устройство, предназначенное для слабовидящих, использует машинное обучение, чтобы помочь носителям интерпретировать и лучше взаимодействовать с их физическим окружением. Это устройство способно читать текст и распознавать такие вещи, как лица, продукты и бумажные деньги Устройство OrCam оснащено камерой, которая закрепляется на очках и непрерывно сканирует поле зрения пользователя. Эта камера подключена тонким кабелем к портативному компьютеру, помещаемому в кармане. Вместо датчиков вибрации (используемых, например, в RealSense Spatial Awareness Wearable) OrCam использует звуковые сигналы. Динамик, направляющий звуковые сигналы к внутреннему уху, информирует пользователя, произнося вслух названия объектов, слова или имена людей.
С помощью OrCam пользователь может направить устройство, указав на тот предмет, который ему интересен. «Наведите устройство на книгу, и оно прочитает ее», – говорит Йонатан Уэкслер[22], руководитель отдела исследований и разработок OrCam. «Проведите пальцем по счету за телефон, и устройство прочитает текст, давая понять, кто отправитель и какая там сумма». Чтобы научить систему читать, ей неоднократно показываются миллионы примеров для выработки соответствующих устойчивых моделей алгоритмов.
Уэкслер отмечает, что при идентификации людей и лиц нет необходимости указывать на них. «Устройство подскажет вам, когда ваш друг приближается. Требуется около десяти секунд, чтобы научить устройство распознавать человека», – говорит он. «Все, что требуется, – это чтобы этот человек смотрел на вас, а затем назвал свое имя». OrCam сделает снимок этого человека и сохранит его в своей системной памяти. В следующий раз, когда человек окажется в зоне видимости камеры, устройство распознает его и даже идентифицирует по имени.
OrCam использует машинное обучение для распознавания лиц. Команда исследователей и разработчиков создала для OrCam базу, включающую сотни тысяч изображений всех видов лиц, чтобы научить свое программное обеспечение распознавать каждого конкретного человека. Когда пользователь носит OrCam, программа сортирует все загруженные изображения, отклоняя те, которые не соответствуют лицу в зоне видения, пока не останется только одно соответствующее изображение. Чтобы распознать лицо, сфотографированное ранее с помощью OrCam, нужно всего несколько мгновений.
Обучение мозга видеть посредством звука
Это устройство обладает способностью сканировать окружающую среду и описывать посредством звука то, что находится вокруг. Другой подход применяется в таких визуальных технологиях как vOICe[23] и EyeMusic[24]. Вместо того, чтобы использовать машинное обучение и рассказывать пользователю, на что он смотрит, эти технологии анализируют возможности обучения человеческого мозга взаимодействию с миром при помощи других органов чувств – изучая, например, как можно видеть с помощью звука.
Нейробиолог Амир Амеди задается вопросом: «Что, если мы найдем способ, как можно передать визуальную информацию в мозг людей с ослабленным зрением, обойдя проблемы с глазами стороной?» Исследования построения мозгом визуальных образов, проведенные Амеди и его командой, показывают, что у слепых от рождения людей при использовании устройств на базе vOICe или EyeMusic активизируются те же области мозга, что и у зрячих. Однако сигнал поступает в мозг не через участок, отвечающий за зрительные образы, а через другой, соответствующий восприятию звуков, но в конечном счете сигналы все равно достигают цели в соответствующем отделе мозга.
Система vOICe (от англ. OIC = «Oh, I See», в пер. «О, я вижу») преобразует изображения, фиксируемые камерой, в звуковые сигналы, чтобы помочь слепым от рождения людям видеть. Система vOICe, разработанная Питером Мейджером, состоит из пары солнцезащитных очков с небольшой встроенной камерой, подключенной к компьютеру и двум наушникам. (Сист ему также можно использовать на смартфоне, загрузив специальное программное обеспечение и используя встроенную камеру.)
Программное обеспечение vOICe преобразует ваше окружение в «звуковой пейзаж». Камера непрерывно сканирует среду слева направо, преобразуя каждый пиксель в звуковой сигнал: частота представляет собой положение по вертикали, а громкость каждого звукового сигнала представляет собой яркость пикселя. Более яркие объекты производят более громкие звуки, а частота указывает на то, является ли объект высоким или низким.
Амеди совместно со своими коллегами обучили слепых от рождения людей способности «видеть», используя vOICe и EyeMusic, более современное приложение, разработанное Амеди, которое также способно различать цвета и передавать соответствующую информацию звуками. Для передачи цветов используются различные типы инструментов. Например, синему соответствует труба, красному – аккорды органа, желтому – скрипка. Белый озвучивается человеческими голосами, а черный – тишиной.
По словам Амеди, для того, чтобы научить свой мозг пользоваться такой технологией, требуется около 70 часов. Пользователям рассказывается, как идентифицировать большие категории объектов, включая лица, тела и пейзажи. Каждая из таких категорий обрабатывается в зрительной зоне коры головного мозга. «Все думают, что информация в мозге формируется под влиянием чувств, но наши исследования показывают, что это не так, – говорит Амеди[25], – человеческий мозг более гибок, чем мы думали».
Исследования и изобретения, подобные тем, которые создали Амеди и Мейджер, показывают нам, что привычное определение зрения изменяется. И оно будет продолжать меняться, поскольку компьютеры и человеческий мозг учатся видеть по-новому.
Выберите свою собственную реальность
Возможность видеть и распознавать наше окружение с помощью компьютерного зрения также позволяет отфильтровывать нашу реальность и избирательно видеть (или не видеть) мир вокруг нас. Это включает и возможность удаления из нашей реальности объектов, которые мы не хотим видеть.
В эпизоде «Белое Рождество» (2014) популярного сериала «Черное зеркало», в сатирической манере обыгрывающего современные технологии, создатели показали, как выглядела бы наша жизнь, если бы людей можно было убирать из нее одним нажатием кнопки. На месте человека, которого вы «блокировали», образовывалось пустое место, издающее приглушенные звуки, а удаленный человек при этом продолжал видеть обычную картину. В 2010 г оду японский разработчик Такаюки Фукацу продемонстрировал технологию, практически не отличающуюся от той, что показали в «Черном зеркале». Используя Kinect и OpenFrameworks, Оптический Камуфляж[26] Фукацу демонстрирует, как человеческая фигура сливается с фоном, становясь невидимой.
Доктора Стива Манна, профессора электротехники и информатики в Университете Торонто (Канада), некоторые называют «отцом встроенных в одежду компьютеров». Манн дал определение термину «настраиваемая реальность» в 1990-х годах. Он говорит: «настраиваемая реальность отличается от виртуальной реальности (и дополненной реальности) тем, что она позволяет нам отфильтровывать то, что мы не хотим видеть». По мнению Манна, встроенные в одежду вычислительные устройства предоставляют пользователю «созданное по своему усмотрению личное пространство». Манн использовал настраиваемую реальность для добавления личных заметок и указаний вместо рекламы.
Современный медиа-художник Джулиан Оливер назвал работу Манна источником вдохновения для своего проекта Artvertiser, начатого в 2008 году совместно с Дэмианом Стюартом и Артуро Кастро. Artvertiser[27] – это программа, заменяющая рекламу на щитах произведениями искусства. Она работает по принципу распознавания компьютерами рекламных объявлений, которые затем преобразуются в виртуальный холст, на который художники могут проецировать изображения или видео. Работы можно увидеть, используя небольшое устройство, которое выглядит как бинокль.
Оливер считает, что Artvertiser не относится к AR, а является примером «улучшенной реальности».
Он описывает проект, как переход общественных пространств от платформ по принципу «только для чтения» к принципу «чтение—запись». Artvertiser является примером прорывного подхода, заключающегося в том, чтобы скорректировать пространства, в которых преобладает реклама.
Brand Killer[28] (2015) – это современный проект, основанный на работе Манна и Оливера. Brand Killer был создан группой студентов Университета Пенсильвании (США) – Томом Катулло, Алексом Критсом-Кристофом, Джонатаном Дубином и Ридом Розенблатом – с целью убрать рекламу в зоне видимости пользователя. Студенты задаются вопросом[29]: «Что, если бы мы жили в мире, где потребители не видели бы излишества корпоративного брэндинга?» Brand Killer – это размещаемый на голове дисплей, использующий обработку изображений OpenCV для распознавания и скрытия брэндов и логотипов, которые встречаются на пути пользователя. Это «AdBlock[30] для реальной жизни», заявляют создатели.
Уже сейчас, находясь в Интернете, у нас есть возможность блокировать рекламу и даже людей, с которыми нам бы не хотелось больше общаться. Помимо рекламы и других людей, что еще нам бы хотелось удалить или заблокировать в поле зрения с помощью настраиваемой реальности?
Поскольку мы говорим о будущем AR, нужно рассмотреть вопрос о том, позволит ли цифровая фильтрация, настраивание и замена контента обогатить нашу реальность или же, наоборот, отделит нас от реального мира и друг от друга. Я надеюсь, что эти новые технологии будут использоваться для поддержания человеческого взаимодействия, связи и общения и даже повышения уровня взаимопонимания.
Хотя нам часто свойственно изолировать себя от многих проявлений реальности, которые мы не хотим видеть, например, бездомные, нищета и болезни, есть вещи, которые мы, как общество, должны активно решать. Настраиваемая реальность несет в себе потенциал для укрепления привычки игнорировать и даже для роста невежества. Мы не должны закрывать глаза на жизненные реалии.
Положительная сторона настраиваемой реальности заключается в том, что ее можно использовать для обеспечения более высокого уровня концентрации. Эта технология имеет потенциал для создания будущего, в котором будет меньше отвлекающих факторов, что приведет к более частому общению людей друг с другом. Сегодня нас просто заваливают всевозможными уведомлениями и технологиями. Что если настраиваемая реальность поможет нам с легкостью отключать на время все отвлекающие факторы?
Еще один важный вопрос: кто будет создавать эту новую реальность? Будут ли это какие-то конкретные люди, корпорации или группы людей? В настроенной кем реальности мы будем существовать, и какие визуальные фильтры или инструменты будут в ней присутствовать? Используя терминологию Оливера, будем ли мы частью среды, доступной для «чтения и записи» или «только для чтения»?
По аналогии с тем, как Интернет доступен не только для чтения, но и для редактирования, я надеюсь, что AR и настраиваемую реальность также можно будет изменять. Тим Бернерс-Ли, считающийся одним из создателей Всемирной Паутины, дает ее определение как места для обмена информацией новыми эффективными способами. «Изначально я хотел создать такую среду, где мы все могли бы общаться, читать и писать», – говорит он[31]. Интернет должен был стать новым инструментом для обмена и получения информации, и технология AR может быть использована так же.
Такие примеры, как: возможность дать незрячим людям подобие зрения, появление новых интерактивных направлений для творчества, создание роботов, помогающих нам в повседневной жизни, доказывают, что AR – технология, позволяющая взаимодействовать с этим миром по-новому. Дополненная реальность может повысить уровень нашей жизни и вдохновить на изменения, благодаря которым мы станем ближе к окружающему нас миру и друг к другу.
Если заменить слово «машина» на слово «человек» в цитате Дзиги Вертова в начале этой главы: «Я машина, показывающая вам мир таким, каким только я его смогу увидеть», – можно оценить то, насколько обогащает нашу жизнь Интернет, собирая по всему миру опыт, накопленный другими людьми. Чтобы оказать позитивное влияние на общество и внести свой вклад в развитие человечества, к AR нужно применять те же принципы, по которым изначально создавалась Всемирная Паутина – ее основным принципом является всепринимающий характер, без исключений.
Глава 3. Тактильные ощущения
Отличием следующей волны дополненной реальности является новый сенсорный опыт, задействующий и другие органы чувств, помимо зрения. За счет осязательных эффектов в AR есть возможность не только синхронизировать то, что мы видим, с тем, как мы чувствуем, но и создавать новые способы тактильной коммуникации. Механизм тактильного отклика, используемый в Apple Watch , обеспечивает , к примеру, обратную связь для уведомлений, а в приложениях виртуальной реальности таких производителей, как Tactical Haptics[32], он позволяет выйти на новый уровень реализма. На основании этого можно отметить тенденцию развития цифровой тактильности.
В реальном мире вы можете использовать свои руки, чтобы прикоснуться к чему-либо, поднять некий предмет или что-то сделать. В AR виртуальная составляющая существует в вашем физическом пространстве, но если вы протянете руку, чтобы коснуться виртуального объекта, в зависимости от того, используете ли вы смартфон или очки, вы почувствуете стекло или просто пустоту.
В главе 1 распознавание описывалось как встраивание виртуальных объектов в трехмерное пространство реального мира. Распознавание в AR сегодня сконцентрировано на визуальной составляющей, но как же быть с другими органами чувств? Если одной из целей AR является создание единой среды, в которой реальное и дополненное неразличимы, то иллюзия, очевидно, разрушается, когда пользователь, пытаясь прикоснуться к виртуальному объекту, ничего при этом не чувствует. В следующем поколении AR прикосновение к виртуальным объектам становится возможным, размывая и дальше грань между реальным и виртуальным.
Тактильные ощущения помогают нам ориентироваться и лучше чувствовать реальный мир. Наше чувство осязания помогает нам получать информацию на более глубоком уровне и ощущать такие характеристики предмета, как текстура и вес. Это позволяет понять, из чего сделан предмет и как он соотносится с другими предметами. Осязание позволяет нам убедиться, что объект существует физически.
Для меня утверждение, приведенное выше, оставалось верным до того момента, пока мои чувства не были введены в заблуждение, когда я впервые испытала устройства с применением haptics (технологии, обеспечивающей тактильную обратную связь) в 2011 году в Magic Vision Lab в Университете Южной Австралии. Я помню тот момент, когда я изо всех сил пыталась определить, что было физически реальным и что виртуальным. Я была ошеломлена. Я могла посмотреть и прикоснуться к виртуальной рыбе, чувствуя ее, будто она была реальной. Это было совершенно новым и сбивающим с толку ощущением: касаться виртуальных объектов и получать тактильную обратную связь от чего-то, что физически не существует в реальном мире. Как это возможно?
Нося портативный шлем-дисплей (HMD) и используя тактильный девайс под названием PHANTOM Desktop, оснащенный похожим на шариковую ручку устройством, которое нужно держать в руке, я могу касаться виртуальных объектов, появляющихся в моем физическом окружении, и ощущать их. Это тактильное устройство имитирует контакт, используя три небольших двигателя, которые обеспечивают обратную связь, создавая давление на стилус. В дополнение к текстуре, с помощью этого устройства можно ощутить вес виртуального предмета.
Это очень правдоподобная иллюзия: то, что я видела, действительно соответствовало моим ощущениям. Визуальная и тактильная составляющие тесно взаимосвязаны в реальности, но, как правило, при использовании AR-устройств эта взаимосвязь теряется. Последний опыт навсегда изменил мое представление о дополненной реальности и повлиял на мое видение того, как эта новая среда будет развиваться в будущем.
В 2011 году я написала книгу «Кто боится жуков?»[33], первую в мире AR-книгу с возможностью распознавания образов при помощи iPad. Книга объединила искусство моделирования бумажных фигур (разрезание, склеивание и складывание из бумаги) с магией AR, благодаря которой книга становилась интерактивной, позволяя лучше понять природу страха перед насекомыми. Если смотреть на книгу через iPad или смартфон, то на ней периодически появлялись различные виртуальные насекомые и членистоногие, в том числе волосатый тарантул, который мог поползти по руке читателя. Когда я работала над этой книгой, технология цифровой тактильности еще не была разработана в Magic Vision Lab, но теперь я отчетливо представляю, как эта технология может быть интегрирована в следующую редакцию моей книги. Благодаря этой технологии ощущение страха будет более сильным, т.к. можно будет не только увидеть паука, ползающего по вашей руке, но также и почувствовать его вес и прикосновение к коже.
Как и в случае с вышеупомянутым примером виртуальной рыбы, можно воссоздать то, как мы ощущаем конкретные вещи в физическом мире, и применять эти свойства к виртуальным объектам с целью улучшения качества «распознавания». Для дальнейшего развития AR как новой среды, важно найти и исследовать новые способы использования технологии дополненной цифровой тактильности, помимо воспроизведения ощущений от аналогов из окружающей среды.
Например, можем ли мы создать приложения с контрастными тактильными свойствами, когда что-то мягкое по своим свойствам будет восприниматься как нечто твердое? Как мы можем выйти за пределы экрана, чтобы по-новому испытывать чувство осязания? И как еще мы можем использовать тактильную стимуляцию в невербальных коммуникациях? В этой главе мы поговорим об исследованиях и инновациях в области тактильных технологий, проливающих свет на эти вопросы.
Тактильные технологии, применяемые в сенсорных экранах
В 2011 году в Magic Vision Lab я впервые стала свидетелем функционирования тактильной технологии, но оборудование, требуемое для ее применения, было дорогостоящим, громоздким и не доступным для обычного человека. Использование основной части AR-приложений на сегодняшний день предполагает наличие смартфона или планшета, а в ближайшем будущем также ожидается более широкое распространение интерактивных очков, которые изменяют возможности тактильной стимуляции в AR. Если раньше примером ее использования было только взаимодействие с сенсорным экраном смартфона или планшета, то теперь появляются новые виды применения.
В статье «Краткие рассуждения о будущем дизайна взаимодействий» (2011)[34] Брет Виктор, разработчик пользовательских интерфейсов и процессов взаимодействия человека с компьютером, отмечает, что в большинстве концепций взаимодействия будущего не уделяется внимание тому, что чувствуют наши руки и как они манипулируют вещами. Он пишет, что почти каждый объект в мире имеет свойства, которые можно почувствовать, прикоснувшись к нему, – будь то вес, текстура, пластичность или форма. Тем не менее он говорит, что такие устройства, как iPad, «приносят в жертву все тактильное богатство работы с нашими руками». Виктор рассуждает о будущем, когда появится новая «динамическая среда, которую мы сможем видеть, чувствовать и изменять».
Как далеко мы продвинулись с 2011 года и с момента выхода статьи Виктора? В 2015 году Apple представила механизм тактильного отклика на iPhone и iPad, обеспечив тактильную обратную связь для пользователя. Тактильные устройства обратной связи и контроллеры становятся предметами активной разработки в индустрии игр VR, а также, вероятно, мы увидим в ближайшем будущем эту технологию, адаптированную для AR-приложений.
Технология E-Sense компании Senseg, которая была впервые продемонстрирована на Международной выставке бытовой электроники (CES) в 2012 году, представляет собой один из способов интеграции тактильной симуляции в AR посредством планшета или смартфона.
Дейв Райс, вице-президент основанной в Финляндии компании Senseg, описывает данную технологию как внедрение тактильных эффектов в сенсорные дисплеи различных устройств, включая смартфоны, планшетные компьютеры, сенсорные панели и игровые устройства. Он рассматривает возможности приложений, приводя в качестве примера игру «Охота за сокровищами», смысл которой заключается в поиске спрятанного сундука с сокровищами, но найти его на экране можно только на ощупь. Райс добавляет[35]: «Там не было визуальных подсказок, и это очень увлекательно, потому что теперь у нас есть возможность дополнить картинку осязаемыми эффектами, это позволяет создавать новый мир открытий».
В основе работы E-Sense лежит использование электростатических полей, которые вводят в заблуждение наше чувство осязания и имитируют различные уровни трения, позволяя создавать ощущение текстуры на плоском экране. В этой технологии используется Закон Кулона: притяжение или отталкивание объектов или частиц в зависимости от их электрического заряда. Так, например, когда вы натираете воздушный шар о свои волосы, он прилипает. Если потереть воздушный шар о голову, электроны переходят с ваших волос: волосы положительно заряжены, воздушный шар отрицательно заряжен, а противоположные заряды притягиваются. Senseg создает аналогичную силу притяжения между вашим пальцем и экраном. Управляя этой силой, можно создавать целую тактильную гамму, обеспечивая многообразные ощущения от взаимодействия с разными изображениями.
Представьте, что вы используете эту технологию на смартфоне или планшете, чтобы посетить виртуальный зоопарк прямо у себя дома и почувствовать на ощупь мягкую овечью шерсть. Тактильная функция может теперь соответствовать тому, что вы видите с использованием AR: виртуальное больше не ощущается как «стекло».
Fujitsu Labs из Японии – еще одна компания, работающая над технологией тактильной симуляции для сенсорных экранов. Компания презентовала прототип планшета с функцией тактильной симуляции на Всемирном мобильном конгрессе в 2014 году в Барселоне, где было показано, как технология может имитировать объемные детали, такие как выпуклости, гребни и выступы на поверхностях сенсорного экрана. Эта программа позволяет испытать ощущение как от поворота ключа в замке, прикосновения к песку или к струнам музыкального инструмента.
Вместо электростатической тактильной обратной связи Fujitsu Labs использует для тактильного эффекта ультразвуковые вибрации, импульсы которых передаются с различной силой. Вибрации отталкивают палец от поверхности планшета и в зависимости от силы имитируют различные текстуры. Быстрое изменение импульсов между низким и высоким трением может создать ощущение грубой или неровной поверхности, или же поверхность может казаться гладкой за счет подаваемого воздуха, уменьшающего силу трения. Fujitsu Labs планирует коммерциализировать эту технологию, в частности интегрируя ее в онлайн-магазины, где особенно важна возможность потрогать ткань, из которой сшита приобретаемая вещь.
Деформируемые экраны
И Senseg, и Fujitsu имитируют чувство осязания на плоских сенсорных экранах. Но что, если сенсорные экраны могли бы изменять свою форму и физически принимать форму изображений или объектов? Представьте, что вы своими руками преобразовываете виртуальные объекты из двумерного пространства в трехмерный мир.
GHOST[36] – это исследовательский проект, над которым с 2013 года работают разработчики в четырех университетах Великобритании, Нидерландов и Дании, где они занимаются изучением дисплеев с изменяющейся формой. Исследователи создали плоскоэкранный дисплей Lycra, который, в отличие от стекла, может изменять свою форму, благодаря чему можно почувствовать форму соответствующих объектов.
Каспер Хорнбэк, исследователь из Копенгагенского университета, отмечает: «Почти все экраны имеют квадратную форму, поэтому для реализации данной технологии в полном объеме требуется возможность изменения их формы. В поле интересов наших исследований находятся экраны, которые могли бы изменять свою форму». Эта идея перекликается с мыслью Брета Виктора об экране компьютера как динамическом визуальном носителе, который может принимать практически любую форму, и вот теперь возможность появления такой среды становится все более реалистичной.
Такая технология могла бы, например, позволить хирургу работать на виртуальном мозге, получив необходимый осязательный опыт перед выполнением аналогичной операции в реальном мире. Художники и дизайнеры, работающие с различными физическими материалами, такими как, например, глина, смогут двигать объекты собственными руками и хранить их в своем компьютере. Хорнбэк предполагает, что с помощью такого дисплея вы сможете держать руку вашего близкого человека, даже находясь на другом континенте.
Эсбен Варминг Педерсен, член исследовательской группы Копенгагенского университета, объясняет, чем отличается работа деформируемого дисплея от того, как работают обычные стеклянные сенсорные экраны. «Все, что видит iPad, – это кончик пальца, касающийся стекла. Так, когда iPad пытается определить, где и как мы его касаемся, устройство можно рассматривать как своего рода систему координат». Деформируемый дисплей имеет более сложный принцип работы: когда вы прикладываете палец к экрану, камера считывает информацию в трех изменениях и определяет силу давления пальца на поверхность. Педерсен работает над разработкой алгоритмов компьютерного зрения, которые позволят распознавать эти трехмерные данные и использовать их таким образом, чтобы компьютер мог лучше понять и применить их в своей работе.
Одна из проблем, которую обозначает Педерсен, заключается в том, что мы еще не знаем, как работать с этими новыми экранами. Он говорит о том, что к настоящему моменту уже выработался определенный «словарь» для взаимодействия с двумерными дисплеями, например, если свести пальцы, изображение уменьшится, а если смахнуть пальцем картинку, она сменится другой. Однако если говорить о жестах в трехмерном пространстве, или деформируемых жестах, использование таких экранов уже становится менее очевидным. Педерсен в настоящее время занимается разработкой такого интуитивного словаря новых жестов.
Педерсен и Хорнбэк опубликовали[37] в 2014 году исследование по распознаванию жестов, где респондентов попросили показать жесты, которые они находят подходящими для выполнения различных задач, таких как выбор, навигация и трехмерное моделирование на деформируемом экране. Среди жестов, которые предлагали участники исследования, были движения за дисплеем, толчок ладонью с вытянутыми пальцами, захват и скручивание.
Интеграция тактильного ощущения за пределами экрана