Лекции ИИ PDF
Document Details
Uploaded by Deleted User
Tags
Summary
Эта лекция рассказывает об истории развития искусственного интеллекта, начиная от ключевых фигур, таких как Алан Тьюринг, до первых программ и концепций. Она рассматривает также основные теории ИИ, такие как сильный и слабый ИИ. Лекция объясняет ключевые идеи и достижения.
Full Transcript
Лекция 1. История создания искусственного интеллекта Искусственный интеллект станет окончательной версией Google. Окончательной поисковой системой, которая будет понимать во Всемирной паутине всё. Она будет точно понимать, че...
Лекция 1. История создания искусственного интеллекта Искусственный интеллект станет окончательной версией Google. Окончательной поисковой системой, которая будет понимать во Всемирной паутине всё. Она будет точно понимать, чего вы хотите, и давать вам то, что нужно. Сейчас мы и близко к этому не подходим. Тем не менее мы можем постепенно к этому приближаться, и это в основном то, над чем мы работаем. - Ларри Пейдж, соучредитель компании Google Inc. и генеральный директор компании Alphabet Научная фантастика всегда была для нас способом понять потенциальные последствия новых технологий, и искусственный интеллект (ИИ) был главной темой. Самые запоминающиеся научно-фантастические персонажи включают андроидов, или компьютеры, которые начинают сознавать себя, например, в кинофильмах «Терминатор», «Бегущий по лезвию», «2001 год: Космическая одиссея» и даже «Франкенштейн». Но с неумолимым темпом развития новых технологий и инноваций сегодня научная фантастика начинает становиться реальностью. Теперь мы можем разговаривать с нашими смартфонами и получать ответы; наши аккаунты в социальных сетях предоставляют нам контент, который нас интересует; наши банковские приложения предоставляют нам напоминания и т. д. Такое персонализированное создание контента выглядит почти волшебным, но быстро становится нормальным в нашей повседневной жизни. Для того чтобы разобраться в ИИ, важно знать азы его богатой истории. Мы увидим, как развитие этой индустрии было полно инновационных прорывов и спадов. Кроме того, в этой области существует группа блестящих исследователей и ученых, таких как Алан Тьюринг, Джон Маккарти, Марвин Мински и Джеффри Хинтон, которые раздвинули границы этой технологии. Но через все это шел постоянный прогресс. Алан Тьюринг и тест Тьюринга Алан Тьюринг (Alan Turing) – выдающаяся фигура в области информатики и искусственного интеллекта. Его часто называют родоначальником ИИ. В 1936 году он написал работу под названием "О вычислимых числах" (On Computable Numbers). В ней он изложил ключевые концепции компьютера, который стал известен как машина Тьюринга. Имейте в виду, что настоящие компьютеры будут разработаны только через десять лет. И все же исторической для ИИ станет его статья под названием "Вычислительная техника и интеллект" (Computing Machineiy and Intelligence). В ней он сосредоточился на идее машины с интеллектом. Но для того чтобы создать такую машину, должен быть способ измерить ее интеллект. Что такое интеллект, по крайней мере, для машины? Именно в этой статье он придумал свой знаменитый "тест Тьюринга". По сути, он представляет собой игру с тремя игроками: двумя людьми и одним компьютером. Оценщик, человек, задает открытые вопросы двум другим (человеку и компьютеру) с целью установить, кто из них является человеком. Если оценщик не может это установить, то предполагается, что компьютер имеет интеллект. Гениальность этой идеи заключается в том, что нет необходимости видеть, действительно ли машина что-то знает, осознает себя или даже права ли она вообще. Вместо этого тест Тьюринга показывает, что машина может обрабатывать большие объемы информации, интерпретировать речь и общаться с людьми. В 2014 году отмечен случай, когда создалось впечатление, будто бы тест Тьюринга был пройден. Он был связан с компьютером, который утверждал, что ему 13 лет. Интересно, что человеческие судьи, скорее всего, были одурачены, потому что некоторые ответы содержали ошибки. Затем в мае 2018 года на конференции, проводимой компанией Google по вводу/выводу, генеральный директор Сундар Пичаи (Sundar Pichai) проделал выдающуюся демонстрацию Google Ассистента. Перед живой аудиторией он показал устройство, которое позвонило местному парикмахеру договориться о встрече. Женщина на другом конце провода вела себя так, словно разговаривала с человеком! Тем не менее это устройство все-таки, вероятно, не прошло тест Тьюринга. Причина заключается в том, что разговор был сосредоточен на одной теме – тема не была открытой. Неудивительно, что по поводу теста Тьюринга постоянно ведутся споры, поскольку некоторые люди считают, что им можно манипулировать. В 1980 году философ Джон Сёрл (John Searle) написал знаменитую работу под названием "Умы, мозги и программы" (Minds, Brains, and Programs), в которой он поставил собственный мысленный эксперимент, названный "аргументом китайской комнаты", чтобы подчеркнуть недостатки теста. Цель эксперимента состоит в опровержении утверждения о том, что цифровая машина, наделённая «искусственным интеллектом» путём её программирования определённым образом, способна обладать сознанием в том же смысле, в котором им обладает человек. Иными словами, целью является опровержение гипотезы так называемого «сильного» искусственного интеллекта и критика теста Тьюринга. Сильный и слабый искусственные интеллекты – гипотеза в философии искусственного интеллекта, согласно которой некоторые формы искусственного интеллекта могут действительно обосновывать и решать проблемы. Теория сильного искусственного интеллекта предполагает, что компьютеры могут приобрести способность мыслить и осознавать себя как отдельную личность (в частности, понимать собственные мысли), хотя и не обязательно, что их мыслительный процесс будет подобен человеческому. Теория слабого искусственного интеллекта отвергает такую возможность. Сёрл считал, что существуют две формы ИИ: – Сильный ИИ. В этом случае машина действительно понимает то, что происходит. Она даже может иметь эмоции и проявлять творчество. По большей части этот ИИ экранизирован в научно-фантастических фильмах. Этот тип ИИ также называется развитым искусственным интеллектом (artificial general intelligence, AGI). Обратите внимание, что на этой категории сосредоточены лишь несколько компаний, такие как подразделение DeepMind компании Google. – Слабый ИИ. С ним машина основывается на процедуре сопоставления с шаблоном и обычно сосредоточена на узких задачах. Его примеры включают помощников Siri от компании Apple и Alexa от компании Amazon. Реальность такова, что ИИ находится на ранних стадиях развития слабого ИИ. На достижение точки сильного ИИ могут легко уйти десятилетия. Некоторые исследователи считают, что этого вообще никогда не произойдет. Учитывая ограничения теста Тьюринга, появились альтернативы, такие как: – тест Курцвейла – Капора – этот тест был предложен футурологом Рэем Курцвейлом (Ray Kurzweil) и технологическим антрепренером Митчем Капором (Mitch Карог). Их тест требует, чтобы компьютер вел беседу в течение двух часов, и при этом двое из трех судей считали, что говорит человек. Капор, правда, не верит, что это будет реализовано до 2029 года; – тест на кофе – этот тест был предложен сооснователем компании Apple Стивом Возняком (Steve Wozniak). Согласно тесту на кофе, робот должен быть в состоянии войти в дом незнакомца, найти кухню и заварить чашку кофе. Кибернетика В 1948 году Винер опубликовал книгу "Кибернетика, или Контроль и общение у животного и машины" (Cybernetics: Or Control and Communication in the Animal and the Machine). Несмотря на то что эта работа была научной и наполнена сложными уравнениями, она все же стала очень популярной, попав в список бестселлеров газеты New York Times. Данная книга предвосхитила развитие теории хаоса, цифровых коммуникаций и даже компьютерной памяти. Эта книга оказала влияние и на ИИ. Подобно Маккалоку и Питтсу, Винер сравнивал человеческий мозг с компьютером. Более того, он сделал предположение, что компьютер сможет играть в шахматы и в конечном счете обыграет гроссмейстеров. Главная причина, по его убеждениям, будет заключаться в том, что машина сможет учиться по ходу игр. Он даже думал, что компьютеры смогут сами себя копировать. Первая программа искусственного интеллекта Разработка первой программы искусственного интеллекта связана Джоном Маккарти. Интерес Джона Маккарти (John McCarthy) к компьютерам возрос в 1948 году, когда он посетил семинар под названием "Церебральные механизмы в поведении", на котором обсуждался вопрос о том, как машины в конечном итоге станут способными думать. Среди его участников были ведущие первопроходцы в этой области, такие как Джон фон Нейман (John von Neumann), Алан Тьюринг (Alan Turing) и Клод Шеннон (Claude Shannon). Маккарти продолжал погружаться в развивающуюся компьютерную индустрию, в том числе работал в американской корпорации Bell Labs (Лаборатории Белла), и в 1956 году организовал десятинедельный исследовательский проект в Дартмутском университете. Он назвал его "Исследованием искусственного интеллекта". И это был первый раз, когда данный термин получил применение. Летом 1956 года Джон Маккарти, Марвин Мински, Клод Шеннон и Натан Рочестер организовали конференцию по поводу того, что они назвали «искусственный интеллект» (термин, придуманный Маккарти для этого случая). На этой конференции Аллен Ньюэлл (Allen Newell), Клифф Шоу (Cliff Shaw) и Герберт Саймон (Herbert Simon) продемонстрировали компьютерную программу под названием "Теоретик логики" (The Logic Theorist), которую они разработали в компании RAND (Research and Development Corporation). Эта программа была сосредоточена на решении различных математических теорем из книги "Начала математики" (Principia Mathematica). Создание программы "Теоретик логики" стало задачей не из легких. Ньюэлл, Шоу и Саймон использовали компьютер IBM 701, в котором применялся машинный язык. Поэтому им пришлось создать высокоуровневый язык IPL (Information Processing Language – язык для обработки информации), который ускорил процесс программирования. В течение нескольких лет этот язык стал приоритетным для ИИ. Компьютеру IBM 701 также не хватало памяти для "Теоретика логики". Это привело к еще одному нововведению – обработке списков. Она позволяла динамически выделять и высвобождать память по мере исполнения программы. В итоге программа "Теоретик логики" считается первой когда-либо разработанной программой ИИ. Несмотря на это, она не вызвала особого интереса! Дартмутская конференция стала в основном разочарованием. Подвергся критике даже сам термин "искусственный интеллект". Что касается Маккарти, то он продолжил свою миссию по продвижению инноваций. В конце 1950-х годов он разработал язык программирования Lisp, который часто применялся для проектов на основе ИИ из-за простоты использования нечисловых данных. Он также создал такие понятия программирования, как рекурсия, динамическая типизация и сборка мусора. Язык Lisp продолжает использоваться и сегодня, например, в робототехнике и бизнес- приложениях. Работая над языком, Маккарти также стал одним из основателей Лаборатории искусственного интеллекта МТИ (Массачусетского технологического института). В 1961 году он сформулировал концепцию совместного использования времени компьютеров, которая оказала трансформирующее влияние на эту индустрию. Эта концепция также привела к развитию Интернета и облачных вычислений. Несколько лет спустя он основал Лабораторию искусственного интеллекта в Стэнфорде. В 1969 году он написал статью под названием "Автомобили под управлением компьютеров" (Computer-Controlled Cars), в которой объяснил, как человек может вводить в компьютер направления движения с помощью клавиатуры, а телевизионная камера будет управлять автомобилем. В 1971 году он получил премию Тьюринга. Эта премия считается Нобелевской премией по компьютерным наукам. Золотой век искусственного интеллекта С 1956 по 1974 год область искусственного интеллекта была одной из самых горячих в технологическом мире. Главным катализатором стало быстрое развитие компьютерных технологий. Они превратились из массивных систем, основанных на вакуумных лампах, в более миниатюрные системы, работающие на интегральных схемах, которые были намного быстрее и имели больший объем памяти. Главным источником финансирования проектов ИИ стало Агентство перспективных научно-исследовательских проектов (Advanced Research Projects Agency, ARPА) Министерства обороны США, которое было создано в конце 1950- х годов после шока, полученного от запуска советского космического спутника. Помимо компании IBM, частный сектор участвовал в разработке ИИ мало. Следует учитывать, что к середине 1950-х годов компания IBM отойдет от этой темы и сосредоточится на коммерциализации своих компьютеров. Клиенты действительно опасались, что эта технология приведет к значительным потерям рабочих мест. И поэтому компания IBM не хотела, чтобы ее в этом обвиняли. Другими словами, большая часть инноваций в ИИ исходила из академических кругов. Например, в 1959 году Ньюэлл, Шоу и Саймон продолжили расширять границы в области искусственного интеллекта, разработав программу под названием "Универсальный решатель задач" (General Problem Solver). Как следовало из ее названия, речь шла о решении математических задач, таких как ханойская башня. Но появилась масса других программ, которые пытались приблизиться к уровню сильного ИИ: – SAINT или Symbolic Automatic INTegrator (Символический автоматический интегратор, 1961). Эта программа, созданная исследователем МТИ Джеймсом Слэглом (James Slagle), помогала решать задачи исчисления уровня младших курсов университетов. В дальнейшем она была обновлена, превратившись в другие программы, SIN и MACSYMA, которые делали гораздо более продвинутые математические расчеты. Программа SAINT фактически стала первым примером экспертной системы. – ANALOGY (Аналогия, 1963). Эта программа была создана профессором МТИ Томасом Эвансом (Thomas Evans). Она продемонстрировала, что компьютер может решать задачи на рассуждение по аналогии с тестом IQ. – STUDENT (Студент, 1964). Даниэль Бобров (Daniel Bobrow) создал это приложение ИИ для своей кандидатской диссертации под руководством Мински в МТИ. Система использовала обработку естественного языка для решения алгебраических задач уровня старших классов средней школы. – ELIZA (Элиза, 1965). Эту программу разработал профессор МТИ Джозеф Вейценбаум (Joseph Weizenbaum), и она мгновенно стала большим хитом. Она даже вызвала шумиху в магистральной прессе. Данная программа была названа в честь Элизы (героини пьесы Джорджа Бернарда Шоу "Пигмалион") и служила психоаналитиком. Пользователь мог вводить вопросы, а Элиза давала советы (это был первый пример разговорного робота, или чат-бота). Некоторые люди, использовавшие ее, думали, будто программа была реальным человеком, что глубоко обеспокоило Вейценбаума, поскольку лежащая в основе технология была довольно простой. – Computer Vision (Компьютерное зрение, 1966). В легендарной истории Марвин Мински из МТИ предложил студенту Джеральду Джею Сассману (Gerald Jay Sussman) провести лето, подключив камеру к компьютеру и заставив компьютер описывать то, что он видел. Джеральд так и поступил, и выстроил систему, которая обнаруживала базовые регулярности. Эта программа стала первым применением компьютерного зрения. – Mac Hack (1968). Профессор МТИ Ричард Д. Гринблатт (Richard D. Greenblatt) создал эту программу для игры в шахматы. Данная программа была первой, которая выступала в реальных турнирах и получила рейтинг С, т. е. второй по сложности уровень, достигаемый средним клубным или турнирным шахматистом-любителем. – Hearsay I (конец 1960-х). Профессор Радж Редди (Raj Reddy) разработал систему непрерывного распознавания речи. Некоторые из его учеников затем продолжат начатую работу и создадут Dragon Systems, ставшую крупной технологической компанией. В этот период появилось много научных работ и книг по искусственному интеллекту. Некоторые темы включали байесовы методы, машинное обучение и компьютерное зрение. Но в целом существовало две главенствующие теории ИИ. Одну из них возглавлял Минский, который говорил, что должны существовать символические системы. Иными словами, ИИ должен основываться на традиционной компьютерной логике или предварительном программировании, т. е. на использовании таких подходов, как инструкции если-то-иначе. И был Фрэнк Розенблатт (Frank Rosenblatt), который считал, что ИИ должен использовать системы, подобные головному мозгу, такие как нейронные сети (эта область также носила название коннекционизма). Но вместо того чтобы называть внутренние механизмы нейронами, он называл их персептронами. Система могла учиться с течением времени по мере поступления данных. В 1957 году Розенблатт создал для этого первую компьютерную программу- персептрон под названием "Mark 1". Она также поддерживала камеры, помогавшие проводить различие между двумя изображениями (они имели формат 20x20 пикселов). Эта программа определенно стала для ИИ прорывной. В газете "Нью-Йорк тайме" даже вышла хвалебная для Розенблатта статья, провозгласившая, что "Navy сегодня показал эмбрион электронного компьютера, который, как ожидает автор, сможет ходить, говорить, видеть, писать, воспроизводить себя и осознавать свое существование". Но с персептроном все еще оставались проблемы. Во-первых, нейронная сеть имела только один слой (главным образом из-за отсутствия в то время вычислительной мощности). Во-вторых, исследования мозга все еще находились на начальной стадии развития и мало что могли дать в плане понимания когнитивных способностей. Мински вместе с Сеймуром Пейпертом (Seymour Papert) написал книгу "Персептроны" (1969). Авторы подвергли безжалостной атаке подход Розенблатта, и этот подход быстро сошел на нет. Отметим, что в начале 1950-х годов Мински разработал грубую нейросетевую машину, в частности используя сотни вакуумных трубок и запасных частей от бомбардировщика В-24. И он убедился на своем опыте, что эта технология была слишком далека от того, чтобы стать работоспособной. Розенблатт попытался сопротивляться, но было уже поздно. Сообщество ИИ быстро разочаровалось в нейронных сетях. Однако к 1980-м годам его идеи возродятся, что приведет к революции в ИИ, в первую очередь с развитием технологии глубокого обучения. По большей части золотой век ИИ был в состоянии свободного плавания и будоражил умы. Некоторые самые яркие ученые в мире пытались создавать машины, которые могли бы действительно думать. Но оптимизм часто доходил до крайности. В 1965 году Саймон заявил, что в течение 20 лет машина сможет делать все, что может человек. Затем в 1970 году в интервью журналу Life он сказал, что это произойдет всего через 3-8 лет. К сожалению, следующая фаза ИИ будет гораздо темнее. Все больше ученых становились скептиками. Пожалуй, самым яростным был философ Хьюберт Дрейфус (Hubert Dreyfus). В таких книгах, как "Что компьютеры все-таки не могут делать: критика искусственного разума" (What Computers Still Can’t Do: A Critique of Artificial Reason), он высказывал свои идеи о том, что компьютеры не похожи на человеческий мозг и что искусственный интеллект, к сожалению, не оправдает высоких ожиданий. Зима искусственного интеллекта В начале 1970-х годов энтузиазм в отношении ИИ начал угасать. Этот период станет называться "зимой ИИ" и продлится до 1980 года. Несмотря на то что в области ИИ было проделано много значительных шагов вперед, они все-таки были главным образом академическими и предусматривали контролируемые среды. В то время компьютерные системы были еще ограниченными. Например, компьютер DEC PDP-11/45, который очень часто использовался для исследований ИИ, имел возможность расширения оперативной памяти только до 128 Кбайт. Язык Lisp также не был для компьютерных систем идеальным. И даже наоборот, в корпоративном мире в центре внимания находился язык FORTRAN. Далее, имелся целый ряд сложных аспектов понимания интеллекта и логического рассуждения. И двусмысленность является лишь одним из примеров. Это ситуация, когда слово имеет более одного смысла, что увеличивает трудность в работе программы ИИ, т. к. ей тоже нужно было понимать контекст. Наконец, экономическая ситуация в 1970-е годы была далеко не стабильной. Наблюдались устойчивая инфляция, медленный рост и перебои в поставках, как, например, во время нефтяного кризиса. Самый большой удар по ИИ был нанесен в 1973 году докладом профессора сэра Джеймса Лайтхилла (James Lighthill). Профинансированный парламентом Соединенного Королевства, этот доклад стал полным развенчанием "грандиозных целей" сильного ИИ. Главной трудностью, как отмечалось в докладе, был "комбинаторный взрыв", который становился непреодолимой проблемой, когда модели становились слишком сложными и трудно настраиваемыми. В заключении доклада говорилось, что "ни в одной части этой области сделанные до сих пор открытия не оказали того значительного воздействия, которое было тогда обещано". Он был настолько пессимистичен, что не верил, что компьютеры способны распознавать образы или обыгрывать гроссмейстера в шахматы. Дела пошли настолько плохо, что многие исследователи изменили свою карьеру. А те, кто по-прежнему изучал ИИ, часто называли свою работу другими терминами – например, машинное обучение, распознавание образов и информатика. Взлет и падение экспертных систем Даже во время зимы искусственного интеллекта продолжались крупные инновации. Одной из них явился алгоритм обратного распространения, который необходим для назначения весов в нейронных сетях. Затем была разработана рекуррентная нейронная сеть (RNN-сеть, recurrent neural network). Она позволяет соединениям перемещаться через входной и выходной слои. Но в 1980-х и 1990-х годах также появились экспертные системы. Ключевым фактором для них стал взрывной рост числа персональных компьютеров и мини- компьютеров. Экспертные системы были основаны на концепции символической логики Минского, включающей сложные пути. Они часто разрабатывались экспертами в определенных областях, таких как медицина, финансы и автомобилестроение. Хотя существуют экспертные системы, которые восходят к середине 1960-х годов, они не получили коммерческого использования вплоть до 1980-х. Примером может служить экспертная система XCON (eXpert CONfigurer – эксперт- конфигуратор), разработанная Джоном Макдермоттом (John McDermott) в Университете Карнеги – Меллона. Данная система позволяла оптимизировать подбор компонентов компьютера и изначально имела около 2500 правил. Когда компании убедились в успехе экспертной системы XCON, произошел бум экспертных систем, превратившийся в миллиардную индустрию. Следует учесть, что компания IBM использовала экспертную систему для своего компьютера Deep Blue. В 1996 году он обыграл гроссмейстера Гарри Каспарова в одном из шести матчей. Компьютер Deep Blue, который компания IBM разрабатывала с 1985 года, обрабатывал 200 млн позиций в секунду. Но с экспертными системами имелись и проблемы. Они часто были узкоспециализированными и трудноприменимыми в других сферах. Более того, по мере расширения экспертных систем управлять ими и подавать в них данные становилось все труднее. В итоге результаты содержали больше ошибок. Далее процесс тестирования таких систем часто оказывался сложным. Следует признать тот факт, что временами эксперты расходились во мнениях по фундаментальным вопросам. Наконец, экспертные системы не учились с течением времени. Вместо этого необходимо было постоянно обновлять базовые логические модели, что значительно увеличивало затраты и сложности. К концу 1980-х годов экспертные системы начали терять популярность в деловом мире, и многие стартапы претерпели слияние или обанкротились. На самом деле, это обусловило еще одну зиму ИИ, которая продлилась примерно до 1993 года. Персональные компьютеры быстро откусывали куски рынков аппаратного обеспечения более высокого класса, что означало резкое сокращение числа машин на основе языка Lisp. Нейронные сети и глубокое обучение Первые работы по нейронным сетям связывают с именем Джеффри Хинтона. Будучи подростком в 1950-х годах, Джеффри Хинтон (Geoffrey Hinton) хотел стать профессором и изучать ИИ. Он происходил из семьи известных ученых (его прапрадедом был английский математик и логик Джордж Буль). Его мама часто говорила: "Стань академиком либо неудачником". Даже во время первой зимы искусственного интеллекта Хинтон продолжал увлекаться искусственным интеллектом и был убежден, что подход Розенблатта к нейронным сетям был правильным. Так, в 1972 году он получил докторскую степень по данной теме в Эдинбургском университете. Но в этот период многие считали, что Хинтон попусту тратит свое время и таланты. ИИ, по существу, считался пограничной областью. Научные исследования в этой области даже не воспринимались как наука. Но это только еще больше воодушевляло Хинтона. Он наслаждался своим положением аутсайдера и знал, что его идеи в конце концов победят. Хинтон понял, что самым большим препятствием для ИИ является компьютерная мощь. Он также видел, что время было на его стороне. Закон Мура предсказывал, что число компонентов на чипе будет удваиваться примерно каждые 18 месяцев. Тем временем Хинтон неустанно работал над разработкой стержневых теорий нейронных сетей – того, что со временем стало известно как глубокое обучение. В 1986 году он написал – вместе с Дэвидом Румелхартом (David Rumelhart) и Рональдом Дж. Уильямсом (Ronald J. Williams) – новаторскую работу под названием "Усвоение представлений путем обратного распространения ошибок" (Learning Representations by Back-propagating Errors). В ней изложены ключевые процессы для использования обратного распространения в нейронных сетях. В результате было достигнуто значительное улучшение точности, в частности, предсказаний и визуального распознавания. Технологические движущие силы современного искусственного интеллекта Помимо достижений в новых концептуальных подходах, теориях и моделях, у ИИ были и другие важные движущие силы. Взрывной рост числа наборов данных. Интернет был главенствующим фактором для ИИ, поскольку он позволил создавать массивные совокупности данных. Инфраструктура. Пожалуй, самой влиятельной компанией для ИИ за последние 15 лет или около того была компания Google. Для того чтобы идти в ногу с индексацией Всемирной паутины, которая росла с ошеломляющей скоростью, указанная компания должна была придумать творческие подходы к строительству масштабируемых систем. Результатом стали инновации в кластерах из серийных серверов, виртуализации и программно-информационном обеспечении с открытым исходным кодом. А с запуском проекта Google Brain в 2011 году компания Google также стала одной из первых привержениц глубокого обучения. А еще через несколько лет эта компания наняла Хинтона. Графические процессоры (Graphics Processing Units, GPU – графическое процессорное устройство, ГПУ). Эта микросхемная технология, первопроходцем в которой стала компания NVIDIA, изначально предназначалась для высокоскоростной графики в играх. Но архитектура графических процессоров в конечном счете станет идеальной и для ИИ. Обратите внимание, что большинство исследований в области глубокого обучения проводится с помощью этих чипов. Причина в том, что при параллельной обработке скорость повышается многократно, в отличие от традиционных центральных процессоров. Это значит, что вычисление модели может занять день-два по сравнению с неделями или даже месяцами в обычных условиях. Ключевые моменты Эволюционирование технологий часто занимает больше времени, чем первоначально понималось. Искусственный интеллект – это не только компьютерные науки и математика. В ИИ был сделан ключевой вклад из таких областей, как экономика, нейробиология, психология, лингвистика, электротехника, математика и философия. Существует два основных типа ИИ: слабый и сильный. При сильном ИИ машины осознают себя, тогда как слабый предназначен для систем, которые сконцентрированы на решении конкретных задач. В настоящее время ИИ находится на слабой стадии развития. Тест Тьюринга – это часто встречающийся способ проверить, может ли машина думать. Он основан на том, действительно ли кто-то из людей считает систему разумной. Ключевые факторы развития ИИ включают в себя, в частности, новые теории таких исследователей, как Хинтон, взрывной рост объема данных, новую технологическую инфраструктуру и графические процессоры. Выводы Нет ничего нового в том, что термин "искусственный интеллект" сегодня является модным. Этот термин видел различные турбулентные циклы подъема и спада. Может быть, он снова впадет в немилость? Возможно. Но на этот раз в ИИ появились настоящие инновации, которые подвергают бизнес трансформации. Мегатехнологические компании, такие как Google, Microsoft и Facebook, считают эту категорию одним из главных приоритетов. В целом похоже, что можно смело делать ставку на то, что ИИ будет продолжать расти и изменять наш мир. Лекция 2. Данные – топливо для искусственного интеллекта Введение Компания Pinterest является одним из самых популярных стартапов в Кремниевой долине, позволяющим пользователям прикреплять свои любимые предметы для создания привлекательных виртуальных досок. Популярным занятием в Pinterest является планирование свадеб. У будущей невесты будут "доски" (или тематические коллекции) для платьев, мест проведения свадьбы и медового месяца, тортов, приглашений и т. д. Это также означает, что Pinterest имеет преимущество в сборе огромного объема ценных данных. Отчасти это помогает обеспечивать целенаправленную рекламу. Но есть и возможности для проведения кампаний по электронной почте. Однажды компания Pinterest прислала сообщение, в котором говорилось: "Ты выходишь замуж! И поскольку мы любим планировать свадьбы – в особенности подбирать прекрасные писчебумажные и галантерейные принадлежности, – мы приглашаем вас просмотреть наши лучшие доски, кураторами которых являются графические дизайнеры, фотографы и другие будущие невесты, и все они являются пиннерами с острым глазом и брачным союзом на уме". Проблема, однако, оказалась в том, что многие получатели письма уже были замужем либо не собирались выходить замуж в ближайшее время. Это был важный урок для крупной IT-компании. Бывает, что портачат даже самые технологически подкованные компании. Основы данных Хорошо иметь представление о жаргоне, связанном с данными. Прежде всего, бит (bit – от англ, binary digit, т. е. двоичная цифра) – это наименьшая форма данных в компьютере. Думайте о бите как об атоме. Бит может быть либо 0, либо 1, т. е. двоичным. Он также обычно используется для измерения объема передаваемых данных (например, в сети или Интернете). Байт главным образом предназначен для измерения хранимых данных. Конечно, количество байтов может очень быстро увеличиваться. Ниже в таблице посмотрим, насколько быстро. Пример Значение Вариант использования Мегабайт 1024 килобайт Небольшая книга Гигабайт 1024 мегабайт Около 230 песен Терабайт 1024 гигабайт 500 часов фильмов Петабайт 1024 терабайт Пять лет работы системы наблюдения Земли (Earth Observing System, EOS) Экзабайт 1024 петабайт Вся библиотека конгресса США, увеличенная в 3000 раз Зеттабайт 1024 экзабайт 36 000 лет видео в формате HD-TV Йоттабайт 1024 зеттабайт Для этого потребуется центр обработки данных размером со штат Делавэр и штат Род-Айленд, вместе взятые Данные также могут поступать из разных источников: – Всемирная паутина/социальные сети (Facebook, Twitter, Instagram, YouTube); – биометрические данные (фитнес-трекеры, генетические тесты); – системы кассовых терминалов в точках продаж (от традиционных магазинов до веб-сайтов электронной коммерции); – Интернет вещей, или IoT (ID-теги и умные устройства); – облачные системы (бизнес-приложения, такие как Salesforce.com); – корпоративные базы данных и электронные таблицы; – и многие другие. Типы данных Существует четыре способа организации данных. Во-первых, это структурированные данные, которые обычно хранятся в реляционной базе данных или электронной таблице. Вот несколько примеров: – финансовая информация; – номера социального страхования; – адреса; – продуктовая информация; – данные точек продаж; – телефонные номера. По большей части со структурированными данными работать проще. Эти данные часто поступают из систем управления взаимоотношениями с клиентами (Customer Relationship Management, CRM) и систем управления бизнес-процессами (Enterprise Resource Planning, ERP), и они обычно имеют меньшие объемы. Существуют различные бизнес-информационные и аналитические программы из категории BI (business intelligence), которые помогают выводить из структурированных данных сущностные сведения. Тем не менее этот тип данных составляет около 20 % проекта на основе ИИ. Большинство из них будет поступать из неструктурированных данных, т. е. информации, которая не имеет предопределенного форматирования. Специалисту, работающему с данными, придется их самостоятельно форматировать, что может отнимать много времени. Но существуют инструменты, такие как базы данных следующего поколения, например, основанные на технологии NoSQL, которые помогают в этом процессе. Системы ИИ также являются эффективными с точки зрения управления и структурирования данных, поскольку алгоритмы могут распознавать регулярности. Вот примеры неструктурированных данных: – файлы изображений; – видеофайлы; – аудиофайлы; – текстовые файлы; – информация социальных сетей, такая как твиты и посты; – спутниковые снимки. Дальше, имеются данные, которые представляют собой гибрид структурированных и неструктурированных источников – так называемые полуструктурированные данные. Информация имеет некоторые внутренние теги, которые помогают с категоризацией. Примеры полуструктурированных данных включают XML (Extensible Markup Language – язык расширенной разметки), который основан на различных правилах идентификации элементов документа, и JSON (JavaScript Object Notation – объектная нотация языка JavaScript), который является способом передачи информации по Всемирной паутине через интерфейсы прикладного программирования (application programming interface, API). Но полуструктурированные данные составляют лишь от 5 до 10 % всех данных. Наконец, существуют данные временных рядов, которые могут быть как структурированными, неструктурированными, так и полуструктурированными. Этот тип информации предназначен для целей взаимодействия, в частности для отслеживания "путешествия клиента". Они являются результатом сбора информации о том, когда пользователь заходит на веб-сайт, использует приложение или даже заходит в магазин. Большие данные Благодаря повсеместному доступу в Интернет, мобильным и носимым устройствам произошел выброс стремительного потока данных. Каждую секунду Google обрабатывает более 40 тыс. запросов или 3,5 млрд. в сутки. Поминутно пользователи Snapchat делятся 527 760 фотографиями, а пользователи YouTube смотрят более 4,1 млн. видео. Кроме того, электронная почта продолжает демонстрировать значительный рост. Каждую минуту пользователи получают 156 млн. сообщений. Но нужно учитывать и другое: компании и машины тоже генерируют огромные объемы данных. Согласно исследованиям немецкого портала Statista, к 2020 году число датчиков достигнет 12,86 млрд. единиц. В свете всего этого, похоже, можно смело ставить на то, что объемы данных будут продолжать расти быстрыми темпами. В докладе исследовательской и консалтинговой компании IDC (International Data Corporation) под названием "Data Age 2025" (Век данных 2025) объем создаваемых данных, как ожидается, к 2025 году достигнет ошеломляющих 163 зеттабайт. Это в 10 раз больше того, что было в 2017 году. Для того чтобы со всем этим справиться, появилась категория технологий под названием "большие данные" (Big Data). Вот как компания Oracle объясняет важность этого тренда: "Сегодня большие данные стали капиталом. Подумайте о некоторых крупнейших технологических компаниях в мире. Большая часть ценности, которую они предлагают, исходит из их данных, которые они постоянно анализируют, работая более эффективно и разрабатывая новые продукты". Так что да, большие данные останутся важной частью многих проектов на основе ИИ. Тогда что же такое большие данные? Каким будет хорошее определение этого понятия? На самом деле, нет ни одного, хотя есть много компаний, которые сосредоточены на этом рынке! Но у больших данных есть следующие характерные особенности, которые называются тремя V. Дуг Лейни (Doug Laney), аналитик глобальной аналитической компании Gartner, придумал этот перечень еще в 2008 году): огромный объем (volume), разнообразие структур и источников (variety) и высокая скорость обработки (velocity). Объем Это масштаб данных, которые часто не структурированы. Не существует какого-то незыблемого правила относительно их порога, но обычно это десятки терабайт. Когда речь заходит о больших данных, то их объем часто является серьезной проблемой. Но облачные вычисления и базы данных следующего поколения оказали большую помощь – с точки зрения емкости и более низких затрат. Разнообразие Эта характерная особенность описывает многообразие данных, скажем сочетание структурированных, полуструктурированных и неструктурированных данных (объясненных выше). Она также показывает различные источники данных и их использование. Несомненно, интенсивный рост неструктурированных данных сыграл ключевую роль в разнообразии больших данных. Управление разнообразием данных может быстро стать серьезной преградой. Тем не менее машинное обучение часто является именно тем, что помогает оптимизировать его обработку. Скорость Эта характерная особенность показывает темп, с которым данные создаются. Как было показано ранее в этой главе, такие веб-службы, как YouTube и Snapchat, имеют экстремальные уровни скорости (их часто называют "пожарной частью" данных). Обеспечение скорости требует значительных инвестиций в технологии нового поколения и центры обработки данных. Данные также часто обрабатываются прямо в памяти, а не на дисковых системах. Из-за этих трудностей скорость часто считается самой сложной из всех трех V. Следует честно признать, в современном цифровом мире люди хотят получить интересующие их данные как можно быстрее. Если это происходит слишком медленно, то люди расстраиваются и уходят на другие площадки. Однако с годами, по мере развития больших данных, добавлялось все больше V. В настоящее время их насчитывается свыше десяти. Но вот несколько самых распространенных. Достоверность (Veracity). Речь идет о данных, которые считаются точными. В этой главе мы рассмотрим некоторые технические приемы оценивания достоверности. Ценность (Value). Эта характерная особенность показывает полезность данных. Часто речь идет о наличии надежного источника. Изменчивость (Variability). Эта характерная особенность означает, что данные с течением времени обычно изменяются. Например, это относится к контенту социальных сетей, который может претерпеть метаморфозу, основываясь на совокупном мнении относительно новых событий и последних новостей. Визуализация (Visualization). Эта особенность предусматривает использование визуальных элементов, таких как графики, в целях более точного понимания данных. Как видите, управление большими данными имеет много движущихся частей, что приводит к сложности. Это помогает объяснить, почему многие компании до сих пор используют только крошечную часть своих данных. Базы данных и другие инструменты Существует масса инструментов, которые помогают работать с данными. В их сердцевине лежит база данных. И ничего удивительного в том, что эта критически важная технология претерпевала эволюцию на протяжении десятилетий. Но даже более старые технологии, такие как реляционные базы данных, все еще широко используются сегодня. Когда речь заходит о критически важных данных, компании неохотно вносят изменения – даже если есть явные преимущества от нововведений. Для того чтобы разобраться в этом рынке, давайте вернемся в 1970 год, когда исследователь в области компьютерных наук из компании IBM Эдгар Кодд (Edgar Codd) опубликовал свою работу "Реляционная модель данных для крупных совместных банков данных" (A Relational Model of Data for Large Shared Data Banks). Она стала прорывной, поскольку ввела структуру реляционных баз данных. До этого момента базы данных были довольно сложными и жестко структурированными в виде иерархий. Это отнимало много времени на поиск и отыскание связей в данных. Что касается подхода Кодда к реляционным базам данных, то он был построен для более современных машин. Язык сценариев SQL (Structured Query Language – язык структурированных запросов) был прост в использовании, позволяя выполнять операции CRUD (Create, Read, Update, and Delete – создание, чтение, обновление и удаление). Таблицы тоже имели соединения с первичными и внешними ключами, что позволяло создавать важные соединения, такие как: – один-к-одному – одна строка в таблице связана только с одной строкой в другой таблице. Пример: уникальный номер водительского удостоверения связан с одним сотрудником; – один-ко-многим – это место, где одна строка в таблице связана с другими таблицами. Пример: клиент имеет несколько заказов на покупку; – многие-ко-многим – строки из одной таблицы ассоциированы со строками других таблиц. Пример: разные отчеты имеют различных авторов. С помощью этих типов структур реляционная база данных могла оптимизировать процесс создания сложных отчетов. Она действительно была революционной. Но, несмотря на все преимущества, компания IBM не заинтересовалась указанной технологией и продолжала сосредотачиваться на собственных системах. Компания считала, что реляционные базы данных были слишком медленными и хрупкими для корпоративных клиентов. Но появился еще один человек, у которого на этот счет было другое мнение: это был Ларри Эллисон (Larry Ellison.). Он прочитал статью Кодда и понял, что изложенные в ней идеи изменят правила игры. Ради того, чтобы это доказать, в 1977 году он стал одним из основателей компании Oracle, сосредоточившись на строительстве реляционных баз данных, которые быстро стали массовым рынком. Статья Кодда была, по сути, дорожной картой его предпринимательской деятельности. И только в 1993 году компания IBM выпустила собственную реляционную базу данных DB2. Но было уже слишком поздно. К этому времени компания Oracle стала лидером на рынке баз данных. На протяжении 1980-х и 1990-х годов технология реляционных баз данных была стандартом для мейнфреймовых компьютеров и клиент-серверных систем. Правда, когда большие данные стали важным фактором, в указанной выше технологии проявились серьезные недостатки, такие как: – расползание данных – со временем разные базы данных распространялись по всей организации. В результате сложнее стало централизовывать данные; – новые среды – технология реляционных баз данных не была создана для облачных вычислений, высокоскоростных данных или неструктурированных данных; – высокая стоимость – реляционные базы данных бывают дорогостоящими. Это означает, что использование указанной технологии для проектов на основе ИИ может оказаться запретительным; – сложности разработки – современная разработка программно- информационного обеспечения в значительной степени зависит от итеративной обработки. Но у реляционных баз данных возникли трудности с этим процессом. В конце 1990-х годов появились проекты с открытым исходным кодом, призванные помочь в создании систем баз данных следующего поколения. Возможно, самый критически важный из них поступил от Дуга Каттинга (Doug Cutting), который разработал библиотеку Lucene, предназначенную для текстового поиска. Его технология базировалась на сложной индексной системе, обеспечивающей производительность с низкой задержкой. Поисковая технология Lucene мгновенно стала хитом и начала эволюционировать, в частности, в модульный поисковый каркас Apache Nutch, который эффективно ползал по Всемирной паутине и сохранял данные в индексе. Но была и большая проблема: для того чтобы ползать по паутине, нужна была инфраструктура, способная к гипермасштабированию. Именно поэтому в конце 2003 года Каттинг приступил к разработке нового вида инфраструктурной платформы, которая могла бы решить эту проблему. Он взял эту идею из статьи, опубликованной в Google, в которой описывалась их массивная файловая система. Год спустя Каттинг построил свою новую платформу, которая обеспечивала изощренное хранение без особых сложностей. В ее основе был алгоритм MapReduce, который позволял обрабатывать данные на многочисленных серверах. Затем результаты сливались воедино, позволяя получать содержательные отчеты. В конце концов система Каттинга трансформировалась в платформу под названием Hadoop – и она станет играть существенную роль в управлении большими данными, например, с целью создания сложных хранилищ данных. Изначально ею пользовалась компания Yahoo!, а затем она быстро распространилась по мере того, как такие компании, как Facebook и Twitter, принимали эту технологию на вооружение. Теперь эти компании могли иметь панорамный вид своих данных, а не только их подмножеств. А это означало возможность проведения более эффективных экспериментов с данными. Но, будучи проектом с открытым исходным кодом, платформе Hadoop все еще не хватало изощренных систем для корпоративных клиентов. Для решения этой задачи стартап под названием Hortonworks настроил новые технологии, такие как YARN, поверх платформы Hadoop. Платформа имела такие способности, как аналитическая обработка прямо в памяти, онлайновая обработка данных и интерактивная обработка на основе SQL. Эти функциональные способности обеспечивали внедрение платформы Hadoop во многих корпорациях. Но, конечно же, появились и другие проекты с открытым исходным кодом по хранению данных. Хорошо известными из них являются такие, как Storm и Spark, которые сосредоточены на потоковой передаче данных. Платформа Hadoop, с другой стороны, была оптимизирована для пакетной обработки. Помимо хранилищ данных, были также инновации в традиционном бизнесе баз данных. Часто они известны как системы NoSQL. Возьмем, к примеру, MongoDB. Она началась как проект с открытым исходным кодом и превратилась в очень успешную компанию, которая стала публичной в октябре 2017 года. База данных MongoDB, имеющая более 40 млн скачиваний, предназначена для работы в облачных, локальных и гибридных средах. В ней также обеспечивается большая гибкость по структурированию данных, которая основана на документной модели. В MongoDB можно даже управлять структурированными и неструктурированными данными в больших петабайтовых масштабах. Несмотря на то что стартапы были источником инноваций в системах управления базами данных и хранения данных, важно отметить, что операторы мегатехнологий также сыграли свою критически важную роль. С другой стороны, таким компаниям, как Amazon.com и Google, пришлось отыскивать способы справиться с огромным объемом данных из-за необходимости управления своими массивными платформами. Одним из нововведений стало создание озера данных, которое позволяет беспрепятственно хранить структурированные и неструктурированные данные. Обратите внимание, что нет необходимости переформатировать данные. Озеро данных справится с этим и позволит быстро выполнять функции ИИ. Согласно исследованию аналитической фирмы Aberdeen, компании, использующие эту технологию, имеют в среднем 9 %-й органический рост по сравнению с теми, кто ее не использует. Процесс обработки данных Объем денег, потраченных на данные, просто огромен. Согласно прогнозам исследовательской и консалтинговой компании IDC, расходы на технологические решения по обработке больших данных и аналитике вырастут с 166 млрд. долларов в 2018 году до 260 млрд. долларов к 2022 году. Это составляет 11,9 %-й совокупный годовой прирост. Вот что сообщает Джессика Гепферт (Jessica Goepfert), вице-президент программы по исследованию и анализу клиентской базы компании IDC: "На высоком уровне организации обращаются к технологическим решениям по обработке и анализу больших данных, чтобы провести конвергенцию их физического и цифрового миров. Эта трансформация принимает разную форму в зависимости от индустрии. Например, в банковской и розничной торговле – двух самых быстрорастущих областях больших данных и аналитики – инвестиции направлены на управление и оживление клиентского опыта. В то время как в производстве промышленной продукции фирмы преображают себя, чтобы, по существу, стать высокотехнологичными компаниями, используя свои продукты в качестве платформы для обеспечения возможности и предоставления цифровых услуг". Но высокий уровень расходов не обязательно приводит к хорошим результатам. По оценкам исследования, проведенного аналитической компанией Gartner, примерно 85% проектов на основе больших данных прекращаются до того, как они попадают в пилотную стадию. Среди причин тому приводятся следующие: – отсутствие четкой ориентации; – грязные данные; – инвестиции в неправильные ИТ-инструменты; – проблемы со сбором данных; – отсутствие поддержки со стороны ключевых заинтересованных сторон и компаньонов в организации. В свете этого крайне важно иметь процесс обработки данных. Несмотря на то что существует много подходов – часто превозносимых разработчиками / поставщиками программно-информационного обеспечения, – есть один, который имеет широкое признание. Группа экспертов, разработчиков программно-информационного обеспечения, консультантов и ученых в конце 1990-х годов создала процесс CRISP-DM (Cross-Industry Standard Process for Data Mining – Межотраслевой стандартный процесс для добычи регулярностей из данных). Обратите внимание, что шаги 1-3 могут составлять 80% времени обработки данных. Это связано с такими факторами, как: – данные плохо организованы и поступают из разных источников (например, от разных поставщиков или из разных подразделений организации); – недостаточно внимания уделяется средствам автоматизации; – первоначальное планирование было недостаточным для масштаба проекта. Также стоит иметь в виду, что процесс CRISP-DM не является строго линейным. Во время работы с данными может быть много итераций. Например, может иметься несколько попыток найти правильные данные и их протестировать. Шаг 1. Понимание бизнеса Необходимо иметь четкое представление о бизнес-задаче, которая должна быть решена. На шаге 1 необходимо собрать подходящую команду для проекта. Только у крупных IT-компаний есть возможность набирать группу из кандидатов наук в области машинного обучения и науки о данных. Такая возможность является довольно редкой и дорогой. Но для проекта на основе ИИ не нужна и армия первоклассных инженеров. На самом деле становится все проще применять модели машинного и глубокого обучения благодаря системам с открытым исходным кодом, таким как TensorFlow, и облачным платформам от компаний Google, Amazon.com и Microsoft. Другими словами, может понадобиться всего пара человек с опытом работы в области науки о данных. Далее, нужно найти людей, которые обладают необходимыми предметными знаниями по проекту в области ИИ. Им нужно будет продумать рабочие процессы, модели и тренировочные данные с особым пониманием индустрии и требований со стороны клиентов. Наконец, необходимо оценить технические потребности. Какие инфраструктурные и программные средства будут использоваться? Возникнет ли необходимость в увеличении мощностей или приобретении новых программно- информационных решений? Шаг 2. Понимание данных На этом шаге нужно обратиться к источникам данных для проекта. Следует учесть, что существует три главных источника. 1. Внутренние данные. Эти данные могут поступать из веб-сайта, радиомаяков в магазине, датчиков Интернета вещей, мобильных приложений и т. д. Основное преимущество этих данных в том, что они являются бесплатными и адаптированы для бизнеса. Но, с другой стороны, есть и некоторые риски. Могут возникнуть проблемы, если не было уделено достаточного внимания форматированию данных или тому, какие данные следует отбирать. 2. Открытые исходные данные. Обычно они находятся в свободном доступе, что, безусловно, является хорошим преимуществом. Некоторые примеры данных из открытых источников включают государственную и научную информацию. Доступ к данным часто осуществляется через API, что делает процесс довольно простым. Открытые исходные данные также обычно хорошо отформатированы. Однако некоторые из этих переменных могут быть неясными и могут допускать систематическое смещение, например, в сторону определенной демографической группы. 3. Сторонние данные. Это данные от коммерческого поставщика. Комиссионные за предоставление этих данных бывают высокими. На самом деле, в некоторых случаях может возникать нехватка качества таких данных. По информации компании Teradata, основанной на собственных разработках в области ИИ, около 70 % источников данных являются внутренними, 20 % – из открытых источников, и остальные – от коммерческих поставщиков. Но, несмотря на источник, все данные должны быть достоверными. Если они таковыми не являются, то, скорее всего, возникнет проблема "мусор на входе, мусор на выходе". Для того чтобы оценить полученные данные, необходимо ответить на следующие вопросы: – Являются ли данные полными? Чего может не хватать? – Откуда взялись эти данные? – Каковы были пункты их сбора? – Кто прикасался к данным и обрабатывал их? – Какие изменения произошли в данных? – Какие проблемы имеются с их качеством? Если мы работаем со структурированными данными, то этот этап должен быть проще. Правда, когда речь заходит о неструктурированных и полуструктурированных данных, придется выполнить разметку данных – и этот процесс может быть длительным. Однако на рынке появляются инструменты, которые помогут автоматизировать этот процесс. Шаг 3. Подготовка данных Первый шаг в процессе подготовки данных – решить, какие наборы данных использовать. Давайте взглянем на сценарий. Предположим, мы работаем в издательской компании и хотите разработать стратегию по улучшению способов удержания клиентов. Некоторые данные, которые должны помочь, включают демографическую информацию о клиентуре, такую как возраст, пол, доход и образование. В целях придания большей цветности мы также можем посмотреть браузерную информацию. Какой тип контента интересует клиентов? Какова частота и продолжительность посещения веб-сайта? Имеются ли еще какие-то интересные закономерности, скажем обращение к информации в выходные дни? Объединив источники информации, мы можем собрать мощную модель. Например, если в некоторых областях наблюдается снижение активности, то это может привести к риску ухода клиента. Это будет тревожным сигналом для специалистов отдела продаж о том, чтобы они обратились к клиентам лично. Хотя этот процесс выглядит разумным, все же тут есть подводные камни. Включение или исключение даже одной переменной может оказать значительное негативное влияние на модель ИИ. Для того чтобы понять почему, оглянитесь на финансовый кризис. Модели андеррайтинга ипотечных кредитов были сложными и основывались на огромном объеме данных. В нормальные экономические времена они работали довольно хорошо, т. к. крупные финансовые институты, такие как Goldman Sachs, JP Morgan и AIG, во многом опирались на них. Но была одна проблема: модели не учитывали падение цен на жилье! Главная причина заключалась в том, что на протяжении десятилетий не было ни одного падения общенационального масштаба. И в связи с этим все исходили из допущения, что жилье – это главным образом локальное явление. Как известно, цены на жилье не просто упали, а упали резко. Модели тогда оказались далеко не на высоте, и миллиарды долларов убытков едва не обрушили финансовую систему США. У федерального правительства не был?