Сара Константен
Люди, которые не концентрируются, не являются в полном смысле разумными
(перевод поста "Humans Who Are Not Concentrating Are Not General Intelligences")
ссылка на пост
Люди, которые не концентрируются, не являются в полном смысле разумными
(перевод поста "Humans Who Are Not Concentrating Are Not General Intelligences")
ссылка на пост
+++Недавно OpenAI выпустил новую языковую модель, которая автоматически создает текст, под названием GPT-2.
Это очень хорошо. Вы можете увидеть некоторые примеры (тщательно отобранные, по их собственному признанию) в посте OpenAI и в соответствующем техническом документе.
Я не собираюсь писать здесь о машинном обучении - но о примерах и о том, что мы можем с ними сделать.
Устрашающая вещь в текстах, сгенерированных GPT-2, заключается в том, что они читаются очень естественно, если вы просто просматриваете их, отмечая только стиль и ключевые, пробуждающие воспоминания слова. Образец «единорога» читается как настоящий научный пресс-релиз. Образец «кражи ядерного материала» читается как настоящая новость. Образец «Майли Сайрус ворует в магазинах» читается как настоящий пост с сайта сплетен о знаменитостях. Образец «GPT-2» читается как настоящий пресс-релиз OpenAI. Образец «Леголас и Гимли» читается как настоящий фэнтезийный роман. «Домашнее задание по гражданской войне» читается как настоящая работа студента C. «Благодарственная речь Кеннеди» читается как реальная политическая речь. Образец «переработки» читается как настоящая правоэкстремистская тирада.
Если я просто просматриваю их, не фокусируясь, все они выглядят совершенно нормально. Я не заметила бы, что они были сгенерированы машиной. Я не заметила бы ничего плохого в них.
Но если я читаю внимательно, я замечаю, что они не имеют логического смысла.
Например, в образце «единорога»:
Ученый назвал популяцию в честь их характерного рога Единорог Овидия. Эти серебристо-белые единороги с четырьмя рогами были ранее неизвестны науке.
Подождите секунду, «Овидий» не относится к «характерному рогу», так с чего бы называть их «Единорогом Овидия», а не по их характерному рогу? Кроме того, вы только что сказали, что у них один рог, так почему вы говорите, что у них четыре рога в следующем предложении?
Хотя их происхождение до сих пор неясно, некоторые полагают, что, возможно, существа были созданы, когда человек и единорог встретились друг с другом во времена, предшествовавшие человеческой цивилизации. По словам Переса, «в Южной Америке подобные инциденты встречаются довольно часто».
Подождите, единороги произошли от скрещивания людей и ... единорогов? Это замкнутый круг, не так ли?
Или посмотрите на образец GPT-2:
Мы считаем, что этот проект является первым шагом в направлении разработки больших систем НЛП без данных обучения для конкретных задач. То есть мы разрабатываем систему машинного языка в генеративном стиле без явных правил для создания текста.
За исключением того, что второе предложение не является повторением первого предложения - «учебные данные для конкретной задачи» и «явные правила для создания текста» не являются синонимами! Поэтому говорить «это есть» не имеет смысла.
Или посмотрите на образец LOTR:
Арагорн обнажил меч, и битва при Фангорне была выиграна. Когда они прошли через чащу, утренний туман рассеялся, и день превратился в сумерки.
Да, день не превращается в сумерки утром.
Или в образце «воскресший Кеннеди»:
(1) Мозг Джона Франклина Кеннеди был собран и реконструирован с помощью отбора проб ткани. Не было никакого способа, которым ткань могла быть транспортирована воздухом. (2) Образец был взят из области вокруг его верхней части груди и отправлен в Мэрилендский университет для анализа. Человеческий мозг в этот момент будет иметь объем около полутора кубических сантиметров. Затем данные были проанализированы вместе с материалом, который был получен из исходного мозга, чтобы произвести реконструкцию; с точки зрения непрофессионала, «сетки» мозговой ткани.
Его мозговая ткань была извлечена ... из его груди ?! Объем человеческого мозга составляет полтора кубических сантиметра?!
Итак, на самом деле, это явно писал не человек. OpenAI и не утверждает, что это так, как стоило бы - я не пытаюсь свести на нет их достижения, это не главное в этом посте. Дело в том, что если вы просто просматриваете текст, вы упускаете очевидные нелепости. Дело в том, что OpenAI смог пройти тест Тьюринга против людей на автопилоте.
Дело в том, что я знаю нескольких моих знакомых, которые, даже когда их просили попытаться найти недостатки, не могли обнаружить ничего странного или ошибочного в сгенерированных GPT-2 образцах.
Вероятно, есть много людей, которые были бы полностью поглощены буквальными «поддельными новостями», как, например, компьютерные фейковые статьи и посты в блогах. Это довольно тревожно. Еще более тревожно: если бы я не приложила сознательных усилий, чтобы внимательно прочитать, я была бы одним из них.
Пост Робина Хансона «Лучшие болтуны» очень актуален здесь. Он утверждает, и я не думаю, что он преувеличивает, что большая часть человеческой речи просто генерируется «корреляциями низкого порядка», то есть генерированием предложений или абзацев, которые по статистике могут следовать после предыдущих предложений или абзацев:
После восемнадцати лет работы профессором я оценил множество студенческих сочинений. И хотя я обычно стараюсь преподавать глубокую структуру понятий, то, что на самом деле усваивает средний ученик, в основном представляет собой набор корреляций низкого порядка. Они знают, какие слова использовать, какие слова имеют тенденцию соединяться, какие комбинации имеют положительные ассоциации и так далее. Но если вы задаете на экзамене вопрос, где ответ с глубокой структурой отличается от ответа, до которого вы догадались бы, рассматривая корреляции низкого порядка, большинство студентов обычно дают неправильный ответ.
Простые корреляции также кажутся достаточными для большинства вежливых разговоров, таких как хорошая погода, болезнь вашей матери и эта проклятая другая политическая партия. Простые корреляции также являются большей частью того, что я вижу во вдохновляющих выступлениях на TED, когда публичные интеллектуалы и гости ток-шоу рассказывают о темах, которые они действительно не понимают, таких как квантовая механика, сознание, постмодернизм или необходимость повсеместного усиления регулирования. В конце концов, ведущим развлекательных шоу не нужно понимать глубокие структуры лучше, чем их аудитория.
Позвольте мне назвать стили речи (или музыки и т. д.), которые в основном полагаются на корреляции низкого порядка, - «лепетом». Болтовня не является бессмысленной, но для невежественной аудитории она часто основывается на более глубоком понимании, чем на самом деле. Когда все сделано хорошо, лепет может быть интересным, утешительным или захватывающим. Обычно это не лучшее место для глубокого изучения.
Раньше я просто шутила, что «Генератор брехни Нью-Эйдж» был действительно полезен для того, чтобы заставить себя чувствовать себя более оптимистично. Правда в том, что он не достаточно хорош, чтобы соответствовать «ауре» или «ассоциациям» подлинного, созданного человеком, вдохновляющего текста. GPT-2, напротив, хорош достаточно.
Я также подозреваю, что «лирическая» или «свободно-ассоциативная» функция поэзии адекватно соответствует GPT-2. Автозаполнения Howl читаются во многом как Аллен Гинзберг - они просто не подразумевают одни и те же представления о мире. (Молох, чье сердце требует справедливости, звучит довольно позитивно.)
Я заметила, что по итогам обычной беседы я не могу сказать, является ли кто-то умным в смысле IQ.
Я брала интервью у соискателей и воспринимала их всех как «ярких и впечатляющих», но обнаружила, что подавляющее большинство из них не могут решить простую математическую задачу. Те, кто мог решить эту задачу, не выглядели более «яркими» в разговоре, чем те, кто не мог.
Я преподавала учителям государственных школ, которые были невероятно плохи в формальных математических рассуждениях (я знаю, потому что я оценивала их тесты), до такой степени, что я не представляла, как люди могут быть настолько плохи в математике - но это никак не повлияло на то, как они общались в дружеской беседе через несколько часов. Они не казались «вялыми» или «медленными», они были остроумными, привлекательными и теплыми.
Я читала личные блоги людей с ограниченными умственными способностями - людей, которые по определению имеют плохие результаты в тестах IQ - и их читают так же, как других, считая не менее забавными, креативными или подходящими для общения.
Какими бы ни были измерения IQ-тестов и математических тестов, я считаю, что отсутствие этой способности никак не влияет на способность производить хорошее социальное впечатление или даже «казаться умным» в разговоре.
Если «человеческий интеллект» - это способность рассуждать, способность определять, имеют ли аргументы смысл, то вам просто не нужен человеческий интеллект для создания лингвистического стиля или эстетики, которые могут обмануть наш аппарат распознавания образов, если мы не сконцентрируемся на анализе содержания.
Я также заметила, прочитав образцы GPT-2, насколько часто мой мозг переключается с сосредоточенного внимания на просматривание. Я с интересом прочитала образец статьи об испанской истории, и текст, сгенерированный GPT-2, был явно абсурдным. Во время чтения образца, посвященного видеоиграм, мои глаза остекленели, так как я не интересуюсь видеоиграми, и сгенерированный машиной текст выглядел совершенно нормальным для меня. Мой мозг постоянно оценивает, на чем стоит сосредоточиться, а на чем можно отключиться. GPT-2 на самом деле очень полезен в качестве «теста» уровня внимания.
Это связано с моей гипотезой о том, что распознавание образов без усилий - это то, что машинное обучение может сделать сегодня, при этом требуя пристального внимания, и четко изложенные рассуждения (которые, кажется, являются подмножеством напряженного внимания), как правило, выходят за рамки текущих возможностей машинного обучения.
Бета-волны в мозге обычно связаны с сосредоточенной концентрацией или активной или тревожной мыслью, в то время как альфа-волны связаны с расслабленным состоянием бодрствования, но с закрытыми глазами, перед сном или во сне. Альфа-волны резко уменьшаются после того, как субъект совершает ошибку и начинает уделять больше внимания. Мне было бы интересно узнать, соотносится ли способность отличать текст, сгенерированный GPT-2 от текста, созданного человеком, с альфа-волнами и бета-волнами.
Эффекты первого порядка высокоэффективных текстовых генераторов пугают. Будет очень легко и дешево обмануть людей, манипулировать общественными движениями и т. д. У плохих актеров есть много возможностей воспользоваться этим.
Впрочем, эффекты второго порядка вполне могут быть хорошими. Если только сознательная, сфокусированная логическая мысль может обнаружить бота, возможно, некоторые люди станут более осведомлены о том, когда они думают активно, а когда нет, и смогут помечать, когда они на самом деле не фокусируются, и различать впечатления, которые они воспринимают. состояние автопилота из «реального обучения».
Ментальное движение «Я на самом деле не разбирал этот абзац, но уверен, что я соглашусь с автором», в моем интроспективном опыте абсолютно идентично «Я действительно не разбирал этот абзац, потому что он был сгенерирован ботом и не имел никакого смысла, поэтому я не мог его проанализировать», за исключением того, что в первом случае я предполагаю, что ошибка связана со мной, а не с текстом. Это не безопасное предположение в мире после GPT2. Вместо «смирения по умолчанию» («default to humility»), предполагая, что если вы не понимаете отрывок, этот отрывок истинен, и вы просто что-то упускаете, идеальным умственным действием в мире, полном ботов, является «по умолчанию ничего» («default to null»), т. е. если вы не понимаете отрывок, предположим, что вы находитесь в том же эпистемологическом состоянии, как если бы вы его вообще не читали.
Может быть, практика и опыт работы с GPT-2 помогут людям лучше выполнять «default to null»?