Berrydax » 30 дек 2022, 11:10
Мы
обучили модель под названием ChatGPT, которая взаимодействует в режиме разговора. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неправильные предпосылки и отклонять неуместные запросы. ChatGPT - это дочерняя модель для InstructGPT, которая обучена следовать инструкциям в приглашении и предоставлять подробный ответ.
Трудно сказать, не имея дополнительной информации о том, что должен делать код и что происходит при его выполнении. Одна из потенциальных проблем с предоставленным вами кодом заключается в том, что resultWorkerErrканал никогда не закрывается, что означает, что код потенциально может зависнуть, если resultWorkerErrканал никогда не записывается. Это может произойти, если b.resultWorkernever вернет ошибку или если она будет отменена до того, как у нее появится шанс вернуть ошибку.
Чтобы устранить эту проблему, вы можете закрыть resultWorkerErrканал после записи на него. Например, вы могли бы добавить следующую строку кода после строки, которая отправляет ошибку по каналу:
close(resultworkerErr)
Это гарантировало бы, что resultWorkerErrканал всегда закрыт, даже если b.resultWorkerникогда не возвращает ошибку. Опять же, трудно сказать, является ли это проблемой, с которой вы столкнулись, без дополнительной информации о проблеме, которую вы видите. Можете ли вы предоставить более подробную информацию о том, что происходит при запуске кода?
Мы обучили эту модель, используя обучение с подкреплением на основе обратной связи с человеком (RLHF), используя те же методы, что и InstructGPT, но с небольшими отличиями в настройке сбора данных. Мы обучили начальную модель, используя контролируемую тонкую настройку: инструкторы по искусственному интеллекту проводили беседы, в которых они играли обе стороны - пользователя и помощника ИИ. Мы предоставили тренерам доступ к предложениям, написанным на основе моделей, чтобы помочь им составить свои ответы. Мы смешали этот новый набор данных для диалога с набором данных InstructGPT, который мы преобразовали в формат диалога.
Чтобы создать модель вознаграждения за обучение с подкреплением, нам нужно было собрать сравнительные данные, которые состояли из двух или более ответов модели, ранжированных по качеству. Чтобы собрать эти данные, мы записали разговоры, которые ИИ-тренеры вели с чат-ботом. Мы случайным образом выбрали сообщение, написанное по образцу, выбрали несколько альтернативных вариантов завершения и попросили тренеров ИИ оценить их. Используя эти модели вознаграждения, мы можем точно настроить модель, используя ближайшую оптимизацию политики. Мы выполнили несколько итераций этого процесса.
ChatGPT доработан по сравнению с моделью из серии GPT-3.5, обучение которой завершилось в начале 2022 года. Вы можете узнать больше о серии 3.5 здесь. ChatGPT и GPT 3.5 прошли обучение на суперкомпьютерной инфраструктуре Azure AI.
Ограничения
ChatGPT иногда пишет правдоподобно звучащие, но неправильные или бессмысленные ответы. Устранение этой проблемы является сложной задачей, поскольку: (1) во время обучения RL в настоящее время нет источника истины; (2) обучение модели быть более осторожной заставляет ее отклонять вопросы, на которые она может ответить правильно; и (3) контролируемое обучение вводит модель в заблуждение, потому что идеальный ответ зависит от того, что знает модель, а не от того, что знает человек-демонстратор.
ChatGPT чувствителен к изменениям в формулировках ввода или к многократным попыткам выполнения одного и того же запроса. Например, при одной формулировке вопроса модель может утверждать, что не знает ответа, но при небольшой перефразировке может ответить правильно.
Модель часто чрезмерно многословна и злоупотребляет определенными фразами, например, повторяя, что это языковая модель, подготовленная OpenAI. Эти проблемы возникают из-за искажений в данных обучения (инструкторы предпочитают более длинные ответы, которые выглядят более исчерпывающими) и хорошо известных проблем чрезмерной оптимизации.1 2
В идеале модель должна задавать уточняющие вопросы, когда пользователь задает неоднозначный запрос. Вместо этого наши текущие модели обычно угадывают, что имел в виду пользователь.
Хотя мы приложили усилия, чтобы заставить модель отклонять неуместные запросы, иногда она будет реагировать на вредные инструкции или проявлять предвзятое поведение. Мы используем API модерации, чтобы предупреждать или блокировать определенные типы небезопасного контента, но мы ожидаем, что на данный момент у него будут ложные отрицательные и положительные результаты. Мы стремимся собирать отзывы пользователей, чтобы помочь нашей текущей работе по улучшению этой системы.
Если бы Колумб прибыл в США в 2015 году, он, вероятно, был бы очень удивлен изменениями, произошедшими с тех пор, как он впервые высадился в “Новом Свете” в 1492 году. Во-первых, он, вероятно, был бы шокирован, узнав, что земля, которую он “открыл”, на самом деле уже была заселена коренными американцами, и что теперь Соединенные Штаты - многокультурная нация, в которой живут люди со всего мира. Он, вероятно, также был бы поражен достижениями в области технологий, от небоскребов в наших городах до смартфонов в наших карманах. Наконец, он может быть удивлен, узнав, что многие люди больше не считают его героем; на самом деле, некоторые люди утверждают, что он был жестоким завоевателем, который порабощал и убивал местных жителей. В целом, для Колумба это был бы совсем другой опыт, чем тот, который у него был более 500 лет назад.
Мы знаем, что многие ограничения остаются, как обсуждалось выше, и мы планируем регулярно обновлять модель для улучшения в таких областях. Но мы также надеемся, что, предоставляя доступный интерфейс ChatGPT, мы получим ценные отзывы пользователей по вопросам, о которых мы еще не знаем.
Пользователям рекомендуется оставлять отзывы о проблемных выводах модели через пользовательский интерфейс, а также о ложных срабатываниях / негативах от внешнего фильтра содержимого, который также является частью интерфейса. Нас особенно интересуют отзывы о вредных результатах, которые могут возникнуть в реальных, неконфликтных условиях, а также отзывы, которые помогают нам выявлять и понимать новые риски и возможные меры по их снижению.Вы можете принять участие в конкурсе отзывов ChatGPT 3, чтобы получить шанс выиграть до 500 долларов в виде кредитов API.[1]
Покупка не требуется, недействительна там, где это запрещено. Для входа должно быть не менее 18 лет. Подробности конкурса см. в Официальных правилах.
Мы рады использовать уроки, извлеченные из этого выпуска, при развертывании более мощных систем, точно так же, как это было сделано при более ранних развертываниях.
Соцсети пестрят высококачественными картинками, сгенерированными кодом. Работают так называемые модели преобразования текста в изображение. С помощью машинного обучения нейросеть анализирует текст и визуальные материалы, выявляя шаблоны, на основе которых затем создает собственные произведения.
В 2021-м исследовательская лаборатория OpenAI представила программную систему DALL-E, запомнившуюся милыми рисунками по запросу вроде "кресло в форме авокадо".
Весной 2022-го OpenAI выпустила DALL-E 2. В системе реализовали метод машинного обучения, известный как обратная диффузия. Качественное изображение поэтапно превращается в случайный шум. Используя датасет таких пар нормальных и испорченных картинок, нейросеть учится совершать обратное — формировать из хаоса четкие образы. Благодаря текстовым подсказкам результат становится более реалистичным и художественно убедительным.
В свободном доступе несколько диффузионных моделей. Одна из них — Midjourney, генерирующая изображения по запросу на английском языке. Чем подробнее расписана задача, тем точнее результат, который можно усовершенствовать с помощью специальных настроек.
Несмотря на существенный качественный прогресс, картины ИИ по-прежнему неидеальны. Однако уже сейчас нейросети способны выполнять значительную часть работы за художников и дизайнеров — тем остается лишь довести продукт до совершенства вручную. Так, Джейсон Аллен получил приз на конкурсе изящных искусств за произведение, созданное вместе с Midjourney.
По его словам, ему потребовалось несколько недель и более сотни попыток задать нужное описание. Получившуюся композицию он обрабатывал в фоторедакторе.
Еще более существенный прогресс в текстовом формате. Та же OpenAI представила ChatGPT — чат-бот, выполняющий запросы пользователя.
Он умеет создавать базовый программный код, писать стихи и песни, рефераты практически на любую тему (чем уже к неудовольствию учителей пользуются школьники), давать персональные советы, в том числе медицинские, причем, по словам врачей, довольно точные (хотя бот предупреждает, что все равно необходимо обратиться к специалисту).
В одном из экспериментов ChatGPT попросили доказать некую теорему. В ответ бот написал научную статью по всей форме — с соблюдением структуры и ссылками. Разумеется, теорему он не доказал. С научной точки зрения текст представлял собой белиберду, однако неспециалист не заметил бы подвоха.
Кроме того, программа способна учиться на ходу и за счет этого вести увлекательные разговоры.
Визуализация облучения топлива лазерными лучами, которые преобразуются в рентгеновские для запуска синтеза
Иногда чат-бот дает убедительные, но неверные ответы. Например, в придуманном по просьбе пользователя некрологе о фашистском диктаторе Бенито Муссолини программа упоминает его любовь к скейтбордингу. А для задачи типа “Клюшка и шайба стоят вместе один доллар десять центов. Клюшка дороже шайбы на доллар. Сколько стоит шайба?" предлагает интуитивно очевидное, однако неправильное решение: “Десять центов”. И тем не менее, по словам экспертов, еще недавно разговорный бот такой сложности казался совершенно невероятным.
Эта технология, вероятно, станет благом для программистов, исследователей, ученых, политиков, журналистов и многих других. Если, конечно, не лишит их всех работы
Заявки можно отправлять через форму обратной связи, на которую есть ссылка в интерфейсе ChatGPT.
Мы [url=https://openai.com/]обучили[/url] модель под названием ChatGPT, которая взаимодействует в режиме разговора. Формат диалога позволяет ChatGPT отвечать на последующие вопросы, признавать свои ошибки, оспаривать неправильные предпосылки и отклонять неуместные запросы. ChatGPT - это дочерняя модель для InstructGPT, которая обучена следовать инструкциям в приглашении и предоставлять подробный ответ.
Трудно сказать, не имея дополнительной информации о том, что должен делать код и что происходит при его выполнении. Одна из потенциальных проблем с предоставленным вами кодом заключается в том, что resultWorkerErrканал никогда не закрывается, что означает, что код потенциально может зависнуть, если resultWorkerErrканал никогда не записывается. Это может произойти, если b.resultWorkernever вернет ошибку или если она будет отменена до того, как у нее появится шанс вернуть ошибку.
Чтобы устранить эту проблему, вы можете закрыть resultWorkerErrканал после записи на него. Например, вы могли бы добавить следующую строку кода после строки, которая отправляет ошибку по каналу:
close(resultworkerErr)
Это гарантировало бы, что resultWorkerErrканал всегда закрыт, даже если b.resultWorkerникогда не возвращает ошибку. Опять же, трудно сказать, является ли это проблемой, с которой вы столкнулись, без дополнительной информации о проблеме, которую вы видите. Можете ли вы предоставить более подробную информацию о том, что происходит при запуске кода?
Мы обучили эту модель, используя обучение с подкреплением на основе обратной связи с человеком (RLHF), используя те же методы, что и InstructGPT, но с небольшими отличиями в настройке сбора данных. Мы обучили начальную модель, используя контролируемую тонкую настройку: инструкторы по искусственному интеллекту проводили беседы, в которых они играли обе стороны - пользователя и помощника ИИ. Мы предоставили тренерам доступ к предложениям, написанным на основе моделей, чтобы помочь им составить свои ответы. Мы смешали этот новый набор данных для диалога с набором данных InstructGPT, который мы преобразовали в формат диалога.
Чтобы создать модель вознаграждения за обучение с подкреплением, нам нужно было собрать сравнительные данные, которые состояли из двух или более ответов модели, ранжированных по качеству. Чтобы собрать эти данные, мы записали разговоры, которые ИИ-тренеры вели с чат-ботом. Мы случайным образом выбрали сообщение, написанное по образцу, выбрали несколько альтернативных вариантов завершения и попросили тренеров ИИ оценить их. Используя эти модели вознаграждения, мы можем точно настроить модель, используя ближайшую оптимизацию политики. Мы выполнили несколько итераций этого процесса.
ChatGPT доработан по сравнению с моделью из серии GPT-3.5, обучение которой завершилось в начале 2022 года. Вы можете узнать больше о серии 3.5 здесь. ChatGPT и GPT 3.5 прошли обучение на суперкомпьютерной инфраструктуре Azure AI.
Ограничения
ChatGPT иногда пишет правдоподобно звучащие, но неправильные или бессмысленные ответы. Устранение этой проблемы является сложной задачей, поскольку: (1) во время обучения RL в настоящее время нет источника истины; (2) обучение модели быть более осторожной заставляет ее отклонять вопросы, на которые она может ответить правильно; и (3) контролируемое обучение вводит модель в заблуждение, потому что идеальный ответ зависит от того, что знает модель, а не от того, что знает человек-демонстратор.
ChatGPT чувствителен к изменениям в формулировках ввода или к многократным попыткам выполнения одного и того же запроса. Например, при одной формулировке вопроса модель может утверждать, что не знает ответа, но при небольшой перефразировке может ответить правильно.
Модель часто чрезмерно многословна и злоупотребляет определенными фразами, например, повторяя, что это языковая модель, подготовленная OpenAI. Эти проблемы возникают из-за искажений в данных обучения (инструкторы предпочитают более длинные ответы, которые выглядят более исчерпывающими) и хорошо известных проблем чрезмерной оптимизации.1 2
В идеале модель должна задавать уточняющие вопросы, когда пользователь задает неоднозначный запрос. Вместо этого наши текущие модели обычно угадывают, что имел в виду пользователь.
Хотя мы приложили усилия, чтобы заставить модель отклонять неуместные запросы, иногда она будет реагировать на вредные инструкции или проявлять предвзятое поведение. Мы используем API модерации, чтобы предупреждать или блокировать определенные типы небезопасного контента, но мы ожидаем, что на данный момент у него будут ложные отрицательные и положительные результаты. Мы стремимся собирать отзывы пользователей, чтобы помочь нашей текущей работе по улучшению этой системы.
Если бы Колумб прибыл в США в 2015 году, он, вероятно, был бы очень удивлен изменениями, произошедшими с тех пор, как он впервые высадился в “Новом Свете” в 1492 году. Во-первых, он, вероятно, был бы шокирован, узнав, что земля, которую он “открыл”, на самом деле уже была заселена коренными американцами, и что теперь Соединенные Штаты - многокультурная нация, в которой живут люди со всего мира. Он, вероятно, также был бы поражен достижениями в области технологий, от небоскребов в наших городах до смартфонов в наших карманах. Наконец, он может быть удивлен, узнав, что многие люди больше не считают его героем; на самом деле, некоторые люди утверждают, что он был жестоким завоевателем, который порабощал и убивал местных жителей. В целом, для Колумба это был бы совсем другой опыт, чем тот, который у него был более 500 лет назад.
Мы знаем, что многие ограничения остаются, как обсуждалось выше, и мы планируем регулярно обновлять модель для улучшения в таких областях. Но мы также надеемся, что, предоставляя доступный интерфейс ChatGPT, мы получим ценные отзывы пользователей по вопросам, о которых мы еще не знаем.
Пользователям рекомендуется оставлять отзывы о проблемных выводах модели через пользовательский интерфейс, а также о ложных срабатываниях / негативах от внешнего фильтра содержимого, который также является частью интерфейса. Нас особенно интересуют отзывы о вредных результатах, которые могут возникнуть в реальных, неконфликтных условиях, а также отзывы, которые помогают нам выявлять и понимать новые риски и возможные меры по их снижению.Вы можете принять участие в конкурсе отзывов ChatGPT 3, чтобы получить шанс выиграть до 500 долларов в виде кредитов API.[1]
Покупка не требуется, недействительна там, где это запрещено. Для входа должно быть не менее 18 лет. Подробности конкурса см. в Официальных правилах.
Мы рады использовать уроки, извлеченные из этого выпуска, при развертывании более мощных систем, точно так же, как это было сделано при более ранних развертываниях.
Соцсети пестрят высококачественными картинками, сгенерированными кодом. Работают так называемые модели преобразования текста в изображение. С помощью машинного обучения нейросеть анализирует текст и визуальные материалы, выявляя шаблоны, на основе которых затем создает собственные произведения.
В 2021-м исследовательская лаборатория OpenAI представила программную систему DALL-E, запомнившуюся милыми рисунками по запросу вроде "кресло в форме авокадо".
Весной 2022-го OpenAI выпустила DALL-E 2. В системе реализовали метод машинного обучения, известный как обратная диффузия. Качественное изображение поэтапно превращается в случайный шум. Используя датасет таких пар нормальных и испорченных картинок, нейросеть учится совершать обратное — формировать из хаоса четкие образы. Благодаря текстовым подсказкам результат становится более реалистичным и художественно убедительным.
В свободном доступе несколько диффузионных моделей. Одна из них — Midjourney, генерирующая изображения по запросу на английском языке. Чем подробнее расписана задача, тем точнее результат, который можно усовершенствовать с помощью специальных настроек.
Несмотря на существенный качественный прогресс, картины ИИ по-прежнему неидеальны. Однако уже сейчас нейросети способны выполнять значительную часть работы за художников и дизайнеров — тем остается лишь довести продукт до совершенства вручную. Так, Джейсон Аллен получил приз на конкурсе изящных искусств за произведение, созданное вместе с Midjourney.
По его словам, ему потребовалось несколько недель и более сотни попыток задать нужное описание. Получившуюся композицию он обрабатывал в фоторедакторе.
Еще более существенный прогресс в текстовом формате. Та же OpenAI представила ChatGPT — чат-бот, выполняющий запросы пользователя.
Он умеет создавать базовый программный код, писать стихи и песни, рефераты практически на любую тему (чем уже к неудовольствию учителей пользуются школьники), давать персональные советы, в том числе медицинские, причем, по словам врачей, довольно точные (хотя бот предупреждает, что все равно необходимо обратиться к специалисту).
В одном из экспериментов ChatGPT попросили доказать некую теорему. В ответ бот написал научную статью по всей форме — с соблюдением структуры и ссылками. Разумеется, теорему он не доказал. С научной точки зрения текст представлял собой белиберду, однако неспециалист не заметил бы подвоха.
Кроме того, программа способна учиться на ходу и за счет этого вести увлекательные разговоры.
Визуализация облучения топлива лазерными лучами, которые преобразуются в рентгеновские для запуска синтеза
Иногда чат-бот дает убедительные, но неверные ответы. Например, в придуманном по просьбе пользователя некрологе о фашистском диктаторе Бенито Муссолини программа упоминает его любовь к скейтбордингу. А для задачи типа “Клюшка и шайба стоят вместе один доллар десять центов. Клюшка дороже шайбы на доллар. Сколько стоит шайба?" предлагает интуитивно очевидное, однако неправильное решение: “Десять центов”. И тем не менее, по словам экспертов, еще недавно разговорный бот такой сложности казался совершенно невероятным.
Эта технология, вероятно, станет благом для программистов, исследователей, ученых, политиков, журналистов и многих других. Если, конечно, не лишит их всех работы
Заявки можно отправлять через форму обратной связи, на которую есть ссылка в интерфейсе ChatGPT.