В.А. Дюк. 2 «простых» вопроса к Qwen2.5-Plus и DeepSeek

Кратко об авторе (от Шмелева А.Г.)

Дюк Вячеслав Анатольевич — участник проекта ЭСПП с многолетним стажем, доктор технических наук, автор книги «Компьютерная психодиагностика» (издательство «Братство», 1994 год).

ТЕКСТ СТАТЬИ

Сейчас информационное пространство пестрит сообщениями о китайских разработках в сфере искусственного интеллекта, в частности, о больших языковых моделях Qwen2.5-Plus и DeepSeek. Несомненно, что многие исследователи и обычные любознательные граждане и раньше знали об этих моделях, а сейчас, вполне вероятно, начали дополнительно в связи с возникшем ажиотажем их тестировать. Я решил задать этим языковым моделям 2 простых вопроса и поделиться с вами их ответами. Делаю это без правок и купюр.

Вопрос 1. Было ли неожиданностью для Сэма Альтмана и Ильи Суцкевера то, что при возрастании числа параметров нейронная сеть (большая языковая модель) стала давать вразумительные ответы и решать логические задачи?

Вопрос 2. Являются ли феноменальные свойства современных больших языковых моделей проявлением философского закона «перехода количества в качество»?

Ответ на вопрос 1 Qwen2.5-Plus

Вопрос о том, насколько неожиданным было для Сэма Альтмана и Ильи Суцкевера поведение больших языковых моделей при увеличении числа параметров, требует некоторого контекста.

Исследовательский контекст

Сэм Альтман и Илья Суцкевер — ключевые фигуры в мире искусственного интеллекта. Альтман является президентом компании Y Combinator и бывшим CEO OpenAI, а Суцкевер — одним из основателей и главным исследователем в OpenAI. Оба они имеют глубокий опыт в области машинного обучения и нейронных сетей.

Прогресс в разработке языковых моделей

  1. Предыдущие исследования: До появления таких моделей, как GPT-2 и GPT-3, уже существовали значительные достижения в области языковых моделей. Например, модели типа Transformer, предложенные в 2017 году компанией Google, показали высокую эффективность в задачах обработки естественного языка (NLP).
  2. Масштабирование моделей: Одним из ключевых наблюдений стало то, что масштабирование числа параметров модели приводит к улучшению её производительности. Это было подтверждено в ряде исследований, включая работы, проведённые в OpenAI. Увеличение размера модели позволяет ей «запомнить» больше информации и лучше понимать контекст.

Ожидания и реальность

  1. Ожидания: Исследователи, работающие над этими моделями, вероятно, имели определённые ожидания относительно того, что произойдёт с увеличением числа параметров. Они знали, что масштабирование может привести к улучшению качества генерации текста и решению более сложных задач. Однако степень этого улучшения могла быть неожиданной.
  2. Неожиданность: Несмотря на теоретические основы и предварительные эксперименты, масштабное увеличение числа параметров до сотен миллиардов (как в случае с GPT-3) всё же могло привести к удивительным результатам. Модели начали демонстрировать способности, которые ранее считались недоступными для автоматических систем, такие как создание креативного контента, решение логических задач и даже участие в диалогах на уровне человека.

Комментарии и интервью

  1. Интервью и публичные выступления: В интервью и публичных выступлениях Альтман и Суцкевер часто говорят о важности масштабирования и его влиянии на производительность моделей. Они отмечают, что некоторые эффекты действительно были неожиданными и превзошли их первоначальные ожидания.
  2. Открытие новых возможностей: Эти модели позволили открыть новые возможности в различных областях, включая медицину, юриспруденцию, образование и творчество. Это также подчеркивает важность дальнейших исследований и разработок в этой области.

Заключение

Таким образом, хотя Сэм Альтман и Илья Суцкевер, возможно, ожидали улучшения производительности моделей при увеличении числа параметров, масштаб и качество этих улучшений могли быть неожиданными. Важно отметить, что это открытие стало результатом сочетания теоретической подготовки, экспериментальных данных и инновационного подхода к разработке и тестированию моделей.

Ответ на вопрос 2 Qwen2.5-Plus

Феноменальные свойства современных больших языковых моделей, таких как GPT-3 и его последователи, действительно можно рассматривать через призму философского закона «перехода количества в качество». Этот закон, известный из диалектической философии, особенно марксистской, утверждает, что постепенное накопление количественных изменений может привести к качественным изменениям. Рассмотрим это более подробно на примере языковых моделей.

1. Количественные изменения: увеличение числа параметров

Современные языковые модели демонстрируют значительные улучшения с увеличением числа параметров. Например:

  • GPT-2: Модель с несколькими миллиардами параметров.
  • GPT-3: Модель с сотнями миллиардов параметров.

Это увеличение числа параметров является количественным изменением. Более крупные модели способны запомнить больше данных и лучше понимать контекст, что позволяет им генерировать более разнообразные и сложные тексты.

2. Качественные изменения: новые возможности и функции

С увеличением числа параметров модели начинают демонстрировать качественные изменения, которые не просто линейно следуют за количественными изменениями, а представляют собой новый уровень возможностей:

  • Улучшение качества текста: Большие модели могут создавать тексты, которые практически невозможно отличить от написанных человеком. Они могут писать художественные произведения, научные статьи, код программного обеспечения и многое другое.
  • Решение сложных задач: Эти модели способны решать не только простые задачи, такие как перевод или грамматический анализ, но и более сложные задачи, такие как логические рассуждения, решение математических задач и даже участие в дискуссиях.
  • Креативность и адаптивность: Большие модели проявляют удивительную креативность и способность адаптироваться к различным контекстам. Они могут создавать оригинальные идеи, предлагать решения проблем и даже участвовать в творческих процессах.

3. Примеры перехода количества в качество

  • Предсказательная способность: С увеличением числа параметров модели становятся способными предсказывать будущие события и тренды, основываясь на анализе огромных массивов данных. Это качественное изменение, поскольку они могут предлагать решения и стратегии, которые ранее были недоступны автоматическим системам.
  • Способность к обучению без явного обучения: Большие модели обучаются на огромных корпусах текстов и могут затем применять полученные знания в новых контекстах, что делает их способными к «непрямому» обучению. Это также является качественным изменением, так как они могут использовать знания в ситуациях, для которых они не были специально обучены.

Заключение

Таким образом, феноменальные свойства современных больших языковых моделей можно рассматривать как проявление философского закона «перехода количества в качество». Увеличение числа параметров (количественное изменение) привело к появлению новых качественных характеристик, таких как высокое качество текста, способность к решению сложных задач и креативность. Эти изменения значительно расширили возможности языковых моделей и сделали их мощным инструментом в различных областях.

Ответ на вопрос 1 DeepSeek

Было ли неожиданностью для Сэма Альтмана и Ильи Суцкевера то, что при возрастании числа параметров нейронная сеть (большая языковая модель) стала давать вразумительные ответы и решать логические задачи?

Сэм Альтман и Илья Суцкевер, как ключевые фигуры в области искусственного интеллекта и разработки больших языковых моделей, вероятно, не были полностью удивлены тем, что увеличение числа параметров нейронной сети привело к улучшению её способности давать вразумительные ответы и решать логические задачи. Это связано с тем, что в области машинного обучения и нейронных сетей уже давно существует концепция масштабируемости, которая предполагает, что увеличение размера модели (количества параметров) и объёма данных для обучения может значительно улучшить её производительность.

Однако, конкретные масштабы и качество улучшений, которые демонстрируют современные большие языковые модели (например, GPT-3, GPT-4 и другие), могли быть в какой-то степени неожиданными даже для экспертов. Например, способность моделей обобщать знания, решать сложные задачи и демонстрировать элементы «понимания» текста превзошла ожидания многих исследователей.

Илья Суцкевер, как один из ведущих специалистов в области глубокого обучения, ещё в 2017 году в своей работе над трансформерами (архитектура, лежащая в основе современных языковых моделей) предполагал, что масштабирование моделей может привести к значительным прорывам. Тем не менее, даже он, вероятно, не мог предсказать, насколько быстро и эффективно это произойдёт.

Таким образом, хотя сама идея масштабируемости не была неожиданностью, конкретные результаты и качество работы современных моделей могли удивить даже их создателей.

Ответ на вопрос 2 DeepSeek

Да, феноменальные свойства современных больших языковых моделей можно рассматривать как яркий пример проявления философского закона «перехода количества в качество». Этот закон, сформулированный в рамках диалектики (например, у Гегеля и Маркса), утверждает, что накопление количественных изменений в системе может привести к качественному скачку, то есть к появлению новых свойств или возможностей, которые ранее не наблюдались.

В контексте больших языковых моделей (LLM, Large Language Models) это проявляется следующим образом:

  1. Количественные изменения:
    • Увеличение числа параметров модели (от миллионов до сотен миллиардов).
    • Увеличение объёма данных для обучения (от гигабайт до петабайт текста).
    • Увеличение вычислительных ресурсов, используемых для обучения.
  2. Качественный скачок:
    • Модели начинают демонстрировать способности, которые ранее считались недостижимыми для машин, например:
      • Понимание контекста и генерация связного текста.
      • Решение сложных логических и математических задач.
      • Перевод между языками с высокой точностью.
      • Имитация творческих процессов, таких как написание стихов, рассказов или даже программирование.
    • Появляются элементы, которые можно интерпретировать как «понимание» или «обобщение», хотя и в ограниченном смысле.

Эти качественные изменения не были предсказуемы на основе простого линейного увеличения параметров. Например, небольшие модели могли лишь поверхностно имитировать язык, но с увеличением масштаба они начали демонстрировать способности, которые выглядят как интеллектуальные.

Философский аспект

С философской точки зрения, это явление действительно иллюстрирует закон перехода количества в качество. Накопление количественных изменений (параметры, данные, вычислительные ресурсы) привело к появлению новых качественных свойств, которые не могли быть достигнуты на меньших масштабах. Это также поднимает вопросы о природе интеллекта, сознания и творчества, поскольку модели демонстрируют поведение, которое ранее считалось исключительной прерогативой человека.

Таким образом, современные большие языковые модели — это не только технологический прорыв, но и философский феномен, который заставляет переосмысливать границы между количественными и качественными изменениями в сложных системах.

комментировать

13 ответов

  1. Алексей Валерьевич Беляев

    цель эволюции — появление искусственного интеллекта

    1. Шмелёв А.Г.

      Вопрос спорный, имеет ли эволюция собственные цели. Пока ИИ — это только умная машинка, отвечающая на вопросы. Подождем, когда ИИ начнет со своей стороны задавать вопросы, формулировать цели собственного развития, воплощаться в физические объекты на 3D-принтерах и т.п. А может быть, нам стоит на каком-то этапе остановиться и подумать, остается у нас в распоряжении «кнопка для выключения» — так чтобы можно было остановить собственную активность такой «машинки» (?)

      1. Алексей Валерьевич Беляев

        Мы все и так — высокоорганизованная материя, материя познающая себя, во всяком случае, в той или иной степени способные на это. Дуализм на лицо — возможность появления в новой форме самоорганизующейся материи осознающей себя и отходящей от проотца. Тщетность развития в прежней форме, с достижением нового качества, условно доказали комиксы Marvel. 😂

      2. Юрий Тукачев

        Александр Георгиевич, уже первые звоночки есть: новая ИИ-модель OpenAI попыталась выйти из-под контроля и избежать уничтожения. В новостях активно разлетелась эта информация

    2. Вячеслав Дюк

      Мне представляется, что ключевым вопросом является вопрос о цели Вселенной. Ответив на этот вопрос, можно уяснить роль и место ИИ. Посмотрим, в чем проявляется эволюция человека, которого породила Вселенная. Отбросим очевидный и постоянный прогресс в способах и инструментах убийства живыми существами друг друга. Думается, что главные достижения человечества относятся к области создания новых структур элементов на разных уровнях системной организации материи. Это выражается в появлении огромного количества новых органических и неорганических веществ и материалов, которые не встречаются в естественной природе. Человек — генератор разнообразия — и это, думается, является основной целью мироздания. И вот тут, наконец, у природы появился ещё один субъект — ИИ, который способен в большей мере чем человек генерировать разнообразие. Об этом свидетельствуют успехи ИИ в решении задач типа «структура-свойство» (SAR, QSAR etc.), результаты решения которых сегодня активно применяются в прикладной химии и фармацевтике. Человек передает эту свою функцию генератора разнообразии искусственному интеллекту и становится нужным (с точки зрения целей Вселенной) только как обслуга ИИ (для полноты картины отмечу ещё одну функцию человека как генератора шума, но раскрытие указанной функции выходит за рамки данного сообщения).

  2. Юрий Тукачев

    Фактически можно считать, что авторами выступили LLM 🙂 Но я хотел бы обратить внимание на другое. Уже не первый раз сталкиваюсь с непониманием, как необходимо общаться с БЯМ. Недостаточно просто задать вопрос, как если бы его задавали эксперту, который сам поместит в контекст и свои экспертные знания будет использовать для ответа (поэтому одна из моделей попыталась этот конктекст самостоятельно определить). Как же необходимо задавать вопросы? На это отвечает промпт-инжиниринг — область, изучающая процесс создания и оптимизации текстовых запросов (промптов) для генеративных моделей с целью получения желаемых ответов.
    С промпт-инжинирингом непосредственно связана новая профессия — промпт-инженера.
    Правильно сформулированный промпт может существенно повысить качество результата. При этом необходимо учитывать различные факторы, такие как контекст задачи, ее стиль и условия, а также особенности применяемой модели.
    Я попробовал задать вопросы chatGPT, написав отдельные промпты, общаясь в итеративном режиме. Результат в следующем комментарии.

    1. Алексей Валерьевич Беляев

      Всегда следует помнить о правилах загадывания желаний джину. В противном случае, джин предложит вам свою интерпретацию желания, как Электроник, «работая по короткой дистанции», но без добродушной наивности Электроника

      1. Юрий Тукачев

        Да, хорошая метафора с загадываем желаний, сразу вспоминается Старик Хоттабыч. С другой стороны, если мы исходные два вопроса в неизменном виде зададим модели 100 раз, то получим 100 в чем-то похожих, но других ответов. При этом не следует забывать, что чатгпт, например, подстраивается под пользователя, активно использует свою память диалогов. Поэтому есть высокая вероятность, что таким образом создается информационный пузырь для пользователя. В чатгпт в настройках можно помочь «забывать» модели определенные диалоги, а также поле для ввода специального промпта, отвечающего за общий стиль ответов. В китайских копиях я такого не нашел.

  3. Юрий Тукачев

    1. Неожиданность появления новых способностей при масштабировании
    Сэм Альтман и Илья Суцкевер давно знают, что увеличение числа параметров, объёма данных и вычислительных мощностей приводит к качественному скачку в возможностях языковых моделей. Они на протяжении многих лет публично подчеркивали важность масштабирования для развития ИИ. Уже начиная с первых версий GPT, в блогах, интервью и научных презентациях они отмечали, что увеличение числа параметров – основной путь к появлению новых, качественно отличных способностей. Эти публичные заявления, подкрепленные многими эмпирическими исследованиями, создали прочную основу для понимания, что качественный скачок возможностей возникает именно благодаря масштабированию.
    Эффект масштабирования подробно описан в работе Kaplan et al. (2020) «Scaling Laws for Neural Language Models». В этом исследовании показано, что при переходе от модели с 6,7 млрд параметров (например, GPT-3.5 Curie) к модели с 175 млрд параметров (например, GPT-3.5 Davinci или первая версия ChatGPT) наблюдается резкий скачок в качестве ответов. Это можно сравнить с процессом создания мозаики: отдельные мелкие кусочки (параметры) кажутся незначительными, но при достаточном их количестве из них складывается четкий и детализированный образ.
    https://arxiv.org/abs/2001.08361
    Работа Wei et al. (2022) «Emergent Abilities of Large Language Models» также демонстрирует, что новые способности, называемые «эмерджентными», возникают лишь при достижении определённого порога масштабирования. Образно это можно представить так: как отдельные капли дождя кажутся незначительными, но когда их становится достаточно, они превращаются в поток, способный изменить ландшафт.
    https://arxiv.org/abs/2206.07682
    Таким образом, улучшение логических способностей и качества ответов при масштабировании – это не сюрприз, а естественное и предсказуемое следствие увеличения вычислительной «емкости» модели, о чем и ожидали лидеры OpenAI.
    ──────────────────────────────
    2. Феноменальные свойства как проявление закона «перехода количества в качество»
    Принцип «перехода количества в качество» в диалектическом материализме утверждает, что накопление достаточного количества элементов или изменений приводит к появлению качественно новых свойств. Образно это можно сравнить с процессом, когда маленькие капли дождя, собравшись вместе, превращаются в мощный поток, способный изменить ландшафт. Аналогичным образом, увеличение числа параметров и объёма данных позволяет языковым моделям не просто повторять выученное, а приобретать новые, эмерджентные способности – от глубокого понимания контекста до способности решать сложные логические задачи.
    Научные исследования, такие как работы Wei et al. (2022) и Brown et al. (2020) «Language Models are Few-Shot Learners», демонстрируют, что новые способности возникают, когда модель достигает определённого порога масштаба. Чтобы сделать эту идею более наглядной, представьте, что добавление одного ингредиента в рецепт меняет вкус блюда незначительно, а при добавлении достаточного количества ингредиентов вкус блюда меняется кардинально. Таким образом, количественное увеличение (число параметров, объём данных, вычислительной мощности) приводит к качественному скачку в возможностях модели.
    Хотя эта аналогия носит образный характер, фактическое научное объяснение базируется на строгих математических закономерностях масштабирования, что подтверждено эмпирическими данными.
    ──────────────────────────────
    3. Предел масштабирования и существующие проблемы
    Несмотря на предсказуемость положительного эффекта масштабирования, дальнейшее увеличение параметров сталкивается с рядом практических и теоретических ограничений:
    • Экономические и энергетические затраты.
    Обучение моделей с сотнями миллиардов параметров требует огромных вычислительных ресурсов. Например, обучение GPT-4 оценивалось более чем в 100 миллионов долларов, а дальнейшее масштабирование ведёт к экспоненциальному росту затрат и энергопотребления. Это можно сравнить с производством высокотехнологичных двигателей: чем мощнее двигатель, тем выше затраты на его разработку и эксплуатацию, что создаёт существенные барьеры для дальнейшего масштабирования.
    • Ограниченность данных.
    Качество модели напрямую зависит от объёма и разнообразия обучающих данных. Исследования показывают, что лишь около 20% информации из интернета пригодны для эффективного обучения. Это можно сравнить с огромным резервуаром, в котором полезная жидкость составляет лишь четверть общего объёма, что ограничивает возможности дальнейшего улучшения модели без поиска новых источников или применения синтетических данных.
    • Проблемы интерпретируемости и безопасности.
    С ростом числа параметров внутренняя структура модели становится всё более сложной для понимания, что приводит к появлению «галлюцинаций» – ситуаций, когда модель уверенно генерирует неверные или искажённые данные. Например, в некоторых тестовых сценариях модель может выдавать информацию, противоречащую проверенным фактам, что затрудняет контроль над системой и её надёжное использование в критически важных приложениях.
    • Юридические и этические вопросы.
    Масштабное использование обучающих данных часто включает материалы, защищённые авторским правом, что приводит к юридическим спорам. Примером служат судебные иски против генераторов изображений, таких как Stable Diffusion, за незаконное использование защищённого контента. Эти вопросы требуют дополнительных мер по прозрачности и регулированию, что становится существенным вызовом для индустрии.
    Кроме того, исследование Brown et al. (2020) показывает, что при дальнейшем увеличении масштаба модели прирост качества может стать менее значительным (эффект убывающей отдачи). Это можно сравнить с ситуацией, когда добавление нового ингредиента в рецепт перестаёт заметно улучшать вкус блюда, несмотря на высокие затраты.
    ──────────────────────────────
    Вывод
    Феноменальные свойства современных больших языковых моделей – улучшенное качество ответов, способность к логическому рассуждению и появление новых эмерджентных способностей – являются предсказуемым следствием масштабирования. Это можно образно сравнить с философским законом «перехода количества в качество»: накопление достаточного числа параметров, данных и вычислительных ресурсов приводит к качественному скачку в возможностях модели. Такой результат не стал неожиданностью для Сэма Альтмана и Ильи Суцкевера, поскольку они на протяжении многих лет публично подчеркивали важность масштабирования для развития ИИ, уже начиная с первых версий GPT в блогах, интервью и научных презентациях. Эти заявления, подкреплённые многочисленными эмпирическими исследованиями (например, Kaplan et al., 2020; Wei et al., 2022; Brown et al., 2020), создали прочную основу для понимания, что качественный скачок возможностей возникает именно благодаря масштабированию.
    Однако дальнейшее масштабирование сталкивается с реальными ограничениями:
    • Рост затрат (финансовых и энергетических) становится экспоненциально высоким.
    • Качество обучающих данных ограничено, и их доступность постепенно уменьшается.
    • Увеличенная сложность модели затрудняет интерпретацию её решений, что приводит к возникновению «галлюцинаций».
    • Юридические и этические вопросы, связанные с использованием больших данных, требуют дополнительных мер прозрачности и регулирования.
    Прогресс в развитии больших языковых моделей зависит от нахождения оптимального баланса между увеличением числа параметров и эффективностью использования ресурсов, а также от разработки новых архитектур и методов обучения, способных преодолеть существующие барьеры. Этот комплексный подход, подтверждённый рядом научных исследований, делает выводы актуальными как для исследовательского сообщества, так и для индустрии искусственного интеллекта.

    1. Шмелёв А.Г.

      Юрий Александрович, здравствуйте. Я был сегодня занят целый день другими делами и только к вечеру обнаружил, что в режиме «комментарий» Вы тут опубликовали довольно большой текст, похожий на отдельную статью. Поясните, пожалуйста, хотели бы Вы или нет, чтобы это была именно отдельная статья под вашим авторством здесь — на блоге Шмелева? — Статья, аналогичная той, которую я опубликовал от имени В.А.Дюка? Если все-таки это отдельная статья, то не могли бы Вы сообщить заголовок этой статьи и предложить что-то в плане «картинки-обложки» для нее? Все это можно опубликовать как DOC-файл в соответствующем Вашем личном кабинете в системе HT-LINE, который называется «подписчик блога А.Г.Шмелева».

    2. Алексей Валерьевич Беляев

      Создание вычислительно-информационных систем на основе фотоники, позвляющие масштабировать квантовые вычисления, позволит решить первую проблему в ближайшей перспективе

      1. Юрий Тукачев

        К сожалению, я не настолько оптимистичен в отношении фотоники и квантовых компьютеров (фотоника это лишь один из способов реализации квантовых компьютеров). У нас пока на таком масштабе нет работающего прототипа. Ближайшая — это не менее 10-15 лет точно. За это время, наверное, что-то изменится и появятся новые алгоритмы, в том числе сжатия информации, проверки качества обучения и тп

  4. Юрий Тукачев

    Теперь можно сравнить качество ответа. Как мы видим, chatGPT даже дала ссылки на научные статьи.


Добавить комментарий для Юрий Тукачев Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Актуальный опрос

Ваши вопросы

Есть вопрос к автору блога?
Вы можете задать его здесь -> <клик>

Рубрики

Последние комментарии:

  1. Уважаемый посетитель под ником «М» (который раньше был под ником «P»). Вторая часть вашего вопроса, конечно, опять может быть интерпретирована…

  2. Благодарю. Что значит совместимость и как она может помочь где то найти клад(жену) ? Спасибо

  3. Уважаемый пользователь с кратким ником «P». Во-первых, ваш вопрос не совсем понятен. «Она» — это кто? Это кандидат в жены?…

  4. Как найти жену интроверту ? Если она тоже интроверт или с комплексами. Или это все не важно и ждать судьбу?

Облако меток