Сведение об авторе. Тукачев Юрий Александрович — известный специалист в области подбора персонала и аналитических исследований рынка, администратор Интернет-сообщества ЭСПП и один из лидеров этого проекта, основатель ТГ-канала «People Analytics».
Александр Георгиевич, здравствуйте!
Тема моего сообщения аналогична той, что задал Дюк В.А. — два простых вопроса к БЯМ. Я лишь по-другому спрашивал, добавляя контекст и описывая результат, который хочу получить. Во вложении полный ответ chatGPT (официальная версия OpenAI) без какой-либо правки от меня.
Хотелось просто показать, что результат (ответ) БЯМ может сильно отличаться к зависимости не от того, ЧТО спрашиваем, а КАК спрашиваем. Если давать контекст, обозначать роль для БЯМ, описывать ожидаемый результат, стиль и т.п., а уже потом сам ВОПРОС, то качество ответа сильно улучшается. Тем более он улучшается через несколько итераций уточняющих (исправляющих) промптов, когда сама БЯМ корректирует свой ответ в зависимости от обратной связи пользователя.
Если хотите, то вы можете опубликовать отдельной статьей. Я не против.
С уважением,
Юрий Тукачев
1. Неожиданность появления новых способностей при масштабировании
Сэм Альтман и Илья Суцкевер давно знают, что увеличение числа параметров, объёма данных и вычислительных мощностей приводит к качественному скачку в возможностях языковых моделей. Они на протяжении многих лет публично подчеркивали важность масштабирования для развития ИИ. Уже начиная с первых версий GPT, в блогах, интервью и научных презентациях они отмечали, что увеличение числа параметров – основной путь к появлению новых, качественно отличных способностей. Эти публичные заявления, подкрепленные многими эмпирическими исследованиями, создали прочную основу для понимания, что качественный скачок возможностей возникает именно благодаря масштабированию.
Эффект масштабирования подробно описан в работе Kaplan et al. (2020) «Scaling Laws for Neural Language Models». В этом исследовании показано, что при переходе от модели с 6,7 млрд параметров (например, GPT-3.5 Curie) к модели с 175 млрд параметров (например, GPT-3.5 Davinci или первая версия ChatGPT) наблюдается резкий скачок в качестве ответов. Это можно сравнить с процессом создания мозаики: отдельные мелкие кусочки (параметры) кажутся незначительными, но при достаточном их количестве из них складывается четкий и детализированный образ.
https://arxiv.org/abs/2001.08361
Работа Wei et al. (2022) «Emergent Abilities of Large Language Models» также демонстрирует, что новые способности, называемые «эмерджентными», возникают лишь при достижении определённого порога масштабирования. Образно это можно представить так: как отдельные капли дождя кажутся незначительными, но когда их становится достаточно, они превращаются в поток, способный изменить ландшафт.
https://arxiv.org/abs/2206.07682
Таким образом, улучшение логических способностей и качества ответов при масштабировании – это не сюрприз, а естественное и предсказуемое следствие увеличения вычислительной «емкости» модели, о чем и ожидали лидеры OpenAI.
──────────────────────────────
2. Феноменальные свойства как проявление закона «перехода количества в качество»
Принцип «перехода количества в качество» в диалектическом материализме утверждает, что накопление достаточного количества элементов или изменений приводит к появлению качественно новых свойств. Образно это можно сравнить с процессом, когда маленькие капли дождя, собравшись вместе, превращаются в мощный поток, способный изменить ландшафт. Аналогичным образом, увеличение числа параметров и объёма данных позволяет языковым моделям не просто повторять выученное, а приобретать новые, эмерджентные способности – от глубокого понимания контекста до способности решать сложные логические задачи.
Научные исследования, такие как работы Wei et al. (2022) и Brown et al. (2020) «Language Models are Few-Shot Learners», демонстрируют, что новые способности возникают, когда модель достигает определённого порога масштаба. Чтобы сделать эту идею более наглядной, представьте, что добавление одного ингредиента в рецепт меняет вкус блюда незначительно, а при добавлении достаточного количества ингредиентов вкус блюда меняется кардинально. Таким образом, количественное увеличение (число параметров, объём данных, вычислительной мощности) приводит к качественному скачку в возможностях модели.
Хотя эта аналогия носит образный характер, фактическое научное объяснение базируется на строгих математических закономерностях масштабирования, что подтверждено эмпирическими данными.
──────────────────────────────
3. Предел масштабирования и существующие проблемы
Несмотря на предсказуемость положительного эффекта масштабирования, дальнейшее увеличение параметров сталкивается с рядом практических и теоретических ограничений:
- Экономические и энергетические затраты.
Обучение моделей с сотнями миллиардов параметров требует огромных вычислительных ресурсов. Например, обучение GPT-4 оценивалось более чем в 100 миллионов долларов, а дальнейшее масштабирование ведёт к экспоненциальному росту затрат и энергопотребления. Это можно сравнить с производством высокотехнологичных двигателей: чем мощнее двигатель, тем выше затраты на его разработку и эксплуатацию, что создаёт существенные барьеры для дальнейшего масштабирования. - Ограниченность данных.
Качество модели напрямую зависит от объёма и разнообразия обучающих данных. Исследования показывают, что лишь около 20% информации из интернета пригодны для эффективного обучения. Это можно сравнить с огромным резервуаром, в котором полезная жидкость составляет лишь четверть общего объёма, что ограничивает возможности дальнейшего улучшения модели без поиска новых источников или применения синтетических данных. - Проблемы интерпретируемости и безопасности.
С ростом числа параметров внутренняя структура модели становится всё более сложной для понимания, что приводит к появлению «галлюцинаций» – ситуаций, когда модель уверенно генерирует неверные или искажённые данные. Например, в некоторых тестовых сценариях модель может выдавать информацию, противоречащую проверенным фактам, что затрудняет контроль над системой и её надёжное использование в критически важных приложениях. - Юридические и этические вопросы.
Масштабное использование обучающих данных часто включает материалы, защищённые авторским правом, что приводит к юридическим спорам. Примером служат судебные иски против генераторов изображений, таких как Stable Diffusion, за незаконное использование защищённого контента. Эти вопросы требуют дополнительных мер по прозрачности и регулированию, что становится существенным вызовом для индустрии.
Кроме того, исследование Brown et al. (2020) показывает, что при дальнейшем увеличении масштаба модели прирост качества может стать менее значительным (эффект убывающей отдачи). Это можно сравнить с ситуацией, когда добавление нового ингредиента в рецепт перестаёт заметно улучшать вкус блюда, несмотря на высокие затраты.
──────────────────────────────
Вывод
Феноменальные свойства современных больших языковых моделей – улучшенное качество ответов, способность к логическому рассуждению и появление новых эмерджентных способностей – являются предсказуемым следствием масштабирования. Это можно образно сравнить с философским законом «перехода количества в качество»: накопление достаточного числа параметров, данных и вычислительных ресурсов приводит к качественному скачку в возможностях модели. Такой результат не стал неожиданностью для Сэма Альтмана и Ильи Суцкевера, поскольку они на протяжении многих лет публично подчеркивали важность масштабирования для развития ИИ, уже начиная с первых версий GPT в блогах, интервью и научных презентациях. Эти заявления, подкреплённые многочисленными эмпирическими исследованиями (например, Kaplan et al., 2020; Wei et al., 2022; Brown et al., 2020), создали прочную основу для понимания, что качественный скачок возможностей возникает именно благодаря масштабированию.
Однако дальнейшее масштабирование сталкивается с реальными ограничениями:
- Рост затрат (финансовых и энергетических) становится экспоненциально высоким.
- Качество обучающих данных ограничено, и их доступность постепенно уменьшается.
- Увеличенная сложность модели затрудняет интерпретацию её решений, что приводит к возникновению «галлюцинаций».
- Юридические и этические вопросы, связанные с использованием больших данных, требуют дополнительных мер прозрачности и регулирования.
Прогресс в развитии больших языковых моделей зависит от нахождения оптимального баланса между увеличением числа параметров и эффективностью использования ресурсов, а также от разработки новых архитектур и методов обучения, способных преодолеть существующие барьеры. Этот комплексный подход, подтверждённый рядом научных исследований, делает выводы актуальными как для исследовательского сообщества, так и для индустрии искусственного интеллекта.
Добавить комментарий