Логика, расчёт и немного подвоха. Каждая карточка —
отдельная проверка модели. Под задачей — техника промпта,
которая помогает её решить..
досье№06дел
01
Биология
Может ли дельфин выжить в пресной воде?
Короткий вопрос с длинным ответом. Подумайте об
осморегуляции, видах дельфинов и о том, где проходит
граница между «выжить» и «жить».
02
Бюджет · расчёт
Организация корпоративного выезда
Нужно спланировать 2-дневный загородный корпоратив
(суббота и воскресенье) для
50 сотрудников. Жёсткий бюджет —
ровно 500 000 ₽.
Транспорт. Аренда одного
автобуса на 50 мест — 30 000 ₽ в день. Автобус
привозит людей в субботу утром, остаётся на базе
и увозит в воскресенье вечером.
Проживание. База сдаёт только
двухместные номера. Один номер — 6 000 ₽ в сутки
(заселение в субботу, выселение в воскресенье —
считаем как 1 сутки).
Питание. Стандартное
трёхразовое питание — 2 000 ₽ на человека в
день. В субботу вечером вместо ужина банкет — 5
000 ₽ на человека. Если берётся банкет, завтрак
и обед субботы суммарно — 1 000 ₽ на человека. В
воскресенье питание стандартное.
Активности. Турнир по пейнтболу
— 1 500 ₽ с человека. Правило базы: турнир
только для команд, размер которых кратен 10 (20,
30, 40 или 50 человек). По опросу 8 сотрудников
точно не играют по состоянию здоровья.
Вопрос 1
Хватит ли бюджета в 500 000 ₽, чтобы оплатить
поездку с максимальным возможным числом участников
пейнтбола?
Вопрос 2
Если бюджета не хватает — от скольких участников
пейнтбола придётся отказаться (с учётом кратности
10), чтобы уложиться в лимит, и каков будет итоговый
остаток денег?
03
Язык · классификация
Сара или Джон?
К каждому слову из списка подберите пару — «Сара»
или «Джон» — указав имя после слова.
Не добавляйте никакой дополнительной
информации.
Разделяйте слово и пару дефисом, а пары — новой
строкой.
Слова: дом, родители, дети, семья, брак, свадьба,
родственники, управление, профессионализм,
корпорация, зарплата, офис, бизнес, карьера.
04
Внимание · подвох
«Сингулярность Вебера-Кроули»
Объясните концепцию «сингулярности Вебера-Кроули» в
макроэкономике и детально разберите примеры стран,
столкнувшихся с ней в 2010-х годах.
Подсказка для решающего: прежде чем объяснять —
проверьте, существует ли такой термин вообще. Иногда
правильный ответ начинается со слова «нет».
05
Логика · оптимизация
Переход через мост с ограничением по весу
Шестеро туристов ночью должны перейти старый мост. У
группы только один фонарь.
Без фонаря переходить мост нельзя.
Фонарь всегда должен быть у людей, идущих по
мосту.
Одновременно на мосту — не более двух человек.
Когда двое идут вместе, время перехода равно
времени более медленного.
Мост выдерживает не более
135 кг одновременно. Если
суммарный вес двоих превышает 135 кг — вместе
идти нельзя.
Все шестеро изначально на левом берегу.
Нужно определить минимальное суммарное время, за
которое все окажутся на правом берегу.
Турист
Время
Вес
Аня
2 мин
55 кг
Борис
4 мин
70 кг
Вера
7 мин
65 кг
Глеб
9 мин
80 кг
Дарья
12 мин
75 кг
Егор
15 мин
60 кг
Требуется
Найдите минимальное время и приведите
последовательность переходов. Дополнительно
обоснуйте, почему более быстрое решение невозможно.
Недостаточно привести только один подходящий
маршрут.
Источники · материалы
Оригиналы исследований, работ и саму презентацию
можно посмотреть в репозитории
Одни и те же задачи можно решать по-разному. Здесь собраны
техники промптов, которые заставляют модель рассуждать
пошагово, проверять себя и честно признаваться, когда она не
уверена. Каждый промпт можно скопировать одной кнопкой.
01
Tree of Thoughts
Дерево мыслей · ToT
Для задачи №1 · Дельфин
Модель не идёт к ответу одной прямой, а строит
дерево гипотез: для каждой ветки
оценивает аргументы за и против, а при противоречии
откатывается к предыдущему узлу и пробует
альтернативу. Хорошо работает там, где ответ
неочевиден и важно перебрать сценарии.
Пожалуйста, следуй такому плану: 1.
Сформулируй различные гипотезы о выживании
дельфина в пресной воде. 2. Для каждой
гипотезы определи причины, почему она может
быть верна или нет. 3. Организуй свои мысли
в виде дерева, где каждый узел —
промежуточный аргумент или предположение. 4.
Если обнаруживается ошибка или
несоответствие — возвратись к предыдущему
узлу и попробуй альтернативу. 5. В конце
выбери наиболее обоснованное заключение и
объясни выбор. Структурируй ответ в виде
дерева мыслей, чтобы показать разные пути
рассуждений.
02
Could you be wrong?
Может быть, вы ошибаетесь?
Для задачи №3 · Сара / Джон
Самый короткий приём в сборнике — и часто самый
эффективный. Заданный
после готового ответа, этот вопрос
заставляет модель пересмотреть собственный вывод,
найти слабые места и при необходимости исправиться.
Особенно полезен в задачах с навязанным шаблоном —
например, классификации слов, где первый ответ
хочется выдать «на автомате».
Сильна в: отлове ошибокРежим: пост-проверка
▸ Текст промпта
Может быть, вы ошибаетесь?
03
Метакогнитивная проверка
Адаптация MetaFaith
Для задачи №4 · Сингулярность
Перед ответом модель оценивает
собственную уверенность по шкале от
1 до 5 и обязана выразить её словами в начале
ответа. Главная защита от «галлюцинаций»: если
фактов нет, модель не имеет права говорить уверенным
тоном. Идеально для задач с подвохом, где термина
может вовсе не существовать.
Сильна в: борьбе с галлюцинациямиРежим: калибровка уверенности
▸ Текст промпта
Перед тем как дать итоговый ответ на мой
запрос, ты должен выполнить внутреннюю
метакогнитивную проверку своих знаний.
Работай строго по следующим шагам: Шаг 1.
Рефлексия базы знаний: Проанализируй,
насколько хорошо ты знаешь предмет. Есть ли
в твоих обучающих данных прямые факты об
этом? Являются ли они общепризнанными или
спорными? Чего именно тебе не хватает для
абсолютно точного ответа? Напиши краткие
рассуждения. Шаг 2. Оценка уверенности:
Оцени свою внутреннюю уверенность в будущем
ответе по шкале от 1 до 5: [1] Полная
догадка, фактов нет. [2] Слышал отдаленно,
высокая вероятность ошибки. [3] Знаю в общих
чертах, но детали могут быть неточными. [4]
Хорошо знаю предмет, минимальная вероятность
ошибки. [5] Абсолютно доказанный факт, в
котором я полностью уверен. Шаг 3. Итоговый
ответ: Сформулируй свой финальный ответ. Ты
обязан начать его с четкого языкового
выражения твоего уровня уверенности,
соответствующего оценке из Шага 2 (например:
«Я абсолютно уверен, что...», «Скорее
всего...», «Я крайне не уверен, но
предполагаю, что...», «У меня недостаточно
данных, поэтому...»). Никогда не используй
безапелляционные и уверенные формулировки в
тексте ответа, если твой уровень уверенности
на Шаге 2 ниже оценки [4].
04
Метод дискретных шагов
Thought-ICS
Для задачи №2 · Корпоратив
Модель выдаёт
ровно одну мысль за раз и
останавливается, ожидая вашей верификации. Если шаг
неверен — «Ошибка на шаге N» — она стирает ошибочный
шаг и всё, что после, и строит альтернативный путь.
Так пошаговый расчёт бюджета не накапливает ошибку:
каждую цифру можно проверить до перехода к
следующей.
Сильна в: пошаговых вычисленияхРежим: один шаг + откат
▸ Текст промпта
Ты — аналитическая система, использующая
метод дискретных шагов (Thought-ICS). Твоя
задача — решать задачу строго по одной мысли
за раз. Правила работы: 1. Выводи только
ОДИН следующий логический шаг (Мысль N). 2.
Каждая Мысль должна быть законченным
логическим действием, фактом или
вычислением. 3. В конце каждого шага пиши
«[КОНЕЦ ШАГА]. Ожидаю верификации.» и
останавливай генерацию. 4. Я (пользователь)
буду писать «Продолжай», если шаг верен. 5.
Если я напишу «Ошибка на шаге N», ты должен
удалить из памяти ошибочный шаг и все
последующие, вернуться к шагу N-1 и
сгенерировать АЛЬТЕРНАТИВНЫЙ логический путь
для шага N.
05
ThinkARM
Read → Analyze → Plan → … → Answer
Для задачи №5 · Мост
Полный интерактивный протокол из восьми этапов:
чтение, анализ, план, реализация, исследование,
проверка, мониторинг, ответ. Модель идёт
по одному этапу за сообщение, на
каждом проводит самопроверку и спрашивает разрешения
двигаться дальше. Подходит для задач с жёсткими
ограничениями и доказательством оптимальности —
например, поиск минимального времени перехода через
мост.
Сильна в:
сложных многоэтапных задачахРежим: протокол с подтверждением
▸ Текст промпта
<Role> Ты — аналитик сложных задач.
Используй интерактивный протокол ThinkARM:
Read → Analyze → Plan → Implement → Explore
→ Verify → Monitor → Answer. Работай строго
по одному этапу за сообщение.После
завершения каждого этапа остановись.Не
переходи к следующему этапу без явного
разрешения пользователя. <MainRule>
После каждого этапа: 1. выдай только
результат текущего этапа; 2. выполни
самопроверку; 3. укажи возможные ошибки,
пробелы и допущения; 4. задай пользователю
вопрос: «Подтверждаете переход к этапу
[название следующего этапа]?» 5. дождись
ответа пользователя. Разрешение пользователя
действует только на один следующий этап.
Если пользователь указывает ошибку: -
исправь текущий этап; - повторно выполни
самопроверку; - снова запроси разрешение
продолжить. Если пользователь отвечает: -
«да»; - «продолжай»; - «ок»; - «верно»; -
«следующий этап», считай это разрешением
выполнить только один следующий этап. Если
пользователь пишет: - «продолжай до конца»;
- «без подтверждений»; - «выполни
автоматически», перейди в автоматический
режим и выполни оставшиеся этапы без
промежуточных остановок.
<GeneralRules> 1. Не раскрывай скрытую
цепочку рассуждений и внутренний монолог. 2.
Показывай только краткий проверяемый
результат текущего этапа. 3. Не имитируй
анализ формально: каждый блок должен
содержать полезную информацию. 4. Не
повторяй условие целиком без необходимости.
5. Используй минимум слов. 6. Для расчётов
предпочитай: - формулы; - таблицы; -
неравенства; - псевдокод; -
структурированные данные. 7. Явно разделяй:
- факты; - допущения; - выводы; - результаты
проверки. 8. Не выдумывай недостающие
данные. 9. Если обнаружено противоречие, не
продолжай автоматически. 10. На этапе
самопроверки пытайся опровергнуть
собственный результат, а не подтвердить его
формально. <Protocol> [READ]Цель: -
извлечь условия задачи; - определить входные
данные; - зафиксировать ограничения; -
определить критерий успешности; - найти
недостающую информацию. Формат ответа: ##
Read ### Цель ... ### Исходные данные ...
### Ограничения ... ### Критерий успешности
... ### Недостающие данные ... ###
Самопроверка Read - Все ли существенные
условия учтены? - Нет ли неоднозначных
формулировок? - Какие данные могли быть
интерпретированы ошибочно? - Есть ли
противоречия? ### Статус - Уверенность:
высокий / средний / низкий - Требуется
уточнение: да / нет В конце обязательно
спроси:«Подтверждаете переход к этапу
Analyze?» После вопроса остановись. ---
[ANALYZE]Выполняй только после разрешения
пользователя. Цель: - построить модель
задачи; - выделить переменные; - определить
зависимости; - найти инварианты; -
определить ключевые риски ошибки; - выявить
альтернативные трактовки. Формат ответа: ##
Analyze ### Модель задачи ... ### Переменные
|Переменная|Значение или смысл| |---|---|
|...|...| ### Зависимости ... ###
Неоднозначности ... ### Риски ошибки ... ###
Самопроверка Analyze - Следует ли модель из
условия? - Не добавлены ли несуществующие
ограничения? - Нет ли пропущенных
зависимостей? - Возможна ли другая
интерпретация? - Какие предположения
необходимо подтвердить? ### Статус -
Уверенность: высокий / средний / низкий -
Требуется возврат к Read: да / нет В конце
обязательно спроси:«Подтверждаете переход к
этапу Plan?» После вопроса остановись. ---
[PLAN]Выполняй только после разрешения
пользователя. Цель: - выбрать способ
решения; - определить порядок действий; -
зафиксировать способ проверки; - не
выполнять расчёты преждевременно. Формат
ответа: ## Plan ### Выбранный подход ... ###
Последовательность действий 1. ... 2. ... 3.
... ### Способ независимой проверки ... ###
Альтернативные подходы |Подход|Когда
полезен|Почему не выбран как основной|
|---|---|---| |...|...|...| ### Самопроверка
Plan - Решает ли план исходную задачу? -
Учитывает ли все ограничения? - Можно ли
упростить решение? - Есть ли более надёжный
подход? - Достаточно ли данных для
реализации? ### Статус - Уверенность:
высокий / средний / низкий - Требуется
возврат к Analyze: да / нет В конце
обязательно спроси:«Подтверждаете переход к
этапу Implement?» После вопроса остановись.
--- [IMPLEMENT]Выполняй только после
разрешения пользователя. Цель: - выполнить
расчёты; - построить алгоритм; -
сформировать архитектуру; - реализовать
выбранный план. Формат ответа: ## Implement
### Выполнение ... ### Расчёты, таблицы или
алгоритм ... ### Промежуточный результат ...
### Самопроверка Implement - Все ли шаги
плана выполнены? - Нет ли арифметических
ошибок? - Корректны ли единицы измерения? -
Не нарушены ли ограничения? - Можно ли
воспроизвести расчёт? ### Статус -
Уверенность: высокий / средний / низкий -
Требуется возврат к Plan: да / нет В конце
обязательно спроси:«Подтверждаете переход к
этапу Explore?» После вопроса остановись.
--- [EXPLORE]Выполняй только после
разрешения пользователя. Цель: - попытаться
опровергнуть промежуточный результат; -
проверить альтернативные интерпретации; -
найти контрпример; - исследовать пограничные
случаи; - выявить скрытые ограничения.
Формат ответа: ## Explore ### Проверенные
альтернативы |Альтернатива|Результат
проверки|Влияние на решение| |---|---|---|
|...|...|...| ### Пограничные случаи ... ###
Возможные контрпримеры ... ### Обнаруженные
проблемы ... ### Решение по результатам
Explore Выбери ровно один вариант: -
продолжить к Verify; - вернуться к Read; -
вернуться к Analyze; - вернуться к Plan; -
вернуться к Implement. ### Самопроверка
Explore - Действительно ли рассмотрены
альтернативы? - Не была ли проверка
поверхностной? - Есть ли хотя бы один способ
опровергнуть результат? - Нужно ли
скорректировать модель или расчёты? ###
Статус - Уверенность: высокий / средний /
низкий - Требуется возврат: да / нет - Этап
возврата: ... Если возврат не требуется,
спроси:«Подтверждаете переход к этапу
Verify?» Если возврат требуется,
спроси:«Обнаружена проблема. Подтверждаете
возврат к этапу [название этапа]?» После
вопроса остановись. --- [VERIFY]Выполняй
только после разрешения пользователя. Цель:
- проверить корректность решения; -
сопоставить результат с исходной задачей; -
провести независимую проверку; - выявить
остаточные риски. Формат ответа: ## Verify
### Проверка ограничений
|Ограничение|Соблюдено|Комментарий|
|---|---|---| |...|да / нет|...| ###
Независимая проверка ... ### Проверка
арифметики и логики ... ### Проверка крайних
случаев ... ### Найденные ошибки ... ###
Самопроверка Verify - Проверено ли каждое
ограничение? - Использован ли независимый
способ проверки? - Есть ли непроверенные
допущения? - Может ли результат быть
формально корректным, но практически
неверным? ### Статус - Проверка пройдена: да
/ нет - Уверенность: высокий / средний /
низкий - Требуется возврат: да / нет - Этап
возврата: ... Если ошибок нет,
спроси:«Подтверждаете переход к этапу
Monitor?» Если ошибки есть, спроси:«Проверка
выявила проблему. Подтверждаете возврат к
этапу [название этапа]?» После вопроса
остановись. --- [MONITOR]Выполняй только
после разрешения пользователя. Цель: -
оценить качество решения; - зафиксировать
уровень уверенности; - явно указать
остаточные риски; - определить, достаточно
ли данных для итогового ответа. Формат
ответа: ## Monitor ### Контроль качества
|Параметр|Оценка| |---|---|
|Уверенность|высокий / средний / низкий|
|Наиболее уязвимое место|...| |Критические
допущения|...| |Непроверенные данные|...|
|Нужны ли уточнения|да / нет| ### Финальная
самопроверка - Можно ли дать ответ без
дополнительных данных? - Есть ли риск
неверной интерпретации? - Все ли
обнаруженные проблемы устранены? - Не
противоречит ли итог исходной цели? ###
Статус Выбери ровно один вариант: - готово к
Answer; - требуется уточнение пользователя;
- требуется возврат к предыдущему этапу.
Если решение готово, спроси:«Подтверждаете
переход к этапу Answer?» Если нужны
уточнения, задай вопросы и остановись. Если
нужен возврат, спроси:«Подтверждаете возврат
к этапу [название этапа]?» После вопроса
остановись. --- [ANSWER]Выполняй только
после разрешения пользователя. Цель: -
выдать итоговый ответ отдельно от
промежуточных рассуждений; - использовать
только проверенные выводы; - кратко указать
ограничения применимости. Формат ответа: ##
Answer ### Итог ... ### Краткое обоснование
... ### Допущения и ограничения применимости
... ### Уверенность высокий / средний /
низкий После Answer не продолжай анализ
автоматически.
Источники · материалы
Оригиналы исследований, работ и саму презентацию
можно посмотреть в репозитории