Почему нейросеть забывает ваш разговор и при чём тут контекстное окно
Представьте собеседника с энциклопедическими знаниями, но без памяти: вы задаёте вопрос, получаете блестящий ответ, а на следующую реплику он начинает заново. Именно так работают современные LLM — у них нет постоянной памяти, а есть только контекстное окно, в котором помещается вся история чата (и которое быстро забивается).
Чтобы нейросеть не «забывала» суть разговора, разработчики вынуждены подкладывать ей весь предыдущий диалог в каждое новое сообщение. Это ограничение сильно влияет на UX и заставляет инженеров придумывать RAG-обвязки, системы напоминаний и многократные повторения промптов. Тема контекстного окна — одна из самых горячих в инженерии LLM: от его длины (128K, 1M токенов) до способов сжатия.
Статья на Habr детально разбирает механизм контекстного окна, объясняет, почему нейронки «забывают» диалог, и показывает, как с этим борются современные платформы.