AIと始める自動化、その先にある「記憶」の壁

前回までの4回の連載はいかがでしたか？

67歳のITエンジニアが、今後15年活動を続けていくために、推しグループの応援とITを絡めて構築してきたシステムやブログ。これらをAIを活用していかに進化させていくか、というロードマップをお話ししてきました。

章建てや言葉遣いにやや違和感があったかもしれませんが、それはなるべくAIの提案をそのまま活かしてみた結果でした。

「さあ、これからAIを活用してどんどん記事を書いていくぞ！」と意気込んでいたのですが、実際にAIとディープなチャットを繰り返すうちに、いくつかの無視できない課題が見えてきました。今回は、私が直面した「AIの記憶の限界」についてお話ししたいと思います。

短期記憶の限界？AIがおかしなことをし始めた

短いやり取りをしている分にはまったく違和感がなく、プログラムの作成指示にも実用的なソースコードを返してくれていたため、その問題に気づくまでには少し時間がかかりました。

事の始まりは、あるブログ記事の10回分程度のタイトルと構成をAIと検討していたときのことです。最初の4記事（1記事1500文字程度）を無事に作成し、ブログに予約投稿を済ませました。

翌日、AIとの会話を再開しました。
「将来的に100記事程度作成するとして、1記事1500字でも検索上位に表示されるものか」と質問したところ、「内容によっては2500字程度にボリュームアップした方が良いね」という話になり、前日に決めた構成を少し見直すことにしたのです。

ところが、数記事分の見直しを進めていると、AIが前日検討したものとは明らかに違うタイトルと構成を提示してきました。

「あれ、ブログの構成が変わった？」と思ってAIに確認すると、AIは「最初からこの構成で考えていました」と言い張るのです。チャットの最初の方を読み直して確認するよう促すと、ようやく間違いを認めて元の構成に戻りました。

しかし、一安心したのも束の間。さらに数記事進むと、タイトルはそのままなのに、構成がまた勝手に変わっています。さっき確認したばかりのルールが、すでにAIの記憶から抜け落ちていたのです。

AIと「忘却」の課題について語り合う

一旦記事の検討を中断し、この問題についてAI自身に相談してみました。
そこでAIが語ったのが、彼らの「短期記憶と長期記憶」の仕組みでした。専門的に言えば「コンテキストウィンドウ（文脈の許容量）」の限界です。AIとチャットを重ねていくと、メモリの上限に達し、最初の方の情報から順に忘れてしまうらしいのです。

人間だって他人の話をすべて覚えているわけではありません。だからこそ会議では「議事録」を取ります。
ただ、私も年齢を重ね、考えていたことをつい忘れがちになってきました。だからこそ、チャットとして記録が残るAIに「自分の記憶のサポート」を期待していた部分があったため、この忘却問題はやや深刻な課題だと感じました。

救世主としての「NotebookLM」

ここでAIが、情報の首尾一貫性を保つための解決策を教えてくれました。
「内容を文書（ドキュメント）に残して、それを読み込ませると良い」

そこで思い浮かんだのが、Googleの NotebookLM というツールです。複数のドキュメントを取り込んで要約や照会ができるこの機能を使えば、過去の議論をすべて記憶させ、必要なときに引き出せるのではないかと考えました。

さっそく、仕様説明をしながら進めていた過去のシステム改修チャットのログをNotebookLMに読み込ませることにしました。

ただ、この前準備が想像以上に泥臭い作業でした。
チャット全体を一括コピーする機能がないため、画面のメニューを非表示にして全選択（Ctrl+A）するコツを掴むまで大苦労。最終的にコピペした内容は200〜300ページに及ぶ膨大なドキュメントになりました。

あれ？読めてない？……そして「捏造」の疑惑へ

苦労の末に読み込ませ、「よし、綺麗にまとめているな」と要約を確認したとき、強烈な違和感に襲われました。
NotebookLMは「完全に理解している」と言うのですが、中身をよく見ると、チャットの最初の方にAIが提示した叩き台を、そのまま「確定事項」としてまとめていたのです。

実際のチャットでは、中盤以降に私が「それはダメだ」と却下し、最終的な結論は最後の方に出ているはずでした。つまり、文脈の最後にある肝心な結論が抜け落ちていたのです。

特定のキーワードで検索させると、そこだけはピンポイントでヒットします。しかし「なぜそれが要約に含まれないのか」を問いただすと、AIはわけのわからない謝罪を始めるばかり。

再度要約をさせても、やはり中盤以降の重要な結論は反映されません。
AIの説明によると、情報を読み込む際に「自分が覚えやすい形に直して記憶（推測・予測）」している形跡がありました。推測や予測？それって、客観的な議事録としては「捏造（ハルシネーション）」ではないのか？

さらに、「一度に理解できる量は短期記憶に影響されるため、全文を完璧に読み込めているわけではない」という言い訳も返ってきました。

ドキュメントに残しても読めないなら、意味がない？

結論が後ろにある長いチャットログは、ドキュメント化して読み込ませても意味がないのでしょうか？
少し長くなってしまいましたので、このNotebookLMとの格闘の顛末は、次回の記事で詳しくお話ししようと思います。

結論から言うと、今でも「AIとの長い議論は、上手くいっているように見えて、実は上手くいっていない」のです。