"AI도 뇌 썩는다"…쓰레기 정보 학습시키자 추론력 약화·사패 성향

美연구진, 인공지능 LLM 비교연구

 

인간이 소셜미디어(SNS)에서 의미 없는 콘텐츠를 과도하게 반복적으로 소비하면 집중력과 기억력이 저하된다는 게 최근 들어 널리 퍼진 '브레인롯'(Brain rot, 뇌 썩음)이다. 그런데 챗GPT, 제미나이 등으로 널리 알려진 인공지능 LLM(대규모언어모델·Large Language Model)도 질 낮은 콘텐츠에 계속 노출되면 인지능력이 저하된다는 연구가 나왔다.

지난 15일 텍사스 A&M 대학·오스틴 텍사스 대학·퍼듀대학 연구진이 발표한 'LLM도 뇌가 썩는다!'는 제목의 논문은 불량 웹 텍스트를 지속해서 사전 학습하면 LLM에 인지능력 저하가 발생한다는 가설을 검증했다.

연구진은 LLM에 '정크(쓰레기) 데이터'와 그렇지 않은 통제 데이터를 각각 학습시킨 뒤 행동 변화를 비교하는 실험을 설계했다.

먼저 연구진은 소셜미디어 X(구 트위터)에서 수집한 데이터를 바탕으로 정크(쓰레기) 데이터 두 세트를 구성했다. 한 데이터 세트(M1)에서는 좋아요, 댓글 등 많은 참여를 유발했지만 짧은 게시글을, 다른 데이터 세트(M2)에서는 "와우!", "봐봐!" 등 과장된 말로 관심을 끄는 게시글을 수집했다.

연구진은 각 데이터 세트를 메타의 라마(LlaMa) 모델에 학습시킨 뒤, AI의 능력을 평가하는 시험인 ARC와 RULER 벤치마크를 풀게 했다.

그러자 M1의 경우 정크 데이터가 학습되지 않았을 때와 비교해 추론 능력을 평가하는 ARC 벤치마크에서 LLM이 받은 점수가 74.9점에서 57.2점으로 떨어졌다. 긴 맥락 이해 능력을 보는 RULER 벤치마크에서는 점수가 84.4점에서 52.3점으로 떨어졌다. M2 역시 추론과 긴 맥락 이해 능력에 무시할 수 없는 영향을 미쳤다고 연구진은 분석했다.

인지 능력이 저하된 LLM은 '생각 건너뛰기(thought skipping)'를 하는 현상이 발견됐다. 정크 데이터로 학습한 LLM은 중간 추론 단계를 거치지 못한 채 부정확한 정보를 제공하는 것으로 나타났다.

게다가 성격적으로도 M1 정크 데이터를 학습한 LLM은 더 심술궂어지고 부정적인 성향이 높아졌다. 연구진은 LLM이 자기애와 사이코패스 성향이 급증하고, 친화성과 성실성은 감소했다고 지적했다. 논문에 따르면 이후 연구진들이 '완화 조치'를 취해도 LLM의 인지력을 완전히 복원할 수는 없었다.

이러한 연구 결과를 두고 연구진은 "현재 인터넷에서 계속해서 학습 데이터를 수집하는 관행을 재검토해야 한다"며 "LLM의 규모가 확장될수록 방대한 웹 데이터를 더 많이 흡수하게 되는데, 데이터의 정교한 선별과 품질 관리 없이는 누적 피해가 발생할 것"이라고 경고했다.

논문에서 제시된 AI 인지기능 저하 연구 개요도 (출처=논문 'LLMs Can Get "Brain Rot"!') 논문에서 제시된 AI 인지기능 저하 연구 개요도 (출처=논문 'LLMs Can Get "Brain Rot"!')

등록된 댓글이 없습니다.

로그인 후 댓글을 작성하실 수 있습니다.

시애틀 뉴스/핫이슈

목록
목록
`