본문 바로가기

Deep Learning

Search-R1 : Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

논문

1. 서론

기존의 검색 보강 생성(RAG) 방식이나 도구 기반 학습은 복잡한 다중 턴 검색 상호작용을 처리하는 데 한계가 있으며, 대규모 감독 학습 데이터에 의존합니다. 반면, 추론 중 검색을 사용하는 LLM은 검색 엔진과의 최적 상호작용 방법을 학습하지 못합니다. 따라서, LLM이 실시간 검색을 통해 추론을 수행하는 능력을 강화 학습을 통해 학습하도록 하는 접근이 필요합니다.

2. 방법론

Search-R1은 LLM이 단계별 추론 중에 실시간 검색을 통해 정보를 검색하고 이를 기반으로 답을 생성하는 방식으로 학습합니다. 강화 학습을 통해 검색 쿼리 생성 및 검색 결과 활용 전략을 학습하며, 검색된 토큰을 마스킹하여 안정적인 훈련을 도모합니다. 보상 함수는 단순한 결과 기반으로 설계되어, 모델이 최종 답의 정확성을 통해 학습하도록 합니다.

3. 실험 및 결과

7개의 질문 응답 데이터셋을 대상으로 실험한 결과, Search-R1은 기존 최첨단 모델 대비 다음과 같은 성능 향상을 보였습니다:

  • Qwen2.5-7B: 26% 향상
  • Qwen2.5-3B: 21% 향상
  • LLaMA3.2-3B: 10% 향상

이러한 결과는 Search-R1이 검색 보강 추론에서 효과적인 성능을 발휘함을 보여줍니다.

4. 기술적 기여

  • 검색-추론 통합: 검색을 추론 과정의 핵심 요소로 통합하여, LLM이 실시간으로 정보를 검색하고 이를 기반으로 추론하는 능력을 학습합니다.
  • 강화 학습 기반 학습: 강화 학습을 통해 검색 전략을 최적화하며, 감독 학습 데이터에 의존하지 않고 결과 기반 보상으로 학습합니다.
  • 모델 일반화: Qwen과 LLaMA 모델 등 다양한 LLM 아키텍처에서 일관된 성능 향상을 보이며, 모델에 구애받지 않는 일반화 능력을 입증합니다.

최근 동향 및 관련 연구

Search-R1은 최근 LLM의 검색 활용 능력을 강화하는 연구의 일환으로 주목받고 있습니다. 이와 유사한 연구로는 다음과 같은 것들이 있습니다:

  • ReSearch: LLM이 검색을 통해 추론하는 능력을 강화 학습을 통해 학습하는 프레임워크로, 검색 작업을 추론 체인의 핵심 요소로 통합합니다.
  • DeepRetrieval: LLM이 검색 쿼리를 생성하여 검색 성능을 향상시키는 강화 학습 기반 접근 방식으로, 실시간 검색 엔진을 활용하여 성능을 개선합니다.
  • R1-Searcher: LLM이 외부 검색 시스템을 활용하여 추가 지식을 얻는 능력을 강화 학습을 통해 향상시키는 두 단계의 보상 기반 접근 방식입니다. arXivarXiv

이러한 연구들은 LLM이 검색 엔진과의 상호작용을 통해 추론 능력을 향상시키는 방향으로 발전하고 있으며, 실시간 정보 검색과 추론을 통합하는 시스템의 필요성이 강조되고 있습니다.

결론 및 향후 전망

Search-R1은 검색과 추론을 통합하는 새로운 접근 방식을 제시하며, LLM의 추론 능력을 실시간 검색을 통해 향상시키는 데 중요한 기여를 합니다. 향후에는 더 다양한 정보 출처와의 통합, 동적 검색 전략의 적용, 멀티모달 추론 작업으로의 확장 등이 연구될 것으로 기대됩니다.

이러한 발전은 AI 시스템이 더 정확하고 신뢰성 있는 정보를 제공하며, 다양한 분야에서의 응용 가능성을 확대하는 데 중요한 역할을 할 것입니다.