`LDR`, 단일 `RTX 3090` 로컬 딥리서치에서 **95.7%** `SimpleQA` 달성
성능을 끌어올린 건 모델 자체보다 에이전트 오케스트레이션과 검색 루프다. 완전 로컬 구성도 호스티드 딥리서치 급에 근접해, 프라이버시 중시 워크플로에 지금 바로 넣어볼 만하다.
- 구성은
Ollama+qwen3.6:27b+langgraph_agent조합이다. 툴콜, 병렬 하위주제 분해, 최대 50회 반복으로 에이전트 설계 비중이 크다. - 벤치마크는
SimpleQA95.7%(287/300),xbench-DeepSearch77.0%(77/100)다. 같은 스택의Qwen3.5-9B보다 격차가 커 세대 개선 효과가 선명하다. - 폐쇄형 지식 테스트가 아니라 검색 포함 점수다.
Perplexity Deep Research93.9%,Tavily93.3%와 비교할 때 로컬 대안으로 경쟁력이 생겼다. - 단, 샘플 수가 작고 자체 채점 노이즈도 있다.
SimpleQA오염 가능성과 중국어 벤치 편향까지 있어 절대 성능으로 받아들이면 위험하다. - 보안·운영 측면도 강하다.
OpenAlex·DOAJ기반 저널 품질 평가, 사용자별SQLCipher암호화, 제로 텔레메트리까지 붙었다.