AI Tech Briefing

SemanticQA, 모델의 의미 해석 약점을 더 잘 드러내는 평가셋

SemanticQA는 관용표현, 복합명사, 연어, verbal multiword expression처럼 여러 단어가 함께 뜻을 만드는 표현을 모델이 얼마나 잘 이해하는지 세부 과제로 나눠 살펴보는 최신 의미 추론 벤치마크다.

2026-04-22

왜 중요한가

모델이 일반적인 QA나 벤치마크에서 좋은 점수를 받아도, 숙어와 복합명사, 연어처럼 여러 단어가 함께 뜻을 만드는 표현에서는 쉽게 흔들릴 수 있다.
SemanticQA는 이런 약점을 추출, 분류, 해석, 순차 과제로 나눠 보여줘서 어디서 문제가 생기는지 더 또렷하게 확인하게 해준다.
그래서 제품 품질 점검용 테스트셋으로도 쓸 수 있고, 연구용 오류 분류 기준을 다듬는 데도 도움이 된다.

arXiv 초록 기준 SemanticQA는 여러 multiword expression 자원을 한데 묶어 다시 구성한 평가셋이다.
평가 범위에는 idiomatic expressions, noun compounds, lexical collocations, verbal constructions가 포함된다.
GitHub README 기준으로 19개 task와 6개 sequential task를 지원하며, detection, extraction, classification, interpretation을 모두 다룬다.
로컬에서 git clone --depth 1 https://github.com/jacklanda/SemanticQA.git를 실행해 저장소 접근을 확인했다.
이어 resources/dataset.zip 파일이 있는 것도 확인했고 크기는 약 34.24MB였다.
zip 내부를 직접 살펴본 결과 전체 엔트리는 252개였고, task directory는 10개였다.
확인된 task dir은 collocation_categorization, collocation_extraction, collocation_paraphrase, idiom_detection, idiom_extraction, idiom_paraphrase, noun_compound_compositionality, noun_compound_extraction, noun_compound_interpretation, verbal_mwe_extraction이다.
즉 논문만 공개된 상태가 아니라 실제 benchmark artifact와 실행 entrypoint도 함께 열려 있어 재현 출발점이 비교적 분명하다.
다만 전체 평가는 외부 모델 API 키나 별도 로컬 모델 설정이 필요해, 이번 확인 범위는 repo clone과 dataset artifact 검증까지였다.

SemanticQA는 모델이 여러 단어가 합쳐진 표현의 뜻을 실제로 이해하는지, 또 어느 단계에서 자주 틀리는지를 더 세밀하게 확인하게 해주는 의미 추론 벤치마크에 가깝다.