
데이터 기반 비교
챗GPT vs 클로드 vs 제미나이 vs 퍼플렉시티 vs 그록… 14만 대화 분석 결과
미국 인디애나대학교 연구팀이 실제 사용 환경에서 공유된 대화 14만 2,808건을 모아 5개 주요 AI 챗봇(챗GPT·클로드·제미나이·퍼플렉시티·그록)의 의도 충족률, 출처 활용 방식, 응답 속도 패턴을 비교했습니다. 실무 기준으로 보면 “어떤 AI가 더 똑똑한가”보다 “어떤 상황에 어떤 AI가 더 맞는가”를 가르는 단서가 많습니다.
무엇을 분석했나
이번 연구의 핵심은 “벤치마크 질문을 던져 점수를 매기는 방식”이 아니라, 사람들이 실제로 쓰고 공유한 대화 기록을 모아 현실적인 사용 패턴을 비교했다는 점입니다. 데이터셋 이름은 ShareChat이며, 총 대화 14만 2,808건과 약 66만 개 메시지로 구성됩니다.
1) 대화에서 사용자가 원하는 “의도”를 추출
2) 각 의도에 대해 “완전히 해결 / 부분 해결 / 해결 못 함”으로 분류
3) 플랫폼별로 의도 충족률, 출처 인용 성향, 응답 시간 변화를 비교
연구팀은 AI 모델(Qwen3-8B)을 활용해 사용자 의도를 추출한 뒤, 해결 수준을 라벨링해 통계를 냈다고 설명합니다. (아래 수치는 제공된 기사 내용 기준으로 정리했습니다.)
핵심 결과 1: 사용자 의도 충족률은 클로드가 1위
“대화 완결성(의도 단위)” 기준으로 클로드 87%가 가장 높았고, 챗GPT 82%가 뒤를 이었습니다. 제미나이·그록은 70%대, 퍼플렉시티는 완전 해결 비율이 낮지만 “부분 해결”이 높게 나타나 검색 엔진형 보조 성격이 드러났다는 해석이 붙습니다.
| 플랫폼 | 완전히 해결(의도 기준) | 해석 포인트 |
|---|---|---|
| 클로드 | 87% | 사용자 의도를 “마무리까지” 가져가는 비율이 가장 높게 관측 |
| 챗GPT | 82% | 멀티 의도 처리(평균 2개) 성향이 강하게 나타남 |
| 제미나이 | 76% | 단일 의도 중심(평균 1개)으로 흘러가는 경향 |
| 그록 | 73% | 출처 성향이 뚜렷해 정보 편향 리스크 논의가 함께 제기됨 |
| 퍼플렉시티 | 67% (부분 해결 25%) | 완전 해결은 낮지만, 참고자료를 넓게 끌어오는 “탐색”에 강점 |
“완전히 해결” 비율이 높다고 해서 항상 최고의 선택은 아닙니다.
검색/검증이 중요한 업무는 “부분 해결 + 출처 제시”가 더 유리할 수 있고,
반대로 문서 작성·기획처럼 “요구사항을 끝까지 완성”해야 하는 작업은 완전 해결률이 중요해집니다.
핵심 결과 2: 출처 전략이 완전히 달랐다
같은 “답변 생성”이라도 자료를 어디서 끌어오는지에 따라 품질과 리스크가 달라집니다. 연구 요약에 따르면, 그록은 대화에서 출처를 밝힌 비율이 높았지만 X(옛 트위터) 비중이 크고, 퍼플렉시티는 위키백과 등 다양한 출처를 폭넓게 활용하는 경향이 나타났습니다.
X 중심의 집중 인용 성향이 강하게 관측
최신 흐름 반영에는 유리할 수 있으나,
잘못된 정보/편향이 섞일 위험도 함께 커질 수 있음
영어 위키백과를 많이 인용하지만 단일 출처 의존이 덜함
한 대화에서 매우 많은 출처를 활용하는 사례가 관측됨
“탐색→요약” 워크플로에 적합
출처 품질은 “몇 개를 인용했는가”보다 “무엇을 인용했는가”가 더 중요합니다. 실제 사용 시에는 특정 출처 편향이 결과를 흔들 수 있으니, 중요한 판단은 2~3개 독립 출처로 교차 확인하는 습관이 필요합니다.
핵심 결과 3: 대화가 길어질수록 속도 패턴이 갈렸다
응답 시간 분석에서는 정반대 흐름이 관측됩니다. 요약에 따르면 챗GPT는 대화가 이어질수록 빨라지는 경향, 그록은 길어질수록 느려지는 경향이 나타났습니다. 체감 평균은 챗GPT 약 7초, 그록 약 17초로 제시됩니다.
회의 중 실시간 정리·의사결정 보조처럼 “대화가 길어지는 상황”에서는
속도 저하 패턴이 없는 쪽이 안정적일 수 있습니다.
반대로 짧은 질의응답 위주라면 속도 차이를 덜 체감할 수도 있습니다.
또 하나 흥미로운 대목은 답변 길이와 사용자 다음 질문까지의 시간은 거의 관련이 없었다는 점입니다. 즉, “길게 답하면 사용자가 더 오래 생각한다”는 직관이 항상 맞지는 않습니다.
데이터셋 특성: 규모·언어 다양성·플랫폼 편차
ShareChat은 101개 언어를 포함하며, 플랫폼별 수집량 편차가 큽니다. 기사 요약 기준으로 챗GPT 비중이 약 72%로 가장 크고, 클로드는 1% 미만으로 작습니다. 연구팀도 이런 불균형을 한계로 인정했다고 알려져 있습니다.
데이터가 많은 플랫폼의 “대표성”이 상대적으로 강해질 수 있습니다.
따라서 순위 자체보다 “패턴의 방향성(경향)”을 읽는 용도로 보는 편이 안전합니다.
독성(유해 콘텐츠) 분석: 플랫폼별로 사용자·AI 모두 차이가 났다
Detoxify와 OpenAI 방식의 두 탐지 도구로 유해 콘텐츠를 측정했을 때, 요약에서는 클로드가 상대적으로 높은 독성 비율, 퍼플렉시티가 낮은 독성 비율로 제시됩니다. 또한 사용자가 독성 메시지를 많이 보내는 플랫폼에서 AI 응답 독성도 함께 높게 나타나는 경향이 언급됩니다.
이 부분은 “모델이 나쁘다”라기보다, 플랫폼 성격(유입 사용자, 사용 목적, 공유 문화)이 반영될 수 있습니다. 실제 사용 시에는 조직 정책(금칙어, 민감 주제, 로깅/감사)과 함께 판단하는 것이 좋습니다.
사람들이 AI에게 가장 많이 하는 요청
대화 의도를 분류했더니 정보 검색(약 40%)이 압도적으로 많았고, 기술 도움(12%), 글쓰기(10%)가 뒤를 이었다는 요약이 제시됩니다. 멀티미디어 요청은 2%로 낮았는데, 수집 시점의 기능 제약 영향이 언급됩니다.
AI 선택을 빠르게 하는 기준(현업용)
- 요구사항을 끝까지 완성해야 한다 → 의도 완결성이 높은 쪽(대화 마무리 능력)
- 출처 검증이 핵심이다 → 다출처 탐색/인용 구조가 강한 쪽(검색형 워크플로)
- 대화가 길어지는 업무다 → 대화 길이 증가 시 속도 저하가 적은 쪽
- 민감 주제를 다룬다 → 안전 정책·로깅·필터링을 포함해 플랫폼 운영 정책까지 함께 검토
독자 FAQ
Q. ShareChat은 기존 대화 데이터와 뭐가 다른가요?
다중 플랫폼(5개 챗봇)의 실제 공유 대화를 모아 규모가 크고(14만+), 언어 범위(101개)가 넓으며, 일부 플랫폼의 특수 기능(예: 생각 블록, 인라인 인용, 메시지 시간 정보 등)을 보존했다는 점이 특징으로 요약됩니다.
Q. “1등 AI”라고 단정해도 되나요?
의도 단위 완전 해결률만 보면 클로드가 가장 높게 제시되지만, 데이터 불균형(플랫폼별 표본 차이)과 사용 목적 차이가 커서 “상황별 최적”으로 보는 편이 안전합니다. 실제 사용 시에는 테스트 질문을 10~20개 정도 만들어 팀 업무 흐름에 대입해 보는 것이 가장 빠릅니다.
Q. 퍼플렉시티의 완전 해결률이 낮은데 왜 쓸 만한가요?
요약에 따르면 퍼플렉시티는 부분 해결 비율이 상대적으로 높고, 다수 출처를 기반으로 탐색·요약하는 패턴이 강합니다. “바로 결론”보다 “근거 모으기”가 중요한 작업에서 효율이 날 수 있습니다.
마지막으로: 어디까지 믿고, 어떻게 쓰면 좋은가
이번 비교는 “모델 스펙”보다 “사용자와 실제로 부딪히는 능력”을 보여주는 지표에 가깝습니다. 관리자 입장에서 가장 중요한 것은 업무 리스크(편향·환각·출처 품질)와 프로세스 적합성(속도·멀티 의도 처리·검증 흐름)의 균형입니다.
1) 초안/브레인스토밍: 의도 완결성이 높은 도구
2) 사실 확인/근거 수집: 출처 구조가 강한 도구
3) 최종 산출물: 사람이 핵심 수치·정책·인용을 다시 검증
참고로, 이 글은 아래 공개된 기사 링크의 요약 내용을 바탕으로 재구성했으며,
연구 원문은 논문명 “ShareChat: A Dataset of Chatbot Conversations in the Wild”로 arXiv에서 확인할 수 있습니다.
기사 링크: aimatters.co.kr
'IT 소식 뉴스 > IT 소식' 카테고리의 다른 글
| 버너 보겔스 CTO가 말한 ‘르네상스 개발자’ 시대 (1) | 2026.01.03 |
|---|---|
| 직접 만들고 고쳐야 설계가 된다: 대규모 시스템 설계의 현실 (0) | 2026.01.03 |
| 2025 대한민국 사이버보안 결산: 12건 침해사고로 본 운영 보안의 경고 (1) | 2026.01.02 |
| KT·LG유플러스 보안사고 최종결과 (0) | 2025.12.30 |
| 윈도우11 하드웨어 가속 비트로커 (0) | 2025.12.24 |
