본문 바로가기

Activity/Earlyadottor with sk에이닷

에이닷으로 LLM 전격 비교해보기! (feat. 어도어-민희진 사건)

출처 : https://a.sktelecom.com/

안녕하세요! 요즘 perplexity와 claude 등 다양한 LLM을 사용할 수 있는 에이전트인 에이닷에 대한 관심이 많아지고 있는데요! 제가 한번 에이닷에 있는 LLM들의 기능을 확인하여 비교 분석을 해보았습니다! 

문득 지하철을 타고 있는데 최근에 뉴진스가 라이브 방송을 켜 소신발언을 한 이후로 다시 한번 대두되고 있는 하이브-어도어 사건에 대하여 사건 정리를 하고 싶어서 아래와 같이 같은 프롬프트로 5가지의 LLM(이하 Perplexity, GPT4o, Claude(3 Haiku), Claude(3.5 sonnet), Claude(3 Opus))에게 물어 봤습니다! 

민희진 사태의 타임라인을 발생시간 대 별로 첨부자료를 가지고 만들어줘,
사건에 대한 설명은 시각적으로 이해 가능하도록 토글로 정리해줘.

우선 프롬프팅에는 크게 기법을 넣지는 않았고 토글로 시간대 별로 잘 정리해주는 지를 확인하였습니다.

1. Perplexity

perplexity는 실시간 정보를 바탕으로 정리해주기 때문에 타 생성형AI들과 대비하여 신뢰성이 있다고 알려져 있습니다. 이는 챗봇을 통해 특정 정보를 확인하려고 할 때 유용하게 사용할 수 있다는 의미로 받아드릴 수 있습니다. 실제로 무지성 프롬프팅을 가지고도 잘 정리를 했으나 약간의 마크다운 에러가 나온다는 것을 확인할 수 있습니다. 하지만 결과물에서 확인할 수 있는 가장 큰 특징 중 하나는 위의 영상에서 확인 가능한 것처럼 다른 모델을 사용했을 때와 비교했을 때 '시각적으로 이해 가능하도록'이라는 질문을 잘 파악한 것으로 보입니다. 

 

2. GPT4o

GPT4o는 우리가 가장 많이 사용하고 지속적인 성능의 업그레이드로 사용자의 편의와 더불어 어플리케이션이 나와 접근성 또한 개선시키고 있는 중 입니다. 위의 영상에서 확인할 수 있는 부분은 위의 프롬프트를 "타임라인을 '발생시간 대 별로 첨부자료를 가지고 만들어줘,'와 '사건에 대한 설명은 시각적으로 이해 가능하도록 토글'로 정리해줘"를 나눠서 이해하고 해석했다는 점입니다. LLM을 많이 사용하신 분들은 느끼셨겠지만 GPT4o는 한국에서도 잘 사용되는 Claude와 GPT4o에 한국어 데이터를 더 넣고 한국인 맞춤형으로 정제해준 Wrtn 등과 달리 한국어를 영어보다 잘 이해하지 못합니다(상대적으로). 그렇기에 사용자의 의도를 명확하게 파악할 수 있도록 질문을 해야하고, 만일 이 친구가 조금이라도 헷갈려 한다면 영상과 같은 상황이 벌어집니다. 또한 최신 데이터가 아닌 과거 데이터만을 가지고 한 것으로 보여집니다(진실이 아닌 경우도 여전히 발생). 하지만 perplexity와 대비해서 더 상황에 대한 설명이 자세하게 나와 있고, 깔끔하게 결과물이 나오는 것을 알 수 있습니다.

 

3. Claude(3 Hiaku)

 

음.... 할루시네이션이 보이네요.... 해당 사건은 2022(뉴진스 데뷔)-2024에 일어난 일을 정리해야하는데 2021에 일어난 일에 대하여 실제로 일어난 것 처럼 나오네요... Anthropic에서 확인을 해보면 Haiku version은 성능보다는 빠른 성능에 초점이 맞추어진 모델이라는 것을 알 수 있습니다.

 

4. Claude(3.5 Sonnet)

 

정말 잘 정리를 했죠? sonnet은 Anthropic에서 'ideal balance between intelligence and speed'라는 표현을 사용합니다. 같은 모델에 버전을 다르게 하더라도 성능이 다르게 나올 수 있구나하는 경험을 하게 되었습니다!

5. Claude(3 Opus)

 

혹시 동명의 의원이 있나요? 저는 못찾겠어서.... 네... 할루시네이션입니다. 

summary

저는 이 비교를 통해 상황에 따라 어떤 LLM 모델을 에이닷에서 사용을 하면 될지 정리를 해보았습니다.

우선 최신 내용을 잘 읽어오고 질문의 의도를 잘 파악하는 perplexity를 사회 문제 혹은 실시간 데이터가 필요한 경우 사용하고, GPT4o는 이론 혹은 개념과 같이 공부를 할 때 참고를 하며, claude는 대화를 통해 해결을 해야하는 상황에 있을 때(요약이나 대화가 자연스럽다는 특징이 있음) 사용을 할 것 같습니다!

이 부분은 제가 사용하면서 느낀 부분이기에 여러분도 에이닷을 통해 많은 LLM을 체험해 보세요!!

 

 

※ 본 게시물은 공부 위한 목적으로 만들어져 본 사건에 대한 게시자의 의견과는 무관합니다. 비교 자료로만 확인하시면 감사하겠습니다.