한국어 장문 응답까지 자연스러워진 차세대 AI 모델
그림 못 그리는 AI’는 옛말… GPT-4o, 표현력 논란 종식 선언

[아웃소싱타임스 김민수 기자] 오픈AI가 이미지 생성 기능을 대폭 강화한 차세대 모델 'GPT-4o'를 공개하면서 생성형 인공지능(AI) 시장의 경쟁 구도가 새로운 국면을 맞고 있다.
특히 이번 업데이트에서는 사용자들이 그동안 아쉬움을 느껴왔던 이미지 표현력과 언어 출력 능력이 획기적으로 개선된 점이 주목받고 있다. 예컨대, 이전에는 인물의 눈동자가 비정상적이거나 손가락 수가 어긋나는 오류가 잦았지만, 이제는 손가락 개수나 눈의 초점까지 자연스럽게 표현되는 수준으로 개선됐다.
오픈AI는 26일(현지시간) '챗GPT'의 새로운 모델인 GPT-4o를 공개하고, 해당 모델이 기존보다 더욱 인간에 가까운 멀티모달 처리 능력을 갖췄다고 밝혔다. 텍스트 입력뿐 아니라 이미지, 음성 등 다양한 입력에 즉각 반응하고, 더욱 자연스러운 결과물을 생성하는 능력이 업그레이드된 것이다.

■ 촌스럽던 이미지 생성 성능, 드디어 '진짜'로 진화
이번 GPT-4o 공개에서 가장 눈에 띄는 변화는 이미지 생성 품질의 향상이다. 이전까지 GPT 기반의 이미지 생성 기능은 표현력 부족, 인물 묘사의 부자연스러움, 해상도 저하 등에서 한계를 보여왔지만, 이번 모델에서는 이러한 문제가 상당 부분 해소됐다.
실제 공개된 데모 영상과 예시 이미지에서는 보다 사실적이고 섬세한 이미지 표현이 가능해졌으며, 한국어로 된 프롬프트에 대해서도 높은 정밀도의 시각적 결과물이 출력되는 것이 확인됐다.
특히 그동안 일부 사용자 커뮤니티와 기술 전문 매체에서 제기된 "GPT는 촌스럽고 무성의한 이미지나 만들어낸다"는 비판에 직면했던 오픈AI가 이번 GPT-4o를 통해 그러한 오명을 벗겠다는 의지를 보인 셈이다.
장시간 텍스트 기반 설명을 이해하고 그에 맞는 복합 이미지까지 동시에 생성하는 능력은 실시간 커뮤니케이션은 물론 창작 영역까지 폭넓게 확장될 수 있다는 가능성을 보여주고 있다.

■ 장문 처리 능력과 한국어 대응력까지 향상
이미지 외에도 텍스트 처리 능력도 한층 강화됐다. GPT-4o는 특히 긴 텍스트 입력에 대한 이해도와 출력 품질이 개선돼, 사용자가 입력한 장문의 프롬프트를 누락 없이 이해하고 자연스럽게 응답하는 성능을 선보이고 있다.
실제로 수천 단어 분량의 소설 시놉시스를 분석해 해당 줄거리의 결말을 예측하거나, 장문의 이력서 내용을 바탕으로 맞춤형 자기소개서를 작성하는 사례에서 그 향상된 능력을 확인할 수 있다. 한국어를 포함한 다양한 언어에 대한 대응도 크게 향상되었다는 평가가 이어지고 있다.
기술 리뷰 커뮤니티 '레딧'과 국내 사용자 SNS 후기 등에 따르면, "영어로만 매끄러운 응답을 보여주던 GPT가 드디어 한국어에서도 자연스럽고 정교한 반응을 보여준다"는 평가가 이어지고 있다.
또 하나의 주요 특징은 시각적 장면 묘사와 언어 생성이 동시에 이루어지는 통합적 인터페이스로, 이미지 생성과 텍스트 설명이 실시간으로 동기화되어 출력되는 점이다. 예를 들어, 사용자가 '한강에서 자전거를 타는 가족'이라는 문장을 입력하면, 해당 장면을 묘사한 이미지가 생성됨과 동시에 이미지 속 인물, 배경, 분위기에 대한 설명이 자동으로 함께 제공되는 방식이다.