[TLDR] OpenAI 의 최근 프로덕트 업데이트
최근 OpenAI 는 o1 이라는 신규 모델 런칭 외에도, 이런저런 새로운 기능들을 상당히 많이 업데이트 하고 있습니다. 몇 가지 최근 업데이트된 기능들을 살펴보고, OpenAI 의 프로덕트들에 대한 생각들도 써 보도록 하겠습니다.
Advanced Voice Mode
9월 25일경부터 chatGPT 플러스와 팀 사용자들 전체에게 고급 음성 모드(Advanced Voice Mode) 가 배포 되었습니다. 고급 음성 모드는 지난 5월 OpenAI 의 GPT-4o 런칭 행사에서 공개된 기능이었지만, 이후 스칼렛 요한슨의 목소리를 허락 없이 사용했다는 논란과 기술적인 이슈 등으로 인해 소수의 유저들 에게만 배포된 상태였습니다.
고급 음성 모드의 핵심은 1) 지연 시간이 거의 없는 빠른 음성 답변 2) 답변 중 사용자가 말을 끊고 다른 질문 가능 입니다. 답변의 퀄리티 자체는 기존의 음성 모드와 크게 차이 나지는 않는 것 같지만, 위 두 가지 만으로도 ‘사람과 대화한다’ 라는 느낌이 훨씬 강하게 듭니다. 개인적으로는 chatGPT 의 출시 이후 프로덕트 측면에서 놀랍다고 느낀 몇 안되는 케이스였습니다.
실시간에 가까운 음성 출력이 가능한 이유?
이전 모델들은 1) 유저의 음성을 텍스트로 변환 2) 텍스트 기반으로 답변 생성 3) 해당 텍스트를 다시 음성으로 변환하는 3단계를 거친 반면, GPT-4o 부터는 마치 텍스트를 생성 하듯, 별다른 절차 없이 음성을 바로 생성하는 방식으로 변경 되었기 때문입니다. 입력과 출력이 종단간으로 동일하게 학습되고, 출력된다는 의미로 ‘옴니(Omni)’ 라고 이름 붙여진 것이죠.
이렇게 하나의 모델로 다양한 인풋/아웃풋을 학습하고 생성하는 방향성은 OpenAI 뿐 아니라 다른 LLM 을 만드는 회사들도 동일하게 가져가고 있습니다.
OpenAI Devday 에서 공개된 기능들
그리고 10월 1일, OpenAI 에선 개발자들을 대상으로 Devday 를 진행했고, 거기서 나온 기능들도 소개해 보겠습니다.
Realtime API
위에서 언급한 실시간 음성 인풋/아웃풋을 API 화 시킨 것입니다. 인간 상담사와 비교해 보자면, API 비용은 시간 당 약 $1.13 - $1.6 정도 되니, 현재 대한민국 기준 최저임금 (약 1만원, $7.5 정도) 대비 80% 이상 저렴한 것이죠. 물론 상담의 퀄리티를 아직은 보장할 수 없으니 함부로 도입 하긴 어렵겠지만, 인간 상담사의 AI 화는 정해진 미래라고도 볼 수 있습니다.
Vision fine-tuning
GPT-4o 모델의 이미지 인식 능력을 튜닝해서 특정 용도에 더 잘 맞게 개선할 수 있는 기능입니다. 자율 주행 시 신호등, 표지판 등을 인식할 수 있도록 튜닝한다던가, 의상 쇼핑몰의 특정 의상의 종류를 더 잘 구분할 수 있도록 한다던가 등의 사용 사례가 있을 수 있겠죠.
Prompt Caching in API
LLM 을 사용하는 데 있어 핵심적인 비용은 인풋 토큰의 수를 어떻게 효율화하느냐입니다. LLM 은 토큰 당 비용으로 비용이 책정되니, 인풋하는 토큰 수를 최대한 줄이면서 아웃풋의 결과는 좋게 유지하는게 엔지니어링의 중요한 부분이죠.
이전에 인풋한 토큰들을 일정 시간동안 유지해 주는 캐싱(Caching) 은 비용 효율화의 중요한 기능입니다. 우리가 일반적으로 쓰는 웹사이트/브라우저들에서도 오고가는 데이터 양을 줄이기 위해 캐시를 적용합니다. 반복해서 쓰는 데이터/토큰 등을 매번 보내는 게 아니라, 일정 시간동안 유지해 주는 것입니다.
Model Distillation
모델 증류(Distillation) 이란 복잡하고 큰 모델을 좀 더 단순하고 가벼운 모델로 만드는 과정입니다. 닭 잡는 일에 소 잡는 칼을 쓰지 않기 위한 방법이죠. 그리고 복잡하고 큰 모델은 더 많은 비용과 더 오랜 시간을 필요로 하기도 합니다. 이러한 증류 과정을 더 쉽게 효율적으로 해 주는 기능을 발표했다 정도로 이해하면 될 것 같습니다.
ChatGPT Canvas
10월 3일, 가장 최근에 업데이트 된 기능입니다. 별도의 ‘캔버스’ 라는 영역에 글쓰기, 혹은 코드 작성을 해 주고, 해당 캔버스 위에서 여러가지 버튼들 (버그 고치기, 주석 달기 등) 로 수정을 하게 해 주는 기능입니다.
글쓰기/코드 에디터 + GPT 라고 보면 되겠는데요. 사실 이미 클로드나 cursor AI 등에서 구현된 기능들을 조합한 것이긴 합니다만, OpenAI 에서 직접 만들었다는데 의의가 있을 것 같습니다.
이러한 기능을 통해 증명된 것은, LLM 이 가진 가장 큰 PMF(Product-Market Fit) 는 글쓰기와 코딩이라고 볼 수 있겠습니다. 둘 다 텍스트 베이스이기도 하고, 어느 정도의 규칙성이나 패턴을 가진 일들이어서 LLM 과 잘 맞는 것 같습니다.
NYT 에 따르면 OpenAI 는 8월에 $300M (4천억원) 정도의 월 매출을 냈고, 24년에 $3.7B(약 5조원) 정도의 매출을 낼 것이라고 합니다. 하지만 지출은 그보다 더 큰 $5B (약 6조 6천억원) 정도가 됩니다. 그리고 약 3억 5천만명의 월 활성 사용자를 가지고 있다고 하고, 그 중 1천만명 정도가 유료 결제 사용자라고 합니다.