Hello GPT-4o 가 출시되었습니다. 2024년 5월 13일에 출시되었죠. 새로운 GPT의 탄생을 알리고 있어요. 어떤 내용일까요
1. GPT-4o 개요
GPT-4o의 끝에 있는 "o"는 "옴니"를 의미합니다.
이는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 단게 입니다. 아래 내용은 홈페이지 내용입니다.
GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계입니다. 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성합니다. 출력. 232밀리초 안에 오디오 입력에 응답할 수 있으며, 평균 320밀리초로
인간의 응답 시간 과 비슷합니다.(새 창에서 열립니다)
대화 중. 영어 및 코드 텍스트의 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어납니다.
정리하면
- 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받을 수 있고 모든 조합을 생성할 수 있다고 합니다.
- 오디오는 출력. 232밀리초 안에 응답할 수 있는데, 이는 인간의 응답 시간 과 비슷한 것이죠. 인간은 평균 320밀리초의 응답시간이 필요합니다.
- 영어 문장과 코드에서는 GPT-4 Turbo 성능과 일치하고요
- 영어가 아닌 문자에서는 의미있는 성장이 있다고 합니다.
- API에 대해서는 기존보다 훨씬 빠르고 50% 저렴합니다.
- 그리고 기존 모델보다 시각과 청각의 이해도가 높다고 합니다.
이는 소개 영상으로 확인이 가능합니다.
>> [영상] Two OpenAI GPT-4os interacting and singing
1. GPT-4o 기능
1) 음성모드 기능
GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다. 이를 달성하기 위해 음성 모드는 세 가지 개별 모델의 파이프라인입니다.
하나의 간단한 모델은 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4는 텍스트를 가져와 텍스트를 출력하며, 세 번째 간단한 모델은 해당 텍스트를 다시 오디오로 변환합니다.
이 과정은 지능의 주요 원천인 GPT-4가 많은 정보를 잃음을 의미합니다. 음색, 여러 화자 또는 배경 소음을 직접 관찰할 수 없으며 웃음, 노래 또는 감정 표현을 출력할 수 없습니다.
GPT-4o를 통해 우리는 텍스트, 비전, 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했습니다. 즉, 모든 입력과 출력이 동일한 신경망에서 처리된다는 의미입니다. GPT-4o는 이러한 모든 양식을 결합한 첫 번째 모델이기 때문에 우리는 여전히 모델이 수행할 수 있는 작업과 한계를 탐색하는 표면적인 단계에 불과합니다.
2) 역량탐색 (Explorations of capabilities)
여러가지의 샘플을 보여 줍니다. 하나씩 선택하면 하단에 상황별 input 과 output을 보여 줍니다.
3) 모델 평가
기존 벤치마크에서 측정한 바와 같이 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능에서 새로운 최고 수준을 설정했습니다.
아래 5가지에 대해서 보여 성능 평가를 보여주고 있습니다.
- 텍스트 평가
- 오디오 ASR 성능
- 오디오 번역 성능
- M3Exam 제로 샷 결과
- 비전 이해 평가
(1) 텍스트 평가
향상된 추론 - GPT-4o는 0샷 COT MMLU(일반 지식 질문)에서 88.7%라는 새로운 최고 점수를 설정했습니다. 이 모든 평가는 새로운 단순 평가를 통해 수집되었습니다.(새 창에서 열립니다)도서관. 또한 기존 5샷 no-CoT MMLU에서 GPT-4o는 87.2%라는 새로운 최고 점수를 설정했습니다. ( 참고 : Llama3 400b(새 창에서 열립니다)아직 훈련중입니다)
(2) 오디오 ASR 성능
오디오 ASR 성능 - GPT-4o는 모든 언어, 특히 자원이 부족한 언어에서 Whisper-v3에 비해 음성 인식 성능을 크게 향상시킵니다.
(3) 오디오 번역 성능
오디오 번역 성능 - GPT-4o는 음성 번역에 있어 새로운 최첨단 기술을 제시하고 MLS 벤치마크에서 Whisper-v3보다 뛰어난 성능을 발휘합니다
(4) M3Exam 제로 샷 결과
M3Exam - M3Exam 벤치마크는 때로 그림과 다이어그램을 포함하는 다른 국가의 표준화된 테스트의 객관식 질문으로 구성된 다국어 및 비전 평가입니다. GPT-4o는 모든 언어에 걸쳐 이 벤치마크에서 GPT-4보다 강력합니다. (스와힐리어와 자바어에 대한 비전 결과는 생략했습니다. 이러한 언어에 대한 비전 질문은 5개 이하이기 때문입니다.
(5) 비전 이해 평가
비전 이해 평가 - GPT-4o는 시각적 인식 벤치마크에서 최첨단 성능을 달성합니다. 모든 비전 평가는 MMMU, MathVista 및 ChartQA를 0샷 CoT로 사용하는 0샷입니다.
1. GPT-4o 소개 정리하며
GPT-4o 모델을 지속적으로 개선할 수 있도록 GPT-4 Turbo가 여전히 GPT-4o보다 성능이 뛰어난 작업을 식별하는 데 도움이 되는 피드백을 환영하고 있습니다.
GPT-4o는 딥 러닝의 한계를 뛰어넘는 최신 단계로, 이번에는 실용적인 사용성을 지향하고 있습니다.
아래 사이트 방문하여 내용 확인해 보세요.
[소개영상]
>> 이젠 보고 듣고 말한다…GPT-4o 출시 "헐(HER)~"|지금 이 뉴스
>> [유튜브, 뉴스 1TV] 영화 ‘her’ 현실로…감정 읽고 실시간 통역까지하는 인공지능 GPT-4o
>> [유튜브, 커리어해커 알렉스] 챗GPT 신기능 "GPT-4o" 출시! 실시간 통번역에, 듀엣까지 한다고!? 보고 듣고 감정을 담아 말하는, 현실판 "자비스" 탄생!
- 해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들
- 비행기 반입 금지 물품 - 휴대용 라이터, 호신용 스프레이 는
- 해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들
- 아시아나 마일리지 가족회원 등록하기 - 항공마일리지 모으기, 아시아나 마일리지 적립 방법, 가족 간 사용 공유
- 대한항공 마일리지 - 비행기표 예매, 마일리지 확인하기
'주변의 벌어지는 일들 > 생활정보' 카테고리의 다른 글
월드컵 아시아 지역 예선 2차전 - 대한민국 대 중국 전 중계방송 (1) | 2024.06.09 |
---|---|
연말정산 환급금 신청-지방세 환급신청 wetax (0) | 2024.05.18 |
서울 청년인턴 - 5월 인턴(서울형 청년인턴 직무캠프) (0) | 2024.05.11 |
종합소득세 신고 - 신고 유형, 신고대상, 신고내용, 직접하기 (0) | 2024.05.09 |
일본 방문 - 봄 여름 가을 겨울 가면 좋을 시기 알아보기 (2) | 2024.05.06 |