Hello GPT-4o

Hello GPT-4o 가 출시되었습니다. 2024년 5월 13일에 출시되었죠. 새로운 GPT의 탄생을 알리고 있어요. 어떤 내용일까요

1. GPT-4o 개요

GPT-4o의 끝에 있는 "o"는 "옴니"를 의미합니다.

이는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 단게 입니다. 아래 내용은 홈페이지 내용입니다.

GPT-4o("옴니"를 의미하는 "o")는 훨씬 더 자연스러운 인간-컴퓨터 상호 작용을 향한 한 단계입니다. 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 생성합니다. 출력. 232밀리초 안에 오디오 입력에 응답할 수 있으며, 평균 320밀리초로
인간의 응답 시간 과 비슷합니다.(새 창에서 열립니다)
대화 중. 영어 및 코드 텍스트의 GPT-4 Turbo 성능과 일치하며, 영어가 아닌 언어의 텍스트에 대한 상당한 개선이 이루어지며, API에서는 훨씬 빠르고 50% 저렴합니다. GPT-4o는 특히 기존 모델에 비해 시각 및 청각 이해도가 더 뛰어납니다.

정리하면

텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받을 수 있고 모든 조합을 생성할 수 있다고 합니다.
오디오는 출력. 232밀리초 안에 응답할 수 있는데, 이는 인간의 응답 시간 과 비슷한 것이죠. 인간은 평균 320밀리초의 응답시간이 필요합니다.
영어 문장과 코드에서는 GPT-4 Turbo 성능과 일치하고요
영어가 아닌 문자에서는 의미있는 성장이 있다고 합니다.
API에 대해서는 기존보다 훨씬 빠르고 50% 저렴합니다.
그리고 기존 모델보다 시각과 청각의 이해도가 높다고 합니다.

이는 소개 영상으로 확인이 가능합니다.

>> [영상] Two OpenAI GPT-4os interacting and singing

1. GPT-4o 기능

1) 음성모드 기능

GPT-4o 이전에는 음성 모드를 사용하여 평균 2.8초(GPT-3.5) 및 5.4초(GPT-4)의 지연 시간으로 ChatGPT와 대화할 수 있었습니다. 이를 달성하기 위해 음성 모드는 세 가지 개별 모델의 파이프라인입니다.

하나의 간단한 모델은 오디오를 텍스트로 변환하고, GPT-3.5 또는 GPT-4는 텍스트를 가져와 텍스트를 출력하며, 세 번째 간단한 모델은 해당 텍스트를 다시 오디오로 변환합니다.

이 과정은 지능의 주요 원천인 GPT-4가 많은 정보를 잃음을 의미합니다. 음색, 여러 화자 또는 배경 소음을 직접 관찰할 수 없으며 웃음, 노래 또는 감정 표현을 출력할 수 없습니다.

GPT-4o를 통해 우리는 텍스트, 비전, 오디오 전반에 걸쳐 새로운 단일 모델을 처음부터 끝까지 훈련했습니다. 즉, 모든 입력과 출력이 동일한 신경망에서 처리된다는 의미입니다. GPT-4o는 이러한 모든 양식을 결합한 첫 번째 모델이기 때문에 우리는 여전히 모델이 수행할 수 있는 작업과 한계를 탐색하는 표면적인 단계에 불과합니다.

2) 역량탐색 (Explorations of capabilities)

여러가지의 샘플을 보여 줍니다. 하나씩 선택하면 하단에 상황별 input 과 output을 보여 줍니다.

3) 모델 평가

기존 벤치마크에서 측정한 바와 같이 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준의 성능을 달성하는 동시에 다국어, 오디오 및 비전 기능에서 새로운 최고 수준을 설정했습니다.

아래 5가지에 대해서 보여 성능 평가를 보여주고 있습니다.

텍스트 평가
오디오 ASR 성능
오디오 번역 성능
M3Exam 제로 샷 결과
비전 이해 평가

(1) 텍스트 평가

향상된 추론 - GPT-4o는 0샷 COT MMLU(일반 지식 질문)에서 88.7%라는 새로운 최고 점수를 설정했습니다. 이 모든 평가는 새로운 단순 평가를 통해 수집되었습니다.(새 창에서 열립니다)도서관. 또한 기존 5샷 no-CoT MMLU에서 GPT-4o는 87.2%라는 새로운 최고 점수를 설정했습니다. ( 참고 : Llama3 400b(새 창에서 열립니다)아직 훈련중입니다)

(2) 오디오 ASR 성능

오디오 ASR 성능 - GPT-4o는 모든 언어, 특히 자원이 부족한 언어에서 Whisper-v3에 비해 음성 인식 성능을 크게 향상시킵니다.

(3) 오디오 번역 성능

오디오 번역 성능 - GPT-4o는 음성 번역에 있어 새로운 최첨단 기술을 제시하고 MLS 벤치마크에서 Whisper-v3보다 뛰어난 성능을 발휘합니다

(4) M3Exam 제로 샷 결과

M3Exam - M3Exam 벤치마크는 때로 그림과 다이어그램을 포함하는 다른 국가의 표준화된 테스트의 객관식 질문으로 구성된 다국어 및 비전 평가입니다. GPT-4o는 모든 언어에 걸쳐 이 벤치마크에서 GPT-4보다 강력합니다. (스와힐리어와 자바어에 대한 비전 결과는 생략했습니다. 이러한 언어에 대한 비전 질문은 5개 이하이기 때문입니다.

(5) 비전 이해 평가

비전 이해 평가 - GPT-4o는 시각적 인식 벤치마크에서 최첨단 성능을 달성합니다. 모든 비전 평가는 MMMU, MathVista 및 ChartQA를 0샷 CoT로 사용하는 0샷입니다.

1. GPT-4o 소개 정리하며

GPT-4o 모델을 지속적으로 개선할 수 있도록 GPT-4 Turbo가 여전히 GPT-4o보다 성능이 뛰어난 작업을 식별하는 데 도움이 되는 피드백을 환영하고 있습니다.

GPT-4o는 딥 러닝의 한계를 뛰어넘는 최신 단계로, 이번에는 실용적인 사용성을 지향하고 있습니다.

아래 사이트 방문하여 내용 확인해 보세요.

[소개영상]

>> 이젠 보고 듣고 말한다…GPT-4o 출시 "헐(HER)~"｜지금 이 뉴스

>> [유튜브, 뉴스 1TV] 영화 ‘her’ 현실로…감정 읽고 실시간 통역까지하는 인공지능 GPT-4o

>> [유튜브, 커리어해커 알렉스] 챗GPT 신기능 "GPT-4o" 출시! 실시간 통번역에, 듀엣까지 한다고!? 보고 듣고 감정을 담아 말하는, 현실판 "자비스" 탄생!

해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들

해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들

해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들에 대해서 알아보겠습니다. 해외 여행은 미리 준비하면 여러면에서 유리 합니다. 그리고 여행의 즐거움은 필요한 물건이 가방에 있는

twdatastory.tistory.com

비행기 반입 금지 물품 - 휴대용 라이터, 호신용 스프레이 는

비행기 반입 금지 물품 - 휴대용 라이터, 호신용 스프레이 는

비행기 반입 금지 물품 내용입니다. 2014년 1월 1일부터 적용되는 내용입니다. 국토교통부 교통안전공단, 대한항공 3개 기관이 합동으로 작성한 자료입니다. pdf 내용을 옮기며, 일반적인 물품은

twdatastory.tistory.com

해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들

해외 여행 준비 필수 준비물 - 필수템, 꼭 챙겨야 하는 것들

twdatastory.tistory.com

아시아나 마일리지 가족회원 등록하기 - 항공마일리지 모으기, 아시아나 마일리지 적립 방법, 가족 간 사용 공유

아시아나 마일리지 가족회원 등록하기 - 항공마일리지 모으기, 아시아나 마일리지 적립 방법,

가족이랑 마일리지로 제주도에 가고자 한다. 아직 나에게는 아시아나 마일리지가 70,000마일이 남아있다. 2명을 등록하고 마일리로 계산하려 했다. 안된다고 한다. 가족회원에 아내가 없어서 이

twdatastory.tistory.com

대한항공 마일리지 - 비행기표 예매, 마일리지 확인하기

대한항공 마일리지 - 비행기표 예매, 마일리지 확인하기

대한항공 마일리지 항공권 구입 - 누적된 대한항공 마일리지를 사용해서 비행기표 예매 방법을 알아보겠습니다. 비행기표 예매 시 마일리지 사용법이니 잘 따라와 주세요. 1. 대한항공 마일리지

twdatastory.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'주변의 벌어지는 일들 > 생활정보' 카테고리의 다른 글

월드컵 아시아 지역 예선 2차전 - 대한민국 대 중국 전 중계방송 (1)	2024.06.09
연말정산 환급금 신청-지방세 환급신청 wetax (0)	2024.05.18
서울 청년인턴 - 5월 인턴(서울형 청년인턴 직무캠프) (0)	2024.05.11
종합소득세 신고 - 신고 유형, 신고대상, 신고내용, 직접하기 (0)	2024.05.09
일본 방문 - 봄 여름 가을 겨울 가면 좋을 시기 알아보기 (2)	2024.05.06

Hello GPT-4o

1. GPT-4o 개요

1. GPT-4o 기능

1) 음성모드 기능

2) 역량탐색 (Explorations of capabilities)

3) 모델 평가

(1) 텍스트 평가

(2) 오디오 ASR 성능

(3) 오디오 번역 성능

(4) M3Exam 제로 샷 결과

(5) 비전 이해 평가

1. GPT-4o 소개 정리하며

'주변의 벌어지는 일들 > 생활정보' 카테고리의 다른 글

관련글

티스토리툴바