Baidu는 방금 GPT-5와 Gemini를 능가한다고 주장하는 오픈 소스 다중 모드 AI를 출시했습니다 > 생활

생활

Baidu는 방금 GPT-5와 Gemini를 능가한다고 주장하는 오픈 소스 다중 모드 AI를 출시했습니다

관리자

23시간 16분전 0 0

- 관련링크 : https://venturebeat.com/ai/baidu-just-dropped-an-open-source-multimoda…

0회 연결

본문

Baidu는 방금 GPT-5와 Gemini를 능가한다고 주장하는 오픈 소스 다중 모드 AI를 출시했습니다 완벽가이드

소개
핵심 특징
상세 정보
자주 묻는 질문

Baidu는 방금 GPT-5와 Gemini를 능가한다고 주장하는 오픈 소스 다중 모드 AI를 출시했습니다

IT/인터넷 전문 정보

중국 최대 검색 엔진 회사인 바이두(Baidu Inc.)는 월요일 개발자들이 이러한 시스템에 일반적으로 필요한 컴퓨팅 리소스의 일부를 사용함에도 불구하고 여러 비전 관련 벤치마크에서 Google 및 OpenAI의 경쟁사보다 뛰어난 성능을 발휘한다고 주장하는 새로운 인공 지능 모델을 발표했습니다. ERNIE-4.5-VL-28B-A3B-Thinking이라고 불리는 이 모델은 이미지, 비디오, 문서를 이해하고 추론할 수 있는 AI 시스템을 구축하기 위한 기술 기업 간의 경쟁이 치열해지는 가운데 최신 일격입니다. 텍스트 - 자동화된 문서

핵심 특징

고품질

검증된 정보만 제공

빠른 업데이트

실시간 최신 정보

상세 분석

전문가 수준 리뷰

상세 정보

핵심 기능

사용 후기

. 이 모델은 정교한 라우팅 아키텍처를 통해 총 280억 개의 매개변수를 유지하면서 작동 중에 단 30억 개의 매개변수만 활성화합니다. 모델과 함께 공개된 문서에 따르면 이 설계를 통해 문서 이해, 차트 분석 및 시각적 추론과 관련된 작업에서 훨씬 더 적은 계산 능력과 메모리를 소비하면서 훨씬 더 큰 경쟁 시스템의 성능과 일치하거나 능가할 수 있습니다. "강력한 ERNIE-4.5-VL-28B-A3B 아키텍처를 기반으로 구축된 새로 업그레이드된 ERNIE-4.5-VL-28B-A3B-Thinking은 다중 모드 추론 기능에서 눈에 띄는 도약을 달성합니다."라고 Baidu는 썼습니다.

장단점

시스템이 출시된 AI 모델 저장소인 Hugging Face에 대한 모델 기술 문서에서 회사는 모델이 "방대하고 매우 다양한 프리미엄 시각적 언어 추론 데이터"를 통합하는 "광범위한 중간 훈련 단계"를 거쳤으며 시각적 및 텍스트 정보를 의미론적으로 정렬하는 능력을 극적으로 향상시켰다고 밝혔습니다. 모델이 동적 이미지 분석을 통해 인간의 시각적 문제 해결을 모방하는 방법 아마도 모델의 가장 독특한 특징은 Baidu가 "이미지로 생각하기"라고 부르는 기능입니다. AI는 인간이 시각적 문제 해결 작업에 접근하는 방식을 모방하여 미세한 세부 사항을 검사하기 위해 이미지를 동적으로 확대 및 축소할 수 있습니다. 모델 카드에 따르면 "이 모델은 인간처럼 생각하고 이미지를 자유롭게 확대 및 축소하여 모든 세부 사항을 파악하고 모든 정보를 밝힐 수 있습니다." Baidu는 이미지 검색과 같은 도구와 함께 사용하면 이 기능이 "세밀한 세부 사항을 처리하고 롱테일 시각적 지식을 처리하는 모델의 능력을 극적으로 향상시킨다"고 주장합니다.