featured

Hugging Face’in 8 milyar parametreye sahip yeni açık kaynak görsel dil modeli: Idefics2

Paylaş

Bu Yazıyı Paylaş

veya linki kopyala

2023 yılında DeepMind’ın teknolojisini kullanarak Idefics görsel dil modelini piyasaya süren Hugging Face, şimdi de modelin yeni yükseltmesi Idefics2 ile karşımızda. Idefics2, daha küçük bir parametre boyutu, açık bir lisans ve geliştirilmiş Optik Karakter Tanıma (OCR) yeteneklerine sahip. 

Model kıyaslamaları 

Bilmeyenler için Idefics’in metin ve görüntü istemlerine yanıt verebilen genel bir çok modlu (multimodal) model olduğunu belirtelim. Idefics 80 milyar parametre boyutuna sahipken, Idefics2, 8 milyar ile Idefics’in onda biri boyutunda. Bu anlamda Idefics2, DeepSeek-VL ve LLaVA-NeXT-Mistral-7B ile karşılaştırılabilir.

Öte yandan Hugging Face’in paylaştığı bilgilere göre Idefics2, Görsel Soru Yanıtlama kıyaslamalarındaki performansı ile LLava-Next-34B ve MM1-30B-chat gibi çok daha büyük modellerle rekabet edebiliyor. 

Idefics2’nin öne çıkan yetenekleri

Idefics2, görüntülerle ilgili soruları yanıtlayabilirken, görsel içeriği tanımlayabiliyor ve birden fazla görüntüye dayanan hikayeler oluşturabiliyor. Bununla beraber model, belgelerden bilgi çıkarabiliyor ve temel aritmetik işlemleri gerçekleştirebiliyor. 

Paylaşılan bilgilere göre Idefics2, hem 980 x 980 piksele kadar doğal çözünürlükte hem de doğal en boy oranlarında daha iyi görüntü manipülasyonu sunuyor. Böylece görüntülerin sabit boyutlu bir kare oranına uyacak şekilde yeniden boyutlandırılması gerekmeyecek.

Modelin OCR yetenekleri ise bir görüntü veya belgedeki metnin yazıya dökülmesinden elde edilen veri entegrasyonu yoluyla geliştirildi. Hugging Face ekibinin ayrıca Idefics’in grafikler, şekiller ve belgeler üzerindeki soruları yanıtlama becerisini de geliştirdiğini belirtmekte fayda var. 

Eğitim verileri

Hugging Face, Idefics2’yi eğitmek için Mistral-7B-v0.1 ve siglip-so400m-patch14-384 gibi açık veri kümelerinin bir karışımını kullandı. Ayrıca kullanılan veri kümeleri kapsamında Wikipedia ve OBELICS kaynaklı web belgeleri, Public Multimodal Dataset ve LAION-COCO kaynaklı resim açıklamaları çiftleri yer aldı. Buna ek olarak PDFA (en) ve IDL‘nin yanı sıra işlenmiş metin olarak tercüme edebileceğimiz Rendered-text, ve WebSight kaynaklı resimden koda (image-to-code) verileri kapsayan OCR verileri de kullanıldı. 

0
alk_
Alkış
0
be_enmedim
Beğenmedim
0
mutlu
Mutlu
0
_zg_n
Üzgün
0
sinirli
Sinirli
0
_a_rm_
Şaşırmış
0
komik
Komik
Hugging Face’in 8 milyar parametreye sahip yeni açık kaynak görsel dil modeli: Idefics2

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir