BLIP (BLIP / BLIP-2)
▼ ざっくり言うと
画像を見て文章で説明できる、Salesforce発のマルチモーダルモデルです。
▼ もうちょっと詳しく
2022年に Salesforce Research が発表した画像-言語モデル。画像を見てキャプションを生成したり、画像についての質問に答えたりできます。CLIPが「言葉と画像を結ぶ」だけだったのに対し、BLIPは「画像を見て文章を作る」一歩先の能力。
後継のBLIP-2、InstructBLIP も発表されていて、マルチモーダルLLMの土台技術の一つとして広く参照されています。研究界での影響力大、商業的な知名度は低めな学術系の存在。
Salesforceが地味にAI研究で結構な成果を出している、というのは意外と知られていません。
あなたの読了: 0 / 393 語

