BLIPブリップ (BLIP / BLIP-2)

▼ ざっくり言うと

画像を見て文章で説明できる、Salesforce発のマルチモーダルモデルです。

▼ もうちょっと詳しく

2022年に Salesforce Research が発表した画像-言語モデル。画像を見てキャプションを生成したり、画像についての質問に答えたりできます。CLIPが「言葉と画像を結ぶ」だけだったのに対し、BLIPは「画像を見て文章を作る」一歩先の能力。

後継のBLIP-2、InstructBLIP も発表されていて、マルチモーダルLLMの土台技術の一つとして広く参照されています。研究界での影響力大、商業的な知名度は低めな学術系の存在。

Salesforceが地味にAI研究で結構な成果を出している、というのは意外と知られていません。

あなたの読了: 0 / 393