
(資料圖)
消息:在中關村論壇平行論壇之一的人工智能大模型發展論壇上,北京智源人工智能研究院推出通用分割模型 SegGPT(Segment Everything In Contex),這是一個利用視覺提示(prompt)完成任意分割任務的通用視覺模型。
SegGPT 編程客棧是智源通javascript用視覺模型 Painter 的衍生模型,可針對分割一切物體的目標做出優化。
該模型具備上下文推理能力,訓練完成后無需微調,只需提供示例即可自動推理并完成對應分割任務,包括圖像和視頻中的實例、類別、零部件、輪廓、文本、人臉、醫學圖像等。
如下圖所示,標注出一個畫面中的彩虹,SegGPT可批量化分割其他畫面中的彩虹。
它的靈活推理能力支持任意數量的視覺提示。自動視頻分割和追蹤能力以第一幀圖像和對應的物體掩碼作為上下文示例,SegGPT 能夠自動對后續視頻幀進行分割,并且可以用掩碼的顏色作為物體的ID,實現自動追蹤。
值得一提的是,此前Meta發布了其新的基于 AI 的 Segment Anything Model (SAM),該模型具有識別和分離圖像和編程客棧視頻中的特定對象的功能。通過使用SAM,用戶可以通過點擊物體或輸入文字提示選中編輯的物體。
威斯康辛麥迪遜、微軟、港科大等機構的研究人員也提出SEEM模型,通過不同的視覺HLxjPk提示和語言提示,一鍵分割圖像、視頻。SEEM模型是一種新型的分割模型,這一模型可以在沒有提示的開放集中執行任何分割任務,比如語義分割、實例分割和全景分割。
另外,南科大發布視頻分割模型TAM,可輕松追蹤視頻中的任意物體并消除,操作簡單友好。TAM的出現為解決傳統視頻分割模型需要人工標記培訓數據和初始化參與數據的問題提供了之前提供,將改變CGI行業的游戲游戲規則。