在繁密为东谈主工智能(AI)赋予“视觉”智力的模子中,谷歌的PaliGemma模子占据方寸之地。算作谷歌的视觉言语模子,它大致识别图像中的物体和翰墨。近日,谷歌肃穆推出了全新的PaliGemma 2模子,并已参预使用。
PaliGemma初代模子已是一款实用的器具,大致识别图像中的物体,并为图像添加字幕,致使还能为短视频添加字幕。PaliGemma的一个更为实用的功能是大致回复对于图像的问题。因此,它是一款功能高大的空洞模子。
谷歌于本年5月肃穆向公众先容了PaliGemma模子。谷歌但愿PaliGemma 2大致成为初代模子的成功替代品。谷歌提供了多个版块的PaliGemma 2,包括30亿、100亿和280亿参数变体,以及224像素、448像素和896像素分离率版块。
在其他规格方面,贵金属交易PaliGemma 2复古长文本字幕生成。谷歌默示,它将不单是局限于识别物体,还能识别东谈主物并解读其厚谊。因此,淌若某东谈主感到昂扬、哀悼等厚谊,PaliGemma 2皆能捕捉到。
此外,该模子似乎还能识别场景中发生的更多施行,以禀报齐备的故事。谷歌称,PaliGemma在识别曲谱、化学公式、识别深度以及制作胸部X光片答复方面证明更佳。谷歌为PaliGemma带来了颠倒显赫的更新。淌若你思使用它,不错在Hugging Face、Kaggle和Ollama平台上获得其代码。
谷歌还发布了其视频生成模子Veo的罕见预览版。该公司在本年的谷歌I/O大会上晓示了这一音问。淌若你正在使用谷歌的Vertex云平台,那么你将有契机进行尝鲜。你不错生成最高达1080p分离率的视频。