ReALM是苹果发布的一种新模型,通过重构屏幕上的信息为纯文本表示,使大型语言模型能够理解屏幕上的内容。该模型比ChatGPT-4更快、更小,能够理解屏幕上的内容而不需要直接看到图像,通过实体识别和位置记录生成文本化表示,减少模型参数,同时保持与GPT-4相似的性能。
ReALM的特点:
1. 比ChatGPT-4更快,更小
2. 能够理解屏幕上的内容而不需要直接看到图像
3. 通过实体识别和位置记录来生成文本化表示
4. 减少模型参数,同时保持与GPT-4相似的性能
ReALM的功能:
1. 用户可以通过语音命令让Siri拨打网页上的企业电话
2. 用户在浏览网页时,可以使用模糊语言与设备进行互动
3. 在个人设备上处理文本信息,提高了用户隐私和安全
相关推荐
暂无评论...