听力频道
登录注册网站首页

AI管家要成真?程序员小哥给GPT-4装上“眼睛”,让它看到家里的物品……

来源:融媒体采编平台
作者:徐婉扬<Xu wanyang>
日期:2023-05-06
【导读】程序员小哥给GPT-4连上手机摄像头,让它看到家里的物品,打造“智能管家”

回到家,刚进门,你对着空气说,“帮我看下家里还有哪些食材,出个今晚的菜谱。”家里的“智能管家”立即回答了你,还帮你把菜谱投屏了出来……

这样的情景,是不是在不少科幻片里见过?如今,类似的“AI智能管家”可能就要实现了。

最近,国外一位热衷于AI的程序员小哥,成功让手机摄像头成为了ChatGPT的最新版本——GPT-4的“眼睛”,打造出了一款能看到现实空间的AI助手(AI assistant)……↓

(视频)

这位程序员小哥叫麦凯·瑞克利(Mckay Wrigley),4月27日,他在推特上发布视频并写道:

“我让GPT-4拥有了眼睛。我是这样操作的:给视觉模型添加了一些数据;给AI摄像头访问权限;问它一些关于场景的问题;它识别物体;它在网上搜索信息使用该信息准确回答。”

An AI developer has hacked his iPhone to become the eyes of GPT-4, turning his iPhone into an all-seeing AI-powered assistant.


视频里,小哥介绍道,自己采用了一些软件。比如,他用视觉模型YOLOv8来检测和识别物体;用OpenAI公司的语音自动识别系统Whisper来检测自己说的话,并把语音转换成文字,输入给GPT-4。而GPT-4写出来的文字,会由AI语音生成器自动读出来。此外,他还使用了谷歌搜索引擎及Python编程。


就这样,GPT-4既能说话,也能看见了。

YOLOv8官网截图


OpenAI介绍语音自动识别系统Whisper的网页截图


Mckay Wrigley took to Twitter this week to reveal how he had created an AI assistant that can see using his iPhone.

Wrigley used a wild combination of software, YoloV8 for object detection, a vision model, GPT-4 for the AI, OpenAI Whisper for voice, Google Custom Search Engine, and Python, hacked together "in a fun way."

小哥表示,创建出这款应用比看起来要“简单100倍”,他还兴奋的说,“这就是世界很快就会变成的样子”。

He says it was "100x easier" than it looks to create and that "this is what the world will soon look like."

5月3日,小哥发布了他的“GPT之眼”的最新演示(demo)视频,并激动宣布:“未来就在眼前(The future is here)!”


这个演示视频可以说相当“科幻”了↓

(插入视频again)


“请记住,眼前这个AI没有任何先验知识,它只能通过摄像头来获取信息。” 小哥在视频开头说,“大家可以看到,屏幕上的这些框就是它在识别物体。它还会从互联网上搜索信息。”

“Keep in mind that this AI, it has no prior knowledge of anything. It will only get information from the camera, see all these boxes doing object detection, and from the information it can search on the internet.”


接下来,小哥按下运行按钮,GPT-4立即用女声说:“我有什么能帮您的吗?(What can I help you with? )”

小哥问:“什么是生酮饮食(keto diet)?” GPT-4回答说:“生酮饮食是一种低碳水化合物、高脂肪的饮食。它可以降低血糖和胰岛素水平,并使身体的新陈代谢从碳水化合物转向脂肪和酮类。”


“The keto diet is a low carb, high fat diet. It lowers blood sugar and insulin levels, and shifts the body's metabolism away from carbs and towards fat and ketones.


小哥接着说:“好的。我想知道,如果我给你看一些食物,你能告诉我哪些属于生酮食物吗?”


“All right, I want to know if I show you food that I have, can you identify which food is keto?”


GPT-4答道:“当然。给我看看你的食物,我能告诉你哪些是生酮食物。”


“Sure. Show me your food, and I'll tell you what is a keto food.


之后,小哥打开冰箱,用很快的速度拍摄了冰箱里的牛油果、牛排、橙子、柠檬、酱料等食物。


视频可见,即便小哥拍得很飞速,这些物品都被检测到,并框了起来。

之后,小哥关上冰箱,对大家解释说:“当我关上冰箱的时候,它就明白我不想继续展示了,然后它应该就能开始处理信息了。”


“And when I turn away from the fridge, it's gonna know that we're not looking at the fridge anymore, and it should be able to process this.”


过了几秒钟,GPT-4说:“看起来,你家里有牛排、菠菜、黄油、牛油果和柠檬。这些都是很棒的生酮食物。”

“It looks like you have steak, spinach, butter, avocados, and lemons. Those are all great keto foods.”


小哥接着指示GPT-4:“我想让你在网上搜索一个使用这些食材的菜谱,这样我就可以做晚餐了。”


“I want you to search the internet for a recipe that uses those ingredients so that I can make dinner.


GPT-4连网搜索了一会儿后回答:“我搜到一个叫《15分钟快手柠檬大蒜黄油牛排配菠菜》的菜谱,用到了你有的食材。” 并在屏幕上给出了菜谱的网页链接。


之后,小哥点进GPT-4给的菜谱网页,发现不是很完美,因为里面也用到了他冰箱里没有的食材。

视频截图中GPT-4搜索到的菜谱


不过,小哥对于这个“GPT之眼”还是颇为满意。他表示,这还不是一个完整的产品,只是一个演示,对于一个自己刚刚搞出来的东西,效果已经令人印象深刻了。

小哥还说,他非常期待苹果公司今年夏天即将推出的AR眼镜。如果搭配上AI,或许能开发出来更酷的东西。

看来,我们离科幻片中的世界,又近了一步……


综合来源:@mckaywrigley,iMore网,英国那些事儿

分享到


联系我们  |  诚聘英才  |  演讲比赛  |  关于我们
© i21st.cn   京ICP备2024066071号-1