开源AI工具Mobile-Use
「Mobile-use」是什么?
它是一款开源的AI代理工具。可以通过自然语言控制Android和IOS设备。理解我们的自然语言指令,然后自动操作UI界面,来完成任务。同时支持不同的大语言模型,可以快速部署使用,大大提高我们操作手机端的效率。
一、为什么我们要用Mobile-Use?
在日常工作中,经常会遇到一些重复的手动工作内容,这些工作内容可能是在Web的浏览器中进行,也有可能是在手机端进行。为了提高这些重复的手动工作内容,我们经常会去寻找一些自动化的工具来帮助我们去完成。比如之前推荐的Web端AI工具开源AI工具Midscene.js、开源工具ChromeMCP、开源AI工具Nanobrowser、开源AI工具BrowserOS。都是通过自然语言对浏览器进行自动化操作,来完成我们预定的任务。
今天推荐的这个工具主要是,通过自然语言来操作Android或者iOS手机进行自动化操作,帮助我们来完成,日常工作中一些重复的手动内容,大大提高工作的效率。
二、核心功能包括哪些?
1、自然语言输入:
支持通过自然语言给手机发送指令,就像是跟好朋友聊天一样,把你想要做的事,跟他说出来,他就会帮助你完成。成为你工作中的得力小帮手。
2、支持操作多应用:
不仅支持单个APP的操作,还支持多APP的操作,可以理解和解析屏幕上的UI元素,而不是依赖坐标定位,让你可以更智能地浏览不同的应用界面。
3、支持数据抓取:
支持从任何应用中提取数据,并且可以通过自然语言描述将其转化为我们所需要的结构化格式。
4、支持多种AI模型:
支持配置多种不同的LLM模型,如Qwen等,方便快捷配置。
三、应用场景
1、日常自动化操作:
可以帮助我们发送消息、设置提醒,完成日常重复性的操作,提高工作的效率。
2、提取数据:
可以提取各类新闻信息,并转化为Json格式或者CSV格式,大大提高了收集信息的效率。
3、对于技术人员:
可以应用在开发和测试中,自动帮助我们进行操作APP页面,来验证开发的应用是否正确。
4、多APP协同:
可以串联多个APP的操作,来完成复杂的工作流程,提高工作的效率。
四、如何部署?
部署方式:
准备一台Android手机,并且打开开发者模式和USB调试模式,然后通过USB连接到电脑上。
1、克隆代码、设置环境变量
git clone https://github.com/minitap-ai/mobile-use.git && cd mobile-use
cp .env.example .env
2、配置大模型的APIKEY
OPENAI_BASE_URL=xxxxxxxxxxxxx
OPENAI_API_KEY=your-api-key-here
3、启动项目
# 对于 Linux/macOS:
chmod +x mobile-use.sh
bash ./mobile-use.sh \"Open Gmail, find first 3 unread emails, and list their sender and subject line" \--output-description "A JSON list of objects, each with 'sender' and 'subject' keys"# 对于 Windows
powershell.exe -ExecutionPolicy Bypass -File mobile-use.ps1 `"Open Gmail, find first 3 unread emails, and list their sender and subject line" `--output-description "A JSON list of objects, each with 'sender' and 'subject' keys"
五、项目地址
https://github.com/minitap-ai/mobile-use