01 数分Prompt设计举例
Prompt在数据分析中的作用非常重要,特别是在使用ChatGPT辅助数据分析工作时。
Prompt可以被看作是向模型提供的任务说明或问题,它能够引导模型按照我们期望的方式进行工作。
一个好的prompt可以明确指示模型执行具体的任务,例如进行数据清洗、数据可视化、统计分析等,并能够提供足够的上下文信息帮助模型理解任务的需求和目标。通过使用优秀的prompt,我们可以更高效地利用AI技术来协助我们的数据分析工作,大幅提升工作效率,同时也能帮助我们更深入地理解数据,从而得出更有价值的洞见。因此,学习如何编写有效的prompt是进行数据分析工作的重要技能。
下面将通过数据分析工作中的几个常见任务来分别给出示例,演示如何正确、高效使用Prompt。
1. 形成分析思路
❌【较差版本的prompt】:
"我需要找出销量最高的产品。"
✅【较好版本的prompt】 :
"我有一个含'product_id','order_id','purchase_date'和'sales_volume'等字段的销售数据库。我想找出在过去一年内销量最高的十种产品。请帮我构建一个数据分析思路来进行这项工作。"
【两个版本的差异】: 较好版本的prompt明确了所需的数据库字段、时间范围以及具体的分析目标,使模型有更多的信息可以生成具体的分析思路。
2. 构建指标体系
❌【较差版本的prompt】:
"我需要一些电商指标。"
✅【较好版本的prompt】:
"我正在为一家电商网站构建一个业务指标体系,包括了用户行为、销售绩效、市场营销效果等方面的指标。请帮我列出每个方面下可能包含的几个关键指标。"
【两个版本的差异】: 较好版本的prompt明确了需要电商的哪几个方面的指标,使模型可以根据这些方向提供更具体的指标。
3. 数据清洗
❌【较差版本的prompt】:
"我需要进行数据清洗。"
✅【较好版本的prompt】:
"我有一份包含用户年龄、性别、购买记录等信息的数据,但我注意到其中有些年龄数据存在负数,有些购买记录数据为空。请帮我规划一下数据清洗的流程,包括如何处理这些异常数据,以及我应该注意哪些可能的数据质量问题。"
【两个版本的差异】: 较好版本的prompt详细描述了数据的具体情况和存在的问题,使模型可以给出更具体的数据清洗策略和注意事项。
4. 完成SQL代码
❌【较差版本的prompt】:
"我需要查询用户的购买信息。"
✅【较好版本的prompt】:
"我有一个'orders'表,包含'user_id', 'product_id', 'purchase_date', 'amount'等字段。我想查询出在过去30天内购买金额超过500的用户的列表,并按照购买金额降序排序。请帮我写出对应的SQL代码。"
【两个版本的差异】: 较好版本的prompt提供了明确的表字段、查询条件以及排序要求,使模型可以生成更精确的SQL代码。
5. SQL性能优化
❌【较差版本的prompt】:
"我需要优化我的SQL查询。"
✅【较好版本的prompt】:
"我正在运行一个查询,它包含多个联接和子查询,并且查询时间很长。我在'user'表和'order'表之间进行了联接,然后在结果中进行了聚合操作。请帮我提供一些优化此查询性能的策略或建议。"
【两个版本的差异】: 较好版本的prompt详细描述了查询的具体情况,使模型可以给出更具体的优化建议。
6. 统计学分析
❌【较差版本的prompt】:
"我需要进行一些统计分析。"
✅【较好版本的prompt】:
"我想对我们网站的用户年龄进行描述性统计分析,包括计算年龄的平均值、中位数、分位数、最小值、最大值以及标准差。并希望能理解年龄和用户购买金额之间的关系,需要进行相关性分析。请帮我设计一个分析流程。"
【两个版本的差异】: 较好版本的prompt提供了具体的统计分析需求和数据内容,使模型能够生成更具体和有针对性的分析建议。
7. 数据可视化
❌【较差版本的prompt】:
"我需要进行数据可视化。"
✅【较好版本的prompt】:
"我正在分析一个包含用户购买行为数据的数据集,我想对用户的购买金额分布和购买金额与购买次数的关系进行可视化展示。请帮我选择合适的可视化图表类型,以及如何设计图表以使信息展示得更清晰易懂。"
【两个版本的差异】: 较好版本的prompt提供了具体的可视化目标和数据情况,使模型可以给出更具体的可视化建议。
8. AB Test 结果分析
❌【较差版本的prompt】:
"我需要进行AB测试的显著性检验。"
✅【较好版本的prompt】:
"我进行了一次AB测试,A组有500人,其中有200人完成了购买行为;B组有550人,其中有250人完成了购买行为。我想知道B组的转化率是否显著高于A组,需要进行显著性检验。请帮我设计一个检验流程,包括使用哪种统计检验方法,如何进行计算,以及如何解读结果。"
【两个版本的差异】: 较好版本的prompt提供了具体的AB测试数据和目标,使模型可以生成更具体和有针对性的显著性检验方法和步骤。
9. 完成分析报告
❌【较差版本的prompt】:
"我需要写一个分析报告。"
✅【较好版本的prompt】:
"我已经完成了对用户年龄和购买行为的关系的分析,发现年龄和购买金额之间存在中等程度的正相关性。请帮我撰写一个分析报告来呈现这个发现,包括报告的背景、方法、结果和讨论等部分。"
【两个版本的差异】: 较好版本的prompt提供了具体的分析结果以及报告的结构要求,使模型可以生成结构清晰、内容完整的分析报告。