终于，AI产品上线测试了

时间：2024-04-24

王俊煜

跨年的那个夜晚，我自己一个人在办公室沉迷工作。等到想起来要看一下时间的时候，发现离2024年只剩4分钟了。打开B站的跨年晚会，刚好赶上倒数，屏幕里塞满了快乐的年轻面孔，看起来对新的一年充满了期待。那一刻我想，视频直播这种同步的媒介，相对于文字而言，还是更容易在此时此刻让人感受到连接吧。

于是就这样，进入了2024年。

新年到来之前，我们完成了两项工作。其一，我们给阅览室的创始读者们发了一封邮件，交代了阅览室“毫无进展”的2023年，以及谈论了关于2024年的想法。我们在12月花了两个周五下午来聊这些问题，再通过录音整理出来，其中的核心内容在上一期的专栏中已经向各位读者介绍过了，邮件发送给创始读者的是更详尽的对谈记录。

过去这一年我们“毫无进展”，创始读者不时会在群里面询问进展，语气总是感觉很无奈。11月初，群中发生了一些比较激烈的讨论，有一位一直很活跃的创始读者批评，遇到问题为什么不努力去解决？即使解决不了也应该和大家沟通，而不是“摆烂”。这个道理本身我很认同，我以前也常常这么说别人。将“毫无进展”看作一个结果，我不觉得愧疚；但“不努力”和“摆烂”是关于过程的，这两个标签被贴到自己身上，我还是感到愧疚的。

现在，既然力气“完全恢复”了，那就可以去面对这些难题了，也可以去做更透明的沟通。

“完全恢复”这四个字也出现在了我们的对谈稿中，发布前我们就这几个字有一些讨论。真的“完全”恢复了吗？我想，如果我们自己觉得完全恢复了，那就是完全恢复了。而且，重要的是，也应该按“完全恢复”来要求自己。

第二个工作，是我们的第二个AI产品原型也上线测试了。

这里面其实有一些节奏把握的问题。我们现在进入上线测试阶段的AI产品原型共有两个，之前一个是在8月中旬上线的。由于产品质量还没有达到我们认为可以公开发布的标准，所以都还停留在隐姓埋名的测试阶段。本来应该在第一个产品正式发布、从测试阶段“毕业”后，第二个产品才能进入测试，这样子两个产品所处的阶段可以有一些差异，管理时可以使用不同的脑子。但由于前一个产品的改进速度偏慢，造成了“追尾”。

现在我终于可以相信，自己一个人也可以发布一个产品了。

上一期《第一财经》杂志的封面报道对2023年AI行业的发展做了“周年全记录”，其中将AI产品分为了模型层和应用层。按这个分法，我一直关心的是面向消费者的应用层。常读本专栏的读者也一定知道，我一直期待在应用层能出现聊天之外的应用形态，也认为应当出现聊天之外的应用形态。所以，我自己探索的AI产品也是希望能在这个层面上有一些突破。

过去这一年，应用层能力的演进很快，但产品形态上的演进相对保守。消费者能接触到的最好用的产品还是ChatGPT，其他大厂或自研大模型的公司推出产品进都尽量向ChatGPT那并不完美的设计看齐。前两天我参加了一场大学同学的小聚会，十多个同学里待在学术界的和进入职场的大约各半，目前从事领域横跨哲学、经济学、城市规划、公共卫生、金融、投资、互联网、传媒、教育、影视……但饭桌上讨论最多的话题，竟然是ChatGPT。

第二个产品上线测试后，我大概花了一个多星期观察用户如何使用这个产品。需要特别说明一下，在测试版产品中，我们在很明显的位置提示了用户，使用记录可能会被人工评估，以便改进产品。这对产品改进的确是很重要的。现在有许多基础的分析工作已经可以由AI完成，大大提升了效率。在AI的帮助下，我们了解到用户在使用产品时会遇到几个很具体的障碍。这部分是因为我们希望通过最低的成本来验证猜想中的产品价值是否成立，开发的是所谓的MVP（Minimal Viable Product，最小可用产品），想尽可能在非差异化的体验上减少投入。在这件事情上，我们也算是做到了极致——可能有些过于极致了，以至于对用户使用造成了障碍。

比如，虽然我想探索的是聊天之外的产品形态，但出于成本考虑，目前产品仍然是通过在聊天应用中的一个“机器人”来落地的，用户通过给这个机器人发送消息来完成任务。我们并不希望用户和机器人对话，但由于身处一个聊天应用中，这个误会似乎很难避免。当我看到用户和机器人说“谢谢”时，反而觉得不是一件好事情，因为这个产品的最大价值是“快”和“随意”。想象一下，“文件传输助手”如果混入了情感的部分而不是被当作单纯的工具，是会影响这些价值的发挥的。如果不考虑成本，肯定开发一个App更好。但我们不能不考虑成本，所以还是通过文案等形式尽量引导用户改变预期。

说回那次聚会，大家在饭桌上的交流竟然也没有离开“提示词工程”。作为毕业二十多年后的一次聚会的主题，这实在有些出乎意料。如果仅通过我的大学同学这个样本来观察，会以为LLM今天在各行各业中的应用已经相当普遍了，因为他们似乎已经将AI看成自己日常工作中习以为常的工具了。我知道这不能代表真实的情况，但还是应该乐观，如果我们这群非技术背景的人也能如此使用AI，那AI成为所有人的工作伴侣将是一转眼间的事情，而不是未来。

不过，我的这群同学虽然大多不在技术行业，也没学习过相关专业（其中文科生更多一些），但他们具有乐意尝鲜的探索精神，这和普罗大众还是有一些区别。既然人们还需要学习所谓的“提示词工程”，适应AI的思维方式，那AI暂时还不是给普通人使用的。

我做应用层的工作也是希望解决这个问题，让普通人开箱即用。目前在线上测试的两个产品，在策略上恰好对应着我在2023年11月刊的本专栏中分享的两种市场切分模式：第一个产品找到了一个垂直人群，试图满足他们的通用场景需求；第二个产品，也就是前面讨论的这个产品，希望能进入大多数人都有的一个日常场景需求，成为那个场景中离不开的工具。

第一个版本的产品（还是测试版）遇到的问题总是很多的。我们一方面关注有没有什么不可逾越的问题（没有），另一方面，更值得关注的是，有没有機会给用户带来让人惊艳的体验？所以，我也重点关注了突破重重难关开始使用这个产品的用户的体验。从观察来看，我认为其中的一些用户还是可以感受到所谓的magic moment的，也就是你觉得这个产品最神奇、最与众不同之处。由于案例数量不够多，我还不能确定这个产品是否可以成为一个普通人离不开的工具，但也没有什么否定性的答案。所以我还是保持谨慎乐观，先努力解决了前面提到的影响用户使用的障碍再说。

豌豆荚最早的时候上线半年多仍乏人问津，每天打开的用户只有几十个，大概在很多人看来我早该放弃了。但我觉得，重要的还是弄明白为什么大家不来用。当时最突出的一个障碍，是我们的产品连接手机的成功率其实很低（那时候豌豆荚是在电脑上运行的，通过数据线将应用传输到手机上安装），即使产品能带来magic moment，这种基础问题得不到解决，产品也是0分。所以我们下功夫花了几个月解决这个问题，在这之后豌豆荚也的确迎来了爆发式的增长。

低成本的开发模式看起来带来了一些问题，但我仍然认为这是正确的做法。我们创新的重点在新的交互模式，不确定性极高，团队之间如果配合不好，反而迭代慢。

模型的能力限制不是做不出好產品的理由，历史上无数的伟大创新都是在今天难以想象的技术限制下发明的。拥有无限制的资源，反而容易绕开更难的问题。所以，和上期杂志中的一个看法相比，我认为应用层的突破仍然应该来自“低成本+小公司”。要做通用人工智能助手，应该连点成面，先从局部突破。入局后先努力追赶ChatGPT，我觉得也很无趣。

我和一些本身做大模型的人交流时，他们并不赞同这个看法。当然，这也许是因为大家拥有的资源不同——如果我自己也有一个大模型，说不准也会有不同的看法。其实我们也有很多看法是一致的：不管如何，都必须追求单个用户的使用频率。而且，度过了最早的产品与市场匹配阶段后，势必还是要在模型上投入的，否则很容易遇到产品能力的天花板。我最近很喜欢使用的Perplexity，也从用已有大模型“套壳”慢慢过渡到开始训练自己的大模型。

Perplexity的CEO在最近一次分享的时候理直气壮地说，大家别觉得“套壳”没有技术含量，这跟觉得交响乐团的指挥没有技术含量，觉得乔布斯对苹果不重要一样——虽然他们看起来什么都没有做。

当然，我们的“低成本”可能比一般的低成本还要更低。不管产品最后成不成功，至少这半年我个人的一个收获是，发现自己也是可以独立完成一个产品的工程工作的。当然，这也要感谢AI的帮助。创业十多年，似乎有两个彼此有些冲突的变化在同时发生：一方面，知道自己不知道的越来越多；另一方面，随着自己的技能树不断补全，又觉得自己能做的越来越多。一开始觉得自己只会做设计，不知道怎么建团队，做PR、品牌、营销、运营……随着将工程也纳入自己的技能范畴，现在我终于可以相信，自己一个人也可以发布一个产品了。