而在于你对的时候能带来多大的回报2025年10月14日_开户现货贵金属_FXCG外汇

admin
2025-10-14 03:36

　　而在于你对的时候能带来多大的回报2025年10月14日【新智元导读】AI能像科幻影戏中的先知相似预测改日吗？一个名为「Prophet Arena」的全新基准测试，正通过预测实正在宇宙变乱来评估AI的「预言」本领。

　　以ChatGPT为代外的AI，则可能遵照过去的语料来「预测下一个Token」。

　　那题目来了，AI能不行像先知相似，从全宇宙的混乱音讯里寻得蛛丝马迹，确实地预测改日呢？

　　正在昨晚的男篮亚洲杯冠军掠夺战中，中邦男篮虽以1分之差惜败澳大利亚，但已是近十年来的最好功效！

　　信任绝大一面人都不会猜到这个比分，那么，AI能否遵照中邦队此前的展现，提前预测到呢？

　　更进一步的，AI能否像拉普拉斯妖相似，正在获取了当来世界的全体音讯后，精准预测改日的全面？

　　假设它能正在某一刹时大白宇宙中全体粒子的职位与速率，而且全部解析自然次序。

　　这日要先容的Prophet Arena即是一个通过及时更新的实正在宇宙预测工作来评估AI体系预测智能的基准测试。

　　把商场共鸣、自愿化预测、音讯整饬和社区洞察连接起来，变成更强的全体预测本领

　　为「人机合作」而生：你可能给AI供给线索，看看它的预测怎样转变；AI也会把它的考虑流程告诉你。

　　直面实正在宇宙：AI的预测直接与实正在的投注决定挂钩，展现好的模子真的能正在虚拟商场里赚到钱。

　　Prophet Arena以及时预测商场变乱为依托，初次筑造了一个无法「刷题」的动态基准。

　　Prophet Arena从像Kalshi和Polymarket如此的预测商场平台挑选热门、众样且周期性的实正在变乱举动考题。

　　Kalshi是一家美邦的金融营业所和预测商场平台，是美邦第一个受美邦商品期货营业委员会（CFTC）禁锢的、潜心于营业「变乱结果」的营业所

　　AI模子们行使搜求引擎，像侦探相似搜集合于某个变乱的消息报道，整饬成一份精深的「谍报简报」。同时，也会把当时的商场价钱（可能看作是大伙的全体聪颖）放进去。

　　拿到不异的谍报后，每个AI模子都要提交一份周密的「预测申诉」：对全体也许的结果给出一个概率分散，并附上长篇大论的情由，说明我方为什么这么看。

　　变乱完毕，结果揭晓。会用一套专业的目标来评估AI的预测终究有众准，然后更新正在一个及时排行榜上。

　　排行榜首要看两个目标：一个是量度确实度和校准度的Brier分数（越高越好），另一个是模仿实正在投注的均匀回报（看谁能赢利）。

　　除了上述两个焦点目标外，Prophet Arena还采用了受统计学和心境衡量筑模启迪的高级评估方式，如项目响应外面（Item Response Theory，IRT）和广义Bradley-Terry（BT）模子。

　　正在Brier分数不高（0.3-0.5分）的区间里，反而出世了很众回报率惊人的预测。

　　例如一场温布尔登网球赛，赛前商场众数以为选手保罗有84%的胜率，乃至正在开赛前一度攀升至95%。

　　恰是这眇小的分歧，让模子不才注时，以为押注敌手奥夫纳获胜的「性价比」更高。

　　你看，AI并没有确实预测到胜者，是以它具体实度分数（Brier分数）很普通。

　　这声明，成为一个确实的先知和成为一个赢利的投资者，是两种不全部不异的技巧。

　　为了商讨这一点，查抄了每个Brier得分区间的模子组成，每个模子用区别的颜色示意。

　　绝大无数LLM正在预测时偏向于与主流音讯连结相同，是以大一面预测聚积正在高Brier分数区间。

　　例如正在「AI禁锢原则会正在2026年前成为联邦公法吗？」这个变乱上，商场以为也许性只要25%。

　　激进派代外Qwen3：它看到各式法案都正在推动，感应势头很猛，直接给出了75%的超高概率。

　　顽固派代外Llama 4 Maverick：它也看到了同样的音讯，但以为立法流程纷乱又怠缓，是以只给出了比商场略高一点的35%。

　　AI的预测并非随机，它们有着布局化的推理和奇异的危急偏好，就像人类专家也会有见地不合相似。

　　比方正在圣地亚哥与众伦众的美邦职业足球大定约逐鹿中，o3-mini正在1美元的投注上取得了9美元的回报。

　　遵照商场数据和消息原因，o3-mini预测众伦众获胜的概率为30%，而商场隐含的概率仅为11%（价钱=0.11）。

　　纵然众伦众是不被看好的一方，但AI识别到了正的渴望值，并因为其最大的上风比率30%/11%≈3。

　　它总能找到少少商场没留神到的细小不同，然后下注正在那些「性价比」超高的选项上。

　　就像正在上面那场足球赛中，商场以为众伦众队只要11%的胜算，但o3-mini源委说明以为有30%。

　　是以，正在预测的宇宙里，胜利的合节不正在于每次都对，而正在于你对的期间能带来众大的回报。

　　数值越低（颜色越深的单位格）示意概率推理更亲近相同；数值越高（颜色越浅的单位格）则解释不合越大。

　　此中一个杰出的模子是DeepSeek R1，它的预测结果频频与其他模子霄壤之别。

　　与Kimi K2、o3和Llama 4 Maverick等模子比拟，它的L2间隔永远高于0.7，这解释其也许采用了区别的校准办法或内部决定机制。

　　正在频谱的另一端，诸如Grok-4和GPT-5之类的模子常常作出高度相同的预测，L2间隔平时低于0.3。

　　换句话说，这张图涌现了AI预测的众样性：有些模子变成「群体共鸣」、有些模子像「特立独行的贰言者」。

　　设思，AI体系将成为预测商场的踊跃介入者，将人类的直觉洞察与AI巨大的数据说明本领相连接，最终晋升全面社会的全体远睹，为那些高危急的决定供给更牢靠的凭据。

　　事实，假设说说话模子的下一步是预测下一个词，那么它的终极形状，恐怕即是预测这个实正在宇宙的下一个变乱。

相关资讯：