0 minutes to go
  • 168 Participants
  • 1202 Submissions
  • Competition Ends: Aug. 21, 2021, 4 p.m.
  • Server Time: 4:19 a.m. UTC

概述

背景

随着电子商务与全球经济、社会各领域的深度融合,电子商务已成为我国经济数字化转型巨大动能。庞大的用户基数,飞速发展的移动互联网行业,让中国成为全球电子商务规模最大、发展最快的国家之一。大数据、云计算、人工智能、虚拟现实等数字技术为电子商务创造了丰富的应用场景,不断催生如直播带货、推荐平台、农村电商、新国潮、新文创、在线生鲜等新营销模式和新商业业态。

为运用人工智能技术提升用户体验,解决电商企业痛点、难点问题,助力人工智能领域优秀人才的培养,在商务部电子商务和信息化司、北京市商务局指导下,首届电子商务AI算法大赛(ECAA)开幕。

本次比赛提供消费门户网站“什么值得买”2021年1月-2021年5月真实平台文章数据约100万条,旨在根据文章前两个小时信息,利用当前先进的机器学习算法进行智能预估第三到十五小时的文章产品销量,及时发现有潜力的爆款商品,将业务目标转化成商品销量预测,为用户提供更好的产品推荐并提升平台收益。

 

大赛日程

一、宣传招募
1.招募:2021年7月15日开始,目前持续招募中

二、线上比赛阶段
1. 初赛时间:2021年8月1日0:00:00--2021年8月19日23:59:59(北京时间) 
2. 复赛时间:2021年8月20日0:00:00--2021年8月21日23:59:59(北京时间) (请注意比赛平台显示时间为UTC)
3. 评审方式:本次比赛将分初赛和复赛两个阶段进行,初赛阶段每个参赛队每天可以进行5次结果提交,复赛阶段选手只允许进行1次结果提交。为防止参赛队伍对测试数据过拟合,本次比赛将由专家将测试数据切分为A/B两份(A榜30%,B榜70%),在对结果进行评分排名时,初赛阶段仅显示A榜的评分排名,复赛阶段则用B榜的数据生成最终排名和分数。其中入围决赛的队伍将在8月22日以邮件方式通知。

注:每支队伍参赛人数上限为5人。

 

三、总决赛暨服贸会中国电子商务大会
1、时间:2021年9月3日下午
2、举办地:北京国家会议中心
3、评审方式:邀请线上排名前5的比赛队伍到服贸会电商大会现场,以PPT形式从算法技术、模型效果、赋能电商行业的价值等角度介绍解决方案(具体要求另行通知),现场将邀请5-6位行业和技术专家进行提问、点评和打分。最终采用线上分数占比60%,线下分数占比40%的方式,现场评审出最终排名。

四、奖项设置

  冠、亚、季军各1名,创新突破奖2名。总奖金16万元人民币,其中冠军队伍奖金8万元,亚军队伍奖金4万元,季军队伍奖金2万元,创新突破奖1万元。

五、组织架构

  (一)大会主办单位:商务部、北京市人民政府

  (二)支持单位:商务部电子商务和信息化司、北京市商务局

  (三)承办单位:北京电子商务协会、第四范式(赛事运营)、亿邦动力

  (四)战略合作伙伴:值得买科技、零点有数

  (五)高校及海外学会合作伙伴:清华大学、南京大学、上海交通大学

备注:

请登录本平台,点击本比赛页面My Submissions Tab选择注册本次比赛。随后我们将通过注册邮箱通知您与本次比赛相关的所有内容。

Get Started Tab下有参赛所需的比赛详细介绍、数据链接、baseline等信息。

选手不得泄露数据,也不能通过人工打标、使用外部数据进行比赛,否则将诉诸法律程序。

 


 

比赛结果(Top 5)

选手ID  线上实际成绩  评委打分 最终成绩 选手开源代码
ji1ai1 100  96.855  98.742 https://github.com/ji1ai1/202108-ECCA
Ethan 96.1809045 100  97.7086   https://github.com/cXPromise/2021ECAA_Top2_Solution
 look_alive   84.6231156  77.49  81.7698 https://github.com/hzs-ai/Digital-Marketing-Sales-Prediction-Competition-DMSPC-Third-Solution
hongyi  71.5577889   67.66   70.0012   https://github.com/oio328oio/2021ECAA_TOP4_Solution
Yetta 60 60 60 https://github.com/YeYeYetta/ECAA_Yetta

 

Top 5 选手的讲解PPT及讲解视频:https://drive.google.com/drive/folders/1WLK3Dq6HMTB7Y34dt5b_jqc0Rg0jevNr?usp=sharing

Quick Start

可以尝试以下开源自动机器学习算法包 获取baseline效果。

autox

1. git clone https://github.com/4paradigm/autox.git
2. cd autox
3. python setup.py install
4. cd demo
5. 执行zhidemai_autox.ipyib

autogluon

1. 安装autogluon,参考链接: https://auto.gluon.ai/stable/install.html
2. 获取zhidemai_autogluon.ipynb: https://github.com/4paradigm/autox/blob/master/demo/zhidemai_autogluon.ipynb
3. 执行zhidemai_autogluon.ipynb

h2o

1. 安装h2o,参考链接:https://h2o-release.s3.amazonaws.com/h2o/rel-zipf/4/index.html
2. 获取zhidemai_h2o.ipynb: https://github.com/4paradigm/autox/blob/master/demo/zhidemai_h2o.ipynb
3. 执行zhidemai_h2o.ipynb

效果对比:

 ---  AutoX  AutoGluon  H2o 
 mse  1.1426  1.9466  1.1927

 

将生成的比赛结果文件打包,如sample_submission.csv.zip,点击Upload a Submission,上传至比赛平台获取评分。

注:每人每天有5次上传比赛结果的机会。

Competition Setup

比赛赛题介绍

数据集下载:链接: https://pan.baidu.com/s/1qqBzeS_KxaGXNIWGXRDjHw 提取码: kb3d 

链接2:https://drive.google.com/file/d/1huxLrFntY0Mly5VySH_d1K1bIeb0iJRO/view?usp=sharing

注:百度网盘限制,一段时间内会将链接无效掉。如无法下载请联系主办方邮箱(heyuxuan@4paradigm.com)。

数据规模和内容覆盖

2021年1月-2021年5月平台文章信息,该数据进行了采样,且所有字段进行了加密。数据量大概100万条。

数据 Schema

字段名称 Field name字段类型 Field type字段说明 Field description
article_id int 文章id
date int 当前样本是第几天的
price int 文章商品价格
price_diff int 与上一次价格差
author int 文章作者
level1 int 文章一级品类
level2 int 文章二级品类
level3 int 文章三级品类
level4 int 文章四级品类
brand int 文章品牌
mall int 商城,比如京东、天猫等
url int 文章url id,对应第三方链接,等同第三方sku
baike_id_1h int 文章前1个小时对应的商品id
baike_id_2h int 文章前2个小时对应的商品id
comments_1h int 文章前1个小时评论数
comments_2h int 文章前2个小时评论数
zhi_1h int 文章前1个小时值数
zhi_2h int 文章前2个小时值数
buzhi_1h int 文章前1个小时不值数
buzhi_2h int 文章前2个小时不值数
favorite_1h int 文章前1个小时收藏数
favorite_2h int 文章前2个小时收藏数
orders_1h int 文章发布后前1个小时的销量
orders_2h int 文章发布后前2个小时的销量
orders_3h_15h int 文章发布后3个小时到15个小时内的销量,训练集会直接提供,测试集为空,需要预测

 

其中包含了

data
    - train.csv #训练数据
    - test.csv #测试数据
    - sample_submission.csv #样例预测文件
    - sample_submission.csv.zip #样例提交文件

初赛、复赛线上评分排名规则

初赛、复赛线上采用Mean squared error(MSE)进行评分排名,MSE越小排名越高,其中,MSE的定义如下:

 

W55Y59.png

其中,ytrue是真实销量,yPredict是预测销量,nsamples是样本数。其中,初赛线上排名使用了30%的测试数据,复赛线上排名使用了剩余70%的测试数据。

初赛阶段

Parent:

Start: July 31, 2021, 4 p.m.

Description: phase1 description

复赛阶段

Parent:

Start: Aug. 19, 2021, 4 p.m.

Description: phase2 description

Competition Ends

Aug. 21, 2021, 4 p.m.

You must be logged in to participate in competitions.

Sign In