城市计算 AI 挑战赛 - 算法选择入门

算法选择

数据量大于 50(>50 samples)
Yes
预测类别(predicting a category)
No
预测数量(predicting a quantity)
Yes
数据量小于 100K(<100K samples)
这个问题比较难回答, 整体数据有大于 100K, 数据简化整理以后, 发现数据远远小于 100K. 暂定回答为 Yes
有一些特征很重要(few features should be important)
问题太抽象,不懂. 先回答 No 吧
线性支持向量机(SVR(kernel="linear"))
就先选定它吧, 参考文档

特征选择

第一个版本, 先选择简单点. IN,OUT 和星期几, 和当前的时间, 站点 ID 有关
特征:
-- 特征输入
星期几, 时间(小时, 分钟), 站点 ID
-- 结果输出
IN, OUT

数据准备

train_result = train.groupby(['stationID','wkday','days','hours','minutes'])['status'].sum().to_frame('inNums').reset_index()
train_result['outNums'] = train.groupby(['stationID','wkday','days','hours','minutes'])['status'].count().values
train_result['outNums'] = train_result['outNums'] - train_result['inNums']

import numpy as np
test_data = train_result.loc[:,['stationID', 'wkday', 'hours', 'minutes']]
test_data = test_data.values

test_target = train_result.loc[:,['inNums']]
test_target = test_target.values
test_target = test_target.reshape(test_target.size)

from sklearn.model_selection import train_test_split
test_data_A, test_data_B, test_target_A, test_target_B = train_test_split(test_data, test_target, test_size=0.1, random_state=0)

SVR

from sklearn import svm

clf = svm.SVR(kernel='linear')
clf.fit(test_data_A, test_target_A) 

pred = clf.predict(test_data_B)
pred = pred.astype(np.int64)

评估答案

平均绝对误差: 84.7, 成绩一般, 符合预期吧, 再想办法进一步改进.

# 用mean_absolute_error, 评估答案
from sklearn import metrics
import matplotlib.pyplot as plt
plt.figure(figsize=(24, 13))

plt.plot(range(0,len(pred)), pred - test_target_B)

metrics.mean_absolute_error(test_target_B, pred)

城市计算 AI 挑战赛 - 提交结果

一直以为要提交代码, 原来只需要提交答案就好. 居然我拿了个第一(新人赛几个人玩), 有图为证. 主要代码 # 部分数据准备的代码在前篇以介绍 from sklearn import svm def get_clf(data, target): in_clf = svm.SVR(kernel='linear') in_ ..

城市计算 AI 挑战赛 - 数据基本分析

新人赛, 没有奖金, 尝试看看自己短期可以达到什么成绩. 也从如下三个方向历练学习: 了解一下整个天池的流程. 学习 numpy, pandas, matplotlib 的使用学习一些基本的机器学习算法比赛题目大赛以“地铁乘客流量预测”为赛题，参赛者可通过分析地铁站的历史刷卡数据，预测站点未来的客流量变化比赛数 ..

天池实验室 - 新人入门

最近准备尝试 AI 比赛, 决定试试天池的新手赛入门. 如下简单记录环境搭建. 目录环境 # 查看数据文件目录ID !ls datalab/ # 查看个人永久空间文件ID !ls /home/myspace/ 解压数据通过如上命令, 可以查到数据的目录 ID(例如: 231712)和个人空间 ID(例如: 10952 ..

AI 绘图：不破楼兰终不还（附提示词）

杰作, 最好的质量, 8K, 复杂的细节, 超详细, 超品质, 高细节, 超详细, 沙尘暴,沙尘暴淹没古城，敦煌，楼兰，中式古城，沙漠, 黄沙,末日，灾难，中式城楼，中式楼阁, 阳光明艳, 光线, 宝塔, 最好的质量, 高清,高分辨率。 [图片] [图片] [图片] [图片]

AI 绘画：少女感头像 (附提示词)

提示词：最好的质量, 杰作, 高解析度, 1 个女孩, 连衣裙, 精美发饰, 漂亮的项链, 精细珠宝, 漂亮的脸蛋, 丁达尔效应,, 光影, 边缘照明, 双色照明, 高细节皮肤, 8k 超高清, 相机效果, 柔光, 高质量, 4K, 8K, 背景模糊 [图片] [图片] [图片] [图片] [图片] [图片]

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于