中级
生成Top10相关性字段的数据质量报告
未完成
中级参考
代码结构已给出,请填写 ____ 处
def solve():
from pyodide.http import open_url
from io import StringIO
loans_raw_csv = open_url(____).read()
import pandas as pd
from io import StringIO
df = pd.read_csv(StringIO(____))
num_cols = df.select_dtypes(____).columns.drop(____).tolist()
rows=[]
for col in num_cols:
rows.append({'____':col,'____':round(df[col].isnull().mean(),____),'____':df[col].nunique(),'____':round(df[col].corr(____),____)})
rdf = pd.DataFrame(____)
top10 = rdf.assign(abs_corr=rdf['____'].abs()).nlargest(____,'____')[['____','____','____','____']]
print(top10.to_string(____))
示例
输入
solve()
期望输出
column missing_rate nunique corr_with_default
interestRate 0.0000 439 0.2450
term 0.0000 2 0.1864
ficoRangeLow 0.0000 38 -0.1063
ficoRangeHigh 0.0000 38 -0.1063
dti 0.0001 3225 0.0862
n14 0.0510 18 0.0852
loanAmnt 0.0000 879 0.0837
verificationStatus 0.0000 3 0.0812
installment 0.0000 6369 0.0668
n2 0.0510 29 0.0617
👑
升级 VIP
解锁全部题目,畅通无阻地学习
- ✓ 解锁全部训练包所有题目
- ✓ 查看完整参考代码和提示
- ✓ 浏览器内直接运行 Python 代码
- ✓ 自动批改 + 进度追踪
30天
¥18
1年
¥99
2年
¥158
3年
¥199