← 返回题库
中级

生成Top10相关性字段的数据质量报告

未完成
中级参考 代码结构已给出,请填写 ____ 处
def solve():
    from pyodide.http import open_url
    from io import StringIO
    loans_raw_csv = open_url(____).read()
    import pandas as pd
    from io import StringIO
    df = pd.read_csv(StringIO(____))
    num_cols = df.select_dtypes(____).columns.drop(____).tolist()
    rows=[]
    for col in num_cols:
        rows.append({'____':col,'____':round(df[col].isnull().mean(),____),'____':df[col].nunique(),'____':round(df[col].corr(____),____)})
    rdf = pd.DataFrame(____)
    top10 = rdf.assign(abs_corr=rdf['____'].abs()).nlargest(____,'____')[['____','____','____','____']]
    print(top10.to_string(____))

示例

输入
solve()
期望输出
column  missing_rate  nunique  corr_with_default
      interestRate        0.0000      439             0.2450
              term        0.0000        2             0.1864
      ficoRangeLow        0.0000       38            -0.1063
     ficoRangeHigh        0.0000       38            -0.1063
               dti        0.0001     3225             0.0862
               n14        0.0510       18             0.0852
          loanAmnt        0.0000      879             0.0837
verificationStatus        0.0000        3             0.0812
       installment        0.0000     6369             0.0668
                n2        0.0510       29             0.0617
Python 代码 🔒 登录后使用
🔒

登录后即可练习

注册免费账号,在浏览器中直接运行 Python 代码