![]()
做數(shù)據(jù)建模最煩的不是代碼寫崩,是甲方遞過來一張Excel,里面只有7行樣本。7行,連訓(xùn)練集都湊不齊,項(xiàng)目就得卡在這兒。
有個(gè)開發(fā)者用numpy和pandas隨手搓了個(gè)生成器,按客戶畫像的分布規(guī)律批量造數(shù)據(jù)。年齡、消費(fèi)頻次、地域標(biāo)簽全帶合理噪聲,不是那種一眼假的123456。甲方拿到10萬條測試集,愣是沒分出真假,「比我們從系統(tǒng)里導(dǎo)的還干凈」。
這事在GitHub上被fork了800多次。有人拿它測風(fēng)控模型,有人用來填演示系統(tǒng)的窟窿。最損的一個(gè)用法是:給領(lǐng)導(dǎo)匯報(bào)前先跑一遍,確保PPT里的增長曲線不會(huì)露出馬腳。
工具本身沒門檻,pandas的DataFrame拼接numpy的隨機(jī)分布,再加幾行業(yè)務(wù)規(guī)則校驗(yàn)。難的是你得知道真實(shí)數(shù)據(jù)長什么樣——分布偏斜、異常值比例、字段間的勾稽關(guān)系,這些才是讓假數(shù)據(jù)"活"起來的細(xì)節(jié)。
原作者在issue區(qū)補(bǔ)了句:「別拿這個(gè)去騙投資人,他們現(xiàn)在也會(huì)查IP歸屬地了。」
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.