ARFF 檔案
ARFF 檔案(屬性 - 關係檔案格式)是 Weka 中使用的資料的最常見格式。每個 ARFF 檔案必須有一個標題,描述每個資料例項應該是什麼樣的。可以使用的屬性如下:
- 數字
實數或整數。
- 公稱
標稱屬性必須提供一組可能的值。例如:
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
- 字串
允許任意字串值。通常使用 StringToWordVector
過濾器稍後處理。
- 日期
允許指定日期。與 Java 的 SimpleDateFormat
一樣,這個日期也可以格式化; 它將預設為 ISO-8601 格式。
示例標題可以看作如下:
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
在標題之後,每個例項必須列出正確的例項數; 如果例項的屬性值未知,則可以使用 ?
。以下顯示了 ARFF 檔案中的例項集的示例:
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa