googleapis · sycai · Oct 23, 2024 · Oct 15, 2024 · Oct 15, 2024 · Oct 15, 2024
@@ -22,11 +22,12 @@
 """

 import abc
-from typing import cast, Optional, TypeVar, Union
+from typing import cast, Optional, TypeVar

 import bigframes_vendored.sklearn.base

 from bigframes.ml import core
+import bigframes.ml.utils as utils
 import bigframes.pandas as bpd


@@ -157,8 +158,8 @@ class SupervisedTrainablePredictor(TrainablePredictor):

    def fit(
        self: _T,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
    ) -> _T:
        return self._fit(X, y)

@@ -172,8 +173,8 @@ class UnsupervisedTrainablePredictor(TrainablePredictor):

    def fit(
        self: _T,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Optional[Union[bpd.DataFrame, bpd.Series]] = None,
+        X: utils.ArrayType,
+        y: Optional[utils.ArrayType] = None,
    ) -> _T:
        return self._fit(X, y)

@@ -243,8 +244,8 @@ def transform(self, X):

    def fit_transform(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Optional[Union[bpd.DataFrame, bpd.Series]] = None,
+        X: utils.ArrayType,
+        y: Optional[utils.ArrayType] = None,
    ) -> bpd.DataFrame:
        return self.fit(X, y).transform(X)

@@ -264,6 +265,6 @@ def transform(self, y):

    def fit_transform(
        self,
-        y: Union[bpd.DataFrame, bpd.Series],
+        y: utils.ArrayType,
    ) -> bpd.DataFrame:
        return self.fit(y).transform(y)
@@ -21,6 +21,7 @@

 import bigframes_vendored.sklearn.cluster._kmeans
 from google.cloud import bigquery
+import pandas as pd

 import bigframes
 from bigframes.core import log_adapter
@@ -101,7 +102,7 @@ def _bqml_options(self) -> dict:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
        y=None,  # ignored
        transforms: Optional[List[str]] = None,
    ) -> KMeans:
@@ -125,17 +126,20 @@ def cluster_centers_(self) -> bpd.DataFrame:

    def predict(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
    ) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def detect_anomalies(
-        self, X: Union[bpd.DataFrame, bpd.Series], *, contamination: float = 0.1
+        self,
+        X: Union[bpd.DataFrame, bpd.Series, pd.DataFrame, pd.Series],
+        *,
+        contamination: float = 0.1,
    ) -> bpd.DataFrame:
        """Detect the anomaly data points of the input.

@@ -156,7 +160,7 @@ def detect_anomalies(
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before detect_anomalies")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.detect_anomalies(
            X, options={"contamination": contamination}
@@ -181,12 +185,12 @@ def to_gbq(self, model_name: str, replace: bool = False) -> KMeans:

    def score(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
        y=None,  # ignored
    ) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before score")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.evaluate(X)
@@ -332,7 +332,7 @@ def _compile_to_sql(

    def fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
        y=None,  # ignored
    ) -> ColumnTransformer:
        (X,) = utils.convert_to_dataframe(X)
@@ -347,11 +347,11 @@ def fit(
        self._extract_output_names()
        return self

-    def transform(self, X: Union[bpd.DataFrame, bpd.Series]) -> bpd.DataFrame:
+    def transform(self, X: utils.ArrayType) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("Must be fitted before transform")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        df = self._bqml_model.transform(X)
        return typing.cast(

@@ -84,7 +84,7 @@ def _bqml_options(self) -> dict:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
        y=None,
        transforms: Optional[List[str]] = None,
    ) -> PCA:
@@ -129,16 +129,19 @@ def explained_variance_ratio_(self) -> bpd.DataFrame:
            ["principal_component_id", "explained_variance_ratio"]
        ]

-    def predict(self, X: Union[bpd.DataFrame, bpd.Series]) -> bpd.DataFrame:
+    def predict(self, X: utils.ArrayType) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def detect_anomalies(
-        self, X: Union[bpd.DataFrame, bpd.Series], *, contamination: float = 0.1
+        self,
+        X: utils.ArrayType,
+        *,
+        contamination: float = 0.1,
    ) -> bpd.DataFrame:
        """Detect the anomaly data points of the input.

@@ -159,7 +162,7 @@ def detect_anomalies(
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before detect_anomalies")

-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.detect_anomalies(
            X, options={"contamination": contamination}

@@ -17,7 +17,7 @@

 from __future__ import annotations

-from typing import Dict, List, Literal, Optional, Union
+from typing import Dict, List, Literal, Optional

 import bigframes_vendored.sklearn.ensemble._forest
 import bigframes_vendored.xgboost.sklearn
@@ -142,8 +142,8 @@ def _bqml_options(self) -> Dict[str, str | int | bool | float | List[str]]:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
        transforms: Optional[List[str]] = None,
    ) -> XGBRegressor:
        X, y = utils.convert_to_dataframe(X, y)
@@ -158,24 +158,24 @@ def _fit(

    def predict(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
    ) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")
-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def score(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
    ):
-        X, y = utils.convert_to_dataframe(X, y)
-
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before score")

+        X, y = utils.convert_to_dataframe(X, y, session=self._bqml_model.session)
+
        input_data = (
            X.join(y, how="outer") if (X is not None) and (y is not None) else None
        )
@@ -291,8 +291,8 @@ def _bqml_options(self) -> Dict[str, str | int | bool | float | List[str]]:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
        transforms: Optional[List[str]] = None,
    ) -> XGBClassifier:
        X, y = utils.convert_to_dataframe(X, y)
@@ -305,22 +305,22 @@ def _fit(
        )
        return self

-    def predict(self, X: Union[bpd.DataFrame, bpd.Series]) -> bpd.DataFrame:
+    def predict(self, X: utils.ArrayType) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")
-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def score(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
    ):
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before score")

-        X, y = utils.convert_to_dataframe(X, y)
+        X, y = utils.convert_to_dataframe(X, y, session=self._bqml_model.session)

        input_data = (
            X.join(y, how="outer") if (X is not None) and (y is not None) else None
@@ -427,8 +427,8 @@ def _bqml_options(self) -> Dict[str, str | int | bool | float | List[str]]:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
        transforms: Optional[List[str]] = None,
    ) -> RandomForestRegressor:
        X, y = utils.convert_to_dataframe(X, y)
@@ -443,18 +443,18 @@ def _fit(

    def predict(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
    ) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")
-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def score(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
    ):
        """Calculate evaluation metrics of the model.

@@ -476,7 +476,7 @@ def score(
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before score")

-        X, y = utils.convert_to_dataframe(X, y)
+        X, y = utils.convert_to_dataframe(X, y, session=self._bqml_model.session)

        input_data = (
            X.join(y, how="outer") if (X is not None) and (y is not None) else None
@@ -583,8 +583,8 @@ def _bqml_options(self) -> Dict[str, str | int | bool | float | List[str]]:

    def _fit(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
        transforms: Optional[List[str]] = None,
    ) -> RandomForestClassifier:
        X, y = utils.convert_to_dataframe(X, y)
@@ -599,18 +599,18 @@ def _fit(

    def predict(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
    ) -> bpd.DataFrame:
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before predict")
-        (X,) = utils.convert_to_dataframe(X)
+        (X,) = utils.convert_to_dataframe(X, session=self._bqml_model.session)

        return self._bqml_model.predict(X)

    def score(
        self,
-        X: Union[bpd.DataFrame, bpd.Series],
-        y: Union[bpd.DataFrame, bpd.Series],
+        X: utils.ArrayType,
+        y: utils.ArrayType,
    ):
        """Calculate evaluation metrics of the model.

@@ -632,7 +632,7 @@ def score(
        if not self._bqml_model:
            raise RuntimeError("A model must be fitted before score")

-        X, y = utils.convert_to_dataframe(X, y)
+        X, y = utils.convert_to_dataframe(X, y, session=self._bqml_model.session)

        input_data = (
            X.join(y, how="outer") if (X is not None) and (y is not None) else None