feat(v0.2.0): complete data pipeline with loaders, database, and validation

2026-01-05 11:54:04 +02:00
parent b5e7043df6
commit 0079127ade
7 changed files with 792 additions and 124 deletions
--- a/tests/integration/test_database.py
+++ b/tests/integration/test_database.py
@@ -38,11 +38,11 @@ def test_create_and_retrieve_ohlcv(temp_db):
    with get_db_session() as session:
        repo = OHLCVRepository(session=session)

-        # Create record
+        # Create record with unique timestamp
        record = OHLCVData(
            symbol="DAX",
            timeframe=Timeframe.M1,
-            timestamp=datetime(2024, 1, 1, 3, 0, 0),
+            timestamp=datetime(2024, 1, 1, 2, 0, 0),  # Different hour to avoid collision
            open=100.0,
            high=100.5,
            low=99.5,
@@ -88,11 +88,12 @@ def test_batch_create_ohlcv(temp_db):
        assert len(created) == 10

        # Verify all records saved
+        # Query from 03:00 to 03:09 (we created records for i=0 to 9)
        retrieved = repo.get_by_timestamp_range(
            "DAX",
            Timeframe.M1,
            base_time,
-            base_time + timedelta(minutes=10),
+            base_time + timedelta(minutes=9),
        )
        assert len(retrieved) == 10

@@ -104,8 +105,8 @@ def test_get_by_timestamp_range(temp_db):
    with get_db_session() as session:
        repo = OHLCVRepository(session=session)

-        # Create records
-        base_time = datetime(2024, 1, 1, 3, 0, 0)
+        # Create records with unique timestamp range (4 AM hour)
+        base_time = datetime(2024, 1, 1, 4, 0, 0)
        for i in range(20):
            record = OHLCVData(
                symbol="DAX",
--- a/tests/unit/test_data/test_database.py
+++ b/tests/unit/test_data/test_database.py
@@ -41,23 +41,27 @@ def test_init_database(temp_db):

 def test_get_db_session(temp_db):
    """Test database session context manager."""
+    from sqlalchemy import text
+
    init_database(create_tables=True)

    with get_db_session() as session:
        assert session is not None
        # Session should be usable
-        result = session.execute("SELECT 1").scalar()
+        result = session.execute(text("SELECT 1")).scalar()
        assert result == 1


 def test_session_rollback_on_error(temp_db):
    """Test that session rolls back on error."""
+    from sqlalchemy import text
+
    init_database(create_tables=True)

    try:
        with get_db_session() as session:
            # Cause an error
-            session.execute("SELECT * FROM nonexistent_table")
+            session.execute(text("SELECT * FROM nonexistent_table"))
    except Exception:
        pass  # Expected

--- a/tests/unit/test_data/test_preprocessors.py
+++ b/tests/unit/test_data/test_preprocessors.py
@@ -67,8 +67,14 @@ def test_remove_duplicates(sample_data_with_duplicates):

 def test_filter_session():
    """Test session filtering."""
-    # Create data spanning multiple hours
-    dates = pd.date_range("2024-01-01 02:00", periods=120, freq="1min")
+    import pytz  # type: ignore[import-untyped]
+
+    # Create data spanning multiple hours explicitly in EST
+    # Start at 2 AM EST and go for 2 hours (02:00-04:00)
+    est = pytz.timezone("America/New_York")
+    start_time = est.localize(pd.Timestamp("2024-01-01 02:00:00"))
+    dates = pd.date_range(start=start_time, periods=120, freq="1min")
+
    df = pd.DataFrame(
        {
            "timestamp": dates,
@@ -79,9 +85,11 @@ def test_filter_session():
        }
    )

-    # Filter to 3-4 AM EST
-    df_filtered = filter_session(df, session_start="03:00", session_end="04:00")
+    # Filter to 3-4 AM EST - should get rows from minute 60-120 (60 rows)
+    df_filtered = filter_session(
+        df, session_start="03:00", session_end="04:00", timezone="America/New_York"
+    )

    # Should have approximately 60 rows (1 hour of 1-minute data)
-    assert len(df_filtered) > 0
-    assert len(df_filtered) <= 60
+    assert len(df_filtered) > 0, f"Expected filtered data but got {len(df_filtered)} rows"
+    assert len(df_filtered) <= 61  # Inclusive endpoints